现在我们生活在数据时代。 机器学习和数据分析技术已经成为我们现在生活中不可或缺的一部分。 那么接下来会怎么样呢?
在这个博客里,我不打算预测数据科学面临的未来是什么,也不打算推测那个未来是光明的未来,还是没有希望。 在这里我只把自己联系起来,也把我认识的人们的经验联系起来,提供一些决定性的因素来预测。
除此之外,大致描绘了影响未来十年数据科学未来的重要因素。 我希望那个能给工作流带来有价值的见解。 当然,这是我个人的预测。 如果你有兴趣,请继续读
01数据科学的未来:你觉得怎么样?
一、更多的数据科学战略
数据科学是定量解决问题的学科。 过去,由于数据和数据处理能力不足,只能依赖“独裁者的突发奇想”、“专家的直觉”和“普遍的共识”等其他东西。 今天,这些完全没有被使用。 毫无疑问,十年后的作用更加有限。 数据科学家构建了能够输出语音、预测、期待并输出真正结果的系统。
数据科学技术泡沫不会破裂。 相反,数据驱动战略的引入继续占主流。 更多的人关注数据,从数据中获得洞察力,因此数据科学团队成为了任何成功的组织,至少是大部分组织不可或缺的一部分,他们希望在组织之间竞争,获得领域的前沿。
2、定义更明确的作用
因此,数据科学更受欢迎,大多数顾客更了解数据科学家在做什么。 目前,数据科学家是广泛的称号。 现在领域内的人在使用相关的名字和说明时有些不合理,外界对这个领域内的人的作用感到困惑。
我们一般将数据科学领域的作用分为4类,作用机能不同但重复。 数据设计师:开发数据体系结构以有效捕获、整合、组织、集中化和维护数据。 数据分析师-处理和解释数据,为公司提供有意义的预测。 数据科学家-当数据卷和生成速度达到一定水平时,需要复杂的技术来分析数据。 数据工程师-开发、测试和维护数据体系结构,确保随时使用数据进行分析。
随着时间的流逝,我们对所有这些角色都有了更深入的了解,我想我们更加了解它们的不同。 因此,顾客能得到什么,有更现实的期待,头脑中有更明确的工作流程,也有从中得到的收益。
3、更多软技能的需求
随着时间的推移,很多数据科学家都熟练使用Python和r语言。 但是,说服管理层相信推销想法的能力、洞察和见解所要求的能力的能力会变成什么样,视觉说明能够承担一半的工作,另一半是旧的营销能力。 结果表明,我们知道如何以销售产品为中心进行重要对话的人在市场上更受欢迎。 所以,组合硬的软技能的人永远都很好吃。
4、数据增多,处理数据的人工智能也增多
现在我们来谈一谈严肃的事情。 每天我们产生的数据量多得难以想象,以我们现在的速度,每天的数据量是2.5个10的18次方字节,而且这个速度只会加快。 查看在Raconteur网站上创建的每日重要数据信息图: 5亿Twitter信息2940亿邮件4千兆字节Facebook数据4兆字节机车网络数据650亿条WhatsApp信息50亿条搜索信息
到2025年,世界上预计每天会产生463 EB ( 463 * 10 ^ 18字节)的数据,相当于每天212,765,957张DVD的数据量
实际上,单靠数据科学家是无法管理和处理这样庞大的数据的。 在那个时候,人工智能很可能成为数据科学家处理数据的有用工具。 自动化的数据分析工具和机器学习,可以代替数据科学家做日常工作。 例如探索性的数据分析、数据清理、统计建模、机器学习模型的构建。
5、更少的代码,更少的代码
特斯拉AI总监A. Karpathy说,不久的将来,我们不用写代码。 只需找到数据并将其输入机器学习系统。 在此方案中,软件工程师的角色是“数据监督者”。 将来大多数程序员不需要复杂的软件仓库,也不需要写复杂的程序。 根据Karpathy,程序员从事收集、整理、操作、标记、分析以及将神经网络生成的数据可视化的工作。
机器学习领先于新的计算模式,在这个模式中训练机器是重要的技能。 随着机器学习技术的普及和工具的抽象化,大部分的编程工作都会消失。 最终,制造产品的大部分步骤是在画面上拖动,卡片,指点,点击操作。 员工从中解放出来,解决问题时有战略创意。 你在《星际迷航》上看到过谁写电脑程序吗?
r语言、Python、Spark等工具会浪费吗? 大多数数据科学家是否已经不再需要编写程序来训练统计分析和机器学习模式? 不是那么简单。 总之,将希望寄托在这些方面的意义很小。 你还需要了解和熟悉这些处理过程,机器学习只是辅助日常业务。
6 .尽可能多地使用应用程序接口( API )
大多数分公司首先做一件事,成名后,然后作为开源API为社区做贡献。 10年后,大多数软件生产方案都会接入终端并充分利用所需的服务来创建解决方案。 数据科学家迅速构建测试模型,一次构建多个算法进行测试,最后能够将整个团队和验证结果可视化。 未来通过及时引入深刻的技术思维,科学家将不遗馀力地重新工作。
7 .自我学习
传统的学术环境逐渐失去意义。 信息经济需要迅速改变信息的方法。 人们在三四年的学习中毕业后,学的技能落伍了。 人们通过控制自己的学习过程,开始赋予自己才能,将来能够生存的学院就是接受在线学习,迅速更新授课方式的学院。 未来的学习不是根据缺少现实世界应用的基础原理,而是根据能够构筑什么来定义的。
Q1.数据科学家是否取代自动化算法
根据流行的CRISP-DM数据分析项目管理方法,数据分析项目的实施分为六个阶段,分析师和数据科学家直接参与:业务理解数据准备对数据进行模型化评估

步骤3和4包括许多例行化工作。 为了利用机器学习解决个别的具体实力,不断地尝试模型的超参照配置新算法,在模型中分类原始特征的不同表现形态(标准化、分散稳定性、单调变换、降维、变量代码分类、从现有特征创建新特征等)
在自动化帮助下,您可以删除分析师和数据科学家的日常活动,以及部分数据准备和组织活动。 然而,由于步骤3和步骤4的其他部分以及CRISP-DM的剩馀步骤保留着,所以简化分析家的日常工作并不威胁他们的职业。
机器学习只是数据科学家使用的工具之一,也有可视化、数据调查、统计和计量经济学的方法。 就算是机器学习的方法,完全自动化也是不可能的。 在解决新算法及其组合开发和应用中存在的未标准化问题时,无疑会保持数据科学家的高级角色特性。 自动化算法可以整理所有标准的组合,生成基本的解决方案,专家们可以在此基础上进一步改进。 然而,在许多情况下,自动算法生成的结果是令人满意的,并且可以被原样使用而不进行改进。
离开分析师的帮助,很难想象某个业务可以直接使用自动化的机器学习方法生成的结果。 无论如何,还需要上述方案的数据准备、生成结果的解释、以及其他阶段。 同时,现在很多公司的分析师都在继续与数据交流,具有非常成熟的精神,在业务领域非常熟悉,但掌握机器学习方法的水平还不够。
公司往往难以吸引特别有能力的高工资机器学习专家,市场对他们的需求不断增加,而且超过了供应的数倍。 解决方案可能为公司分析家提供使用自动化机器学习工具的途径,需要推广自动化技术。 将来,许多公司不需要组建高度专业化的团队,也不需要顾问企业的参与,能够享受大量数据带来的好处。
Q2.数据工程师是否优于数据科学家?
我认为应该区分数据科学家和数据工程师。
前者是受过正规教育的应用数学家,他们研究了数据科学,开发了新的算法,构建了神经网络。
后者的兴趣点稍有不同,他们理解了各种方法的理论和应用的局限性,能够很好地解决业务问题。
前者能做决不可或缺,后者的工作有一部分可以自动化,但不能完全自动化。 新的方法、新的算法和新的解决方案出现。 此外,这些能力仍然非常重要,因为专业了解主题领域和数据的本质,了解客户目标,快速实现目标的能力无法通过完全自动化的方法实现。
数据科学是一门实际的科学,但世界正在向功能性的数据科学发展,员工可以自己进行数据分析。 与数据科学家相比,开始与数据流程集成的数据结构需要更多的数据工程师。
聪明的组织有聪明的人才,他们很了解自己的数据。 数据科学家之所以存在,是因为很多组织还没有理解数据。 但是他们以后会知道的。
数据科学家创造了一个划时代的算法,但是如果数据技术人员没有把这个算法降到业务生产中去,算法是值得的吗?
再确认一下我最喜欢的Gartner的数据吧。 15%的大数据项目最后投入生产领域。 他们没有深入探讨剩下的85%为什么不能投入生产领域,但我提出了一些重要原因:他们没有找到值得着陆的见解他们找到了合适的见解,也建立了模型,但是在服务水平协商的框架下制定了多次可用的流水线 但是,它仍然是一条在服务级协议框架中无法多次使用的流水线。
因此,所有数据科学公司都至少需要两个数据工程师。
02总结
数据科学家的职业前景如何,仍然模糊不清,需要专业的判断。 但是,由于每天都有新的代码库和工具出现,我们并不是走简化业务模式开发和创建的道路。 很多人说自信很好,但有不好的一面。 我们制作的系统越复杂,系统就越随机,以概率为基础。
目前人工智能阶段的主要问题是预言结果意义不直观。 我们只能用定量的方法解决某些特定的问题,依据这个方法进行预测,但预测的质量不高。 迄今为止,该方法运作良好,但未来不为人所知。