大数据时代,大数据分析和应用非常流行。越来越多的大公司、大企业和大集团越来越关注大数据的影响和作用。可以说,谁想获得大数据的第一手可靠数据,谁就在未来的业务发展和扩张中具有优势,谁就将是第一个在相关领域独占鳌头的人。然而,大数据现在的发展前景如何?谁负责大数据的可靠性,谁能保证大数据的真实性?我们甚至可以回顾一下,大数据发展到了什么阶段?我认为很少有人能清楚地知道这一点!毕竟,在热门的大数据分析和应用时代,一般人只知道大数据的表面和表面特征,但他绝对不知道或对大数据的发展前景、大数据背后的来源、处理和分析以及其他复杂的工作程序不感兴趣。此外,对于普通人来说,不可能真正理解大数据分析和应用背后的可靠性、客观性和真实性的来源支持和科学方法。接下来,我会用简单的英语告诉大家大数据今天达到了什么阶段,从而了解大数据的发展前景。
“大数据”已有3年历史,在快速变化的老式技术初创企业社区听起来有点过时。尽管Hadoop于2006年问世,但“大数据”的概念直到2012年至2015年才真正流行起来正是在这一时期,至少在媒体或专家眼中,“大数据”开始慢慢成为新的“黄金”或“石油”然而,至少在我与该行业的对话中,人们越来越感觉到这项技术在某种程度上已经达到停滞或混乱的阶段。2017年可能是数据领域的酷孩子转移兴趣,开始沉迷于人工智能和许多相关概念,如机器智能和深入学习的一年。
不管不可避免的炒作周期曲线,我们的“大数据地图”已经进入第四年。借此机会回顾一下去年发生的事情以及行业的未来。看到大数据现在发展到什么阶段是非常有意义的。那么,2019年大数据还有多大的发展和进步空间?我们不妨讨论一下
企业技术=努力工作
大数据的有趣之处在于,它不再像以前那样成为炒作的对象。
经过一个炒作周期后仍能引起广泛兴趣的产品和服务通常是那些可以联系、感知或与公众联系的产品和服务:如移动应用、社交网络、可穿戴、虚拟现实等。
但是大数据基本上是一种管道设施当然,大数据为许多消费者或企业用户提供了体验的动力,但其核心是企业技术:数据库、分析等。这些东西都在后台运行,很少有人能看到它们。任何在那个世界工作的人都知道,不可能在一夜之间适应企业的新技术。
大数据现象主要是由与一批骨干互联网公司(尤其是谷歌、脸书、推特等)的共生关系推动的。),他们都是核心大数据技术的大量用户和创造者。当这些公司突然面临前所未有规模的巨大数据时,他们不得不自己开发所需的技术,因为他们缺乏传统的(昂贵的)基础设施,也无法招聘到一些最好的工程师。后来,随着开源运动的迅速发展,大量这样的新技术开始被更广泛地共享。然后,一些大型互联网公司的工程师离开了他们的工作,开始了他们自己的大数据创业其他“数字本土”公司,包括崭露头角的unicorn公司,也面临着来自大型互联网公司的类似需求。由于他们没有传统的基础设施,他们自然成为大数据技术的早期采用者。早期的成功导致了更多的创业活动和更多的风险投资,从而推动了大数据的兴起。经过几年的快速发展,
现在面临着一个更广泛但更困难的机遇:允许从中型到跨国公司的更大规模的企业集团采用大数据技术。这些公司和“数字本土”公司的区别在于,它们没有从头开始的优势。他们将损失更多:这些公司现有的大部分技术基础设施都是成功的。当然,这些基础设施不一定能完全发挥作用。组织中的许多人也意识到,尽早实现遗留基础架构的现代化比推迟更好,但他们不会在一夜之间更换关键业务。任何革命都需要过程、预算、项目管理、试点、本地部署和完整的安全审计等。可以理解的是,大型企业对处理基础设施关键部分的年轻初创企业持谨慎态度。同样,让企业家绝望的是许多(或大多数?)企业仍然顽固地拒绝将数据迁移到云(至少不要迁移到公共云)
还需要理解的另一个关键是,大数据的成功不在于实现技术的一个方面(如Hadoop或其他),而在于一系列技术、人员和流程的集成。您必须捕获数据、存储数据、清理数据、查询数据、分析数据和可视化数据有些工作可以通过产品来完成,而另一些工作则需要人来完成。一切都需要无缝集成最后,为了实现所有这些,整个公司需要从上到下建立一个数据驱动的文化,这样大数据不仅是一个“东西”,而且是一个(关键的)“东西”换句话说:有许多艰苦的工作要做。
部署阶段
因此,经过几年引人注目的初创企业如雨后春笋般涌现以及风险投资频率等头条新闻,我们已经进入了大数据的部署阶段和早期成熟阶段。
个更具前瞻性的大公司(让我们称它们为传统技术采用周期的“早期采用者”)在2011年至2013年间开始试验大数据技术,推出了许多Hadoop试点项目(通常是由于时尚)或尝试一些单点解决方案他们招聘了以前不存在的各种职位(如“数据科学家”或“首席数据官”)他们做了各种努力,包括将所有数据堆积到一个数据容器(“数据湖”)中,然后希望奇迹会发生(通常不会)他们逐渐建立自己的内部能力,测试各种供应商,从试点项目到生产中的部分部署,然后讨论是否要推出整个企业(推出整个企业的情况仍然很少见)在许多情况下,他们正处于一个如此重要的转折点,以至于在大数据基础设施建设了几年之后,他们无法展示出太多的成果,至少在公司内部的业务用户眼中是如此。然而,大量吃力不讨好的工作已经完成,现在我们正进入有影响力的应用程序部署阶段。仅从目前的角度来看,构建在核心架构上的应用程序数量仍然不成比例
下一波大公司(称为传统技术采用周期的“早期多数用户”)大多对大数据技术持观望态度。他们仍在某种程度上困惑地看待整个大数据方面。直到最近,他们还在期待一家大型供应商(如IBM)提供一站式解决方案,但现在看来,这在不久的将来不会发生。他们对这种大数据环境的态度令人担忧,怀疑他们是否真的需要与这些看起来没有什么不同的初创企业合作,然后制定各种解决方案。
生态系统正在走向成熟。与此同时,在初创企业/供应商领域,整个第一波大数据公司(成立于2009年至2013年)现已汇集了几轮资金,企业规模已经扩大,他们已经从早期部署的成败中吸取了教训。现在他们能够提供更加成熟和经过测试的产品。一些公司已经成为上市公司(包括2015年上市的霍顿工程和新遗迹),而其他公司(如Cloudera和MongoDB)已经筹集了数亿美元。
中的风险投资融资活动仍然非常活跃。在2016年的前几周,我们见证了几轮相当大的后期大数据融资活动:数据狗(9400万美元)、布鲁姆瑞奇(5600万美元)、曲伯乐(3000万美元)、Place IQ(2500万美元)等。2015年,大数据初创企业获得融资66.4亿美元,占整个技术风险投资融资总额的11%
并购活动已公平开展(自大数据地图上一版发布以来,已完成34项并购,详情请参见附注)。
随着这一领域创业活动的不断发展和资金的不断流入,加上适度的退出,以及技术巨头(尤其是亚马逊、谷歌和IBM)的日益活跃,这一领域的公司数量不断增加,最终这一2018年版的大数据地图得到了整合。
很明显,这张图片已经很拥挤了,还有很多无法列出。
就基本趋势而言,行动正开始从左到右缓慢转移(即创新、新产品和新公司的引入),从基础架构层(开发人员/工程师的世界)转移到分析层(数据科学家和分析师的世界),甚至应用层(业务用户和消费者的世界),“大数据本地应用程序”已经在迅速涌现,这与我们最初的一些预期有些一致
大数据基础设施:仍有许多创新
谷歌关于MapReduce和BigTable的论文(Cutting和MikeCafarella为此制作了Hadoop)已经发表了10年。在此期间,大数据的基础架构层已经逐渐成熟,一些关键问题已经得到解决。
,然而,基础设施的创新仍然是动态的,主要是由于开源活动的相当大的规模。
2016无疑是Apache Spark的一年自从我们发布了大数据领域的最新版本,这个使用内存处理的开源框架已经开始引起许多讨论。从那以后,火花赢得了从IBM到Cloudera的各种玩家的支持,使它获得了相当大的信任。Spark的出现意义重大,因为它解决了一些阻碍Hadoop采用的关键问题:Spark更快(基准测试显示Spark比Hadoop的MapReduce快10到100倍),更容易编程,并且可以与机器学习很好地匹配。除了Spark,
还有一些其他令人兴奋的框架,如Flink、Ignite、Samza、Kudu等。这些框架也发展得很好。一些思想领袖认为,Mesos(数据中心资源管理系统,将数据中心编程为一个大型计算资源池)的出现也刺激了对Hadoop的需求。
即使在数据库领域,似乎也有越来越多的新玩家。尽管市场不再负担得起,但这里已经发生了许多令人兴奋的事情,从图形数据库的成熟(如二级数据库)到专门数据库的引入(如统计时间序列数据库InfluxDB),甚至还有CockroachDB的出现(一种由谷歌扳手启发的新数据库,结合了SQL和NoSQL的优势)数据仓库也在不断发展(例如云数据仓库雪花)
大数据分析:现在
大数据分析与人工智能相结合。过去几个月出现的一个趋势是,越来越多的人开始关注使用人工智能(具有不同的形式和风格)来帮助分析大规模数据,从而获得预测性的见解。
事实上,最近复活的人工智能很大程度上是大数据的产物。深度学习(最近最受关注的人工智能领域)背后的算法基本上诞生于几十年前,但是直到最近它才实现其最大潜力,直到它可以足够便宜和快速地应用于大规模数据。人工智能和大数据之间的关系如此密切,以至于行业专家现在认为人工智能已经遗憾地“疯狂地爱上了大数据”
有两个趋势值得强调
首先,这些应用程序中的许多都是“大数据原生”的,它们本身都是基于最新的大数据技术开发的,这对于客户来说是一种利用大数据而不部署底层大数据技术的有趣方式,因为这些底层技术已经打包,至少对于特定功能来说是这样。例如,ActionIQ是在Spark(或Spark的衍生产品)的基础上开发的,因此其客户可以在营销部门利用Spark的力量,而无需自行部署Spark。在这种情况下,没有“装配线”
其次,人工智能在应用层也有很强的影响力例如,在猫鼠安全领域,人工智能被广泛用于对付黑客,实时识别和打击网络攻击去年出现了一个人工智能驱动的数字助理行业,几乎支持从任务自动化到会议日程安排(如x.ai)和购物的一切。这些解决方案在不同程度上依赖于人工智能,从几乎100%自动化到“参与”,但很明显,在人工智能的帮助下,人的能力得到了增强
结论
从许多方面来看,我们仍处于大数据现象的早期发展阶段虽然已经花了几年时间,但减少存储和处理大规模数据的基础设施只是第一阶段。人工智能/机器学习已经成为大数据应用层的一个快速发展趋势大数据和人工智能的结合将推动许多行业的惊人创新从这个角度来看,大数据的机会可能比你想象的还要大。
但是,随着大数据的不断成熟,这个术语本身可能会消失或变得太过时,任何人都无法再使用它这是成功赋权技术的讽刺性命运——由于技术的广泛传播,它达到了无处不在的地步,最终被视而不见。