大数据( big data )是指需要迅速获得、处理、分析并提取价值的大量、多种交易数据、对话数据和感测数据,其规模经常达到PB(1024TB )级。 不同组织对大数据有不同的定义。
麦肯锡大数据的定义:大量数据集大大超出了传统数据库软件工具的能力,具有大量数据规模、快速数据流、多种数据类型和价值密度低的四大特点。
移动信息化研究中心大数据的定义:大数据帮助企业利用大数据资产实时准确地洞察未知逻辑领域的动态变化,快速重建业务流程、组织和行业的新兴数据管理技术。
IDC认为大型数据具有四个特性:卷、异构、Velocity和Value。
2 .全球大规模数据储量爆炸性增加
随着物联网、电子商务、社会化网络的迅速发展,世界大数据储量迅速增加,为大数据产业发展奠定了基础。 根据国际数据公司( IDC )的监视数据,2013年全球大数据储存量为4.3 zb (相当于47.24亿台1TB容量的移动硬盘),2018年全球大数据储存量达到33.0ZB,比去年增加了52.8%。
从大数据储量分布情况来看,美国大数据储量占21%,EMEA (欧洲、中东、非洲)占30%,中国地区占23%。
2013-2018年全球大数据储量统计和增长情况

资料来源:前瞻性产业研究院的整理
2018年全球大数据储量区域分布情况

资料来源:前瞻性产业研究院的整理
流处理占主导地位,Kafka和Spark成为主流应用
根据数据处理的时效性,大数据处理系统分为批量大数据和流大数据两类。 其中,分批方式的位数据也称为历史位数据,流方式的位数据也称为实时位数据。
以Hadoop为代表的批量大数据系统,首先集中数据,经过批量预处理加载到分析型数据仓库中,进行高性能实时查询。 这种系统可以对大型数据集实现高效的即席查询,但不能查询最新的实时数据,并且存在诸如数据延迟等问题。
以Spark Streaming、Storm、Flink为代表的流处理大型数据系统对实时数据进行流处理,顺次加载到高性能的存储器数据库中进行查询。 这种系统可以实现对最新实时数据的有效预设分析处理模型查询,且数据延迟较低。
随着互联网、计算机行业的迅速发展,企业越来越重视数据的时效性,企业应用也从批量数据平台转向实时流式数据平台。 以流式传输数据处理为代表的Spark、kafka大型数据系统近年来取代了Hadoop的主导地位。
大数据实施流程处理的特征分析状况

资料来源:前瞻性产业研究院整理
2018年世界主要数据处理系统热排名情况

资料来源:前瞻性产业研究院的整理
上述数据来源参照先见产业研究院发布的《中国大数据产业发展前景和投资战略规划分析报告》,先见产业研究院为产业大数据、产业规划、产业申报、产业园区规划、产业招揽等解决方案提供依据。
资料来源:前瞻性网