仓库_知识图谱,能否成为企业下一代的数据仓库?

“我认为知识地图是企业新一代管理数据的新组织方式,可以更有效地将上游大数据与下游AI建模任务联系起来。

如果企业的初始数据量较少,而且结构单一,那么结构化数据库(如MySQL )就足够了。随后,数据量增加,业务系统变得越来越复杂,需要分布式数据库、数据仓库和数据集市来管理数据资产。 此类数据应预先定义结构。 但是,在大数据时代,因为不能事先定义数据的构造,所以很多企业利用Hadoop等构筑大数据平台,开始用NOSQL存储无法事先定义的数据。 但是,这些数据是如何有效地相关联的? 例如,要查找一些深度(例如,4度、5度或隐形关系),必须使用知识图来组织数据。 ’他说

在最近雷锋网AI科技评论对张杰博士的访谈中,张杰回答了他对知识地图未来发展的看法。

张杰博士是明略科学技术老手科学家,明略科学院知识工程研究室主任,加入明略科学技术后一直负责明略科学技术“行业知识图谱”的研究与建设工作,此前在华为中央研究院从事机械学习研究。

张杰说:“在我们内部,知识地图是企业的下一代数据仓库。 其优点不仅可以有效地调查深度关系,还可以根据图像推进,通过导入常识知识和领域知识,可以从现有知识中产生新的知识”。

雷锋网AI技术评论认为这是一个有趣的观点。

仓库

一、数仓

数据仓库的概念,是1990年由比尔·印蒙提出的。 在此,您必须区分数据库和数据仓库之间的区别。

数据库是存储数据的逻辑概念,由多个表组成,当前常见的数据库包括Oracle、DB2、MySQL、Sybase和MS SQL Server。

数据仓库是数据库概念的升级。 从逻辑上来看,数据库和数据仓库没有区别,全部都是通过数据库软件存储数据的地方,但从数据量来看,数据仓库远远大于数据库。 数据仓库主要用于数据挖掘和数据分析,支持复杂的分析操作,专注于决策支持,提供直观易懂的查询结果。

在bilding的着作Building the Data Warehouse中定义了以下数据仓库

数据仓库是一组反映了相对稳定、面向主题的统一历史变化的数据,可帮助管理决策。

这种组织数据方式(面向业务过程的数据组织方式)一般是物理地汇总数据。 从存储的角度来看,数据是独立的显示结构,例如常用的会员表、订单表等,表与表之间无法在数据水平上集成,需要经由外部的辅助工具进行逻辑和数据的整理,因此该形式不是逻辑上的集中,而是物理上的集中。

这种传统数据仓库有统计报告,具有能高效地进行数据统计的优点。

但其缺点正如前面张杰博士指出的

1 )对于这样的结构化数据,需要事先定义结构(明确知道数据的格式和关系),在添加数据的过程中难以改变结构。 这样的结构化数据价值密度很高,但是在大规模的数据时代不能预先定义所有的数据,所以不能利用现在因特网上出现的大量非结构化数据。

2)1)的情况下,使用像Hadoop这样的分散处理框架开发大规模的数据平台的企业也很多,能够存储没有预先定义的、容量非常大或者结构化的数据库没有被索引的数据。 但是,这些数据是如何有效关联的,如何进行深度查询仍然是很困难的。 例如,在结构化数据平台或大型数据平台的数个仓库中,可以承受一次关系、两次关系查询,但是对于四次、五次或看不见关系查询则变得非常困难。

仓库

2 .知识地图

知识地图最初是谷歌在2012年提出的概念,但实际上已经有相关的研究(称为知识工程学)。

知识图本质上是语义网络,是基于图的数据结构,由节点( Point )和边缘( Edge )组成。 在知识图中,各节点表示现实世界中存在的“实体”,各边是实体和实体的“关系”。 知识图谱也是“关系”最有效的表现。 一般而言,知识图是将不同种类的信息( Heterogeneous Information )全部连结起来的关系网络。

张杰表示,在知识组织层面,成像将成为企业进行数据管理的未来趋势。

仓库

另一方面,客户已经拥有的结构化知识很容易更加深入地关联起来,同时保证了查询的效率,深入的关联在以往的数仓技术框架中是不能实现的。 另一方面,客户可以从物联网、互联网等大容量非结构化数据中提取知识段,扩大客户数据的维度,增加知识的蕴藏量,帮助获得大的数据分配。

在知识显示水平上,知识图是上游大数据和下游AI任务的有效连接。 成像的知识更容易意义化,知识片段相关联形成图像后,更多的相关信息意味着更丰富的意义信息。

通过正确引入常识和领域知识,可以量化地图中的节点和关系,突破传统字符串匹配的浅层含义,更方便有效地支持客户组织领域知识,为流程优化、决策支持、预测分析等下游应用提供基础服务。

明略科学技术在这方面有充分的思路和实践。 例如在知识表示方面,目前技术侧重于一些研究问题。 具有部分属性和标签的静态图像如何定量显示、动态变化以及如何从不符合马尔可夫性的图像中导出事件之间的因果关系、常识知识、区域知识和非结构化片段知识如何映射到同一语义空间,以及统一知识显示框架中的下游分类、搜索、推荐和问答等

仓库

3、困难

然而,到目前为止,在知识地图成为数仓的过程中,研究上的问题和产业上的问题依然存在。

在研究方面,对近年来国际会议的相关工作进行了全面分析,发现知识图像落地过程的各个阶段都存在各自的问题:构建水平,目前比较关注的是弱监督、远程监督、自我监督、小样本等提取方案的推理水平,主要是图神经网络、 在集中于基于图示学习的研究等的知识建模水平上,有几个分类图(这是赫兹大学最初提出的概念)、动态知识图、时序过程的探索。

其次,在工业应用方面

首先,关于构建知识地图的“数仓”,目前最重要的问题是大规模、低延迟的效率问题。 目前企业能掌握的相关数据一般规模从千万到百亿节点,将来随着5G和物联网的普及,其规模将进一步扩大,许多场合要求从秒级到毫秒级返回查询结果。 这不仅是对底层地图数据库的挑战,很多上层AI任务的算法都要结合中层地图挖掘算法和更下层地图数据库操作员,优化层间联合的并行化。

另一个挑战是知识的完整性问题,使用知识图的目的不仅仅是作为中间数据服务的作用,还有引入常识知识和领域知识,用大规模的数据进行自动推理和补充,在图中的知识达不到一定的水平和丰富度之前,推理的精度不能保证或者难以展开,两者之间

而且,目前已经应用越来越多,其中包括文本以及图像、语音、视频等多模式内容,指出如何为多模式知识图的构建提供良好的解决方案,在未来的时间里仍然是一个挑战性问题。

因此,张杰博士补充说:“知识地图不是替换数据仓库,而是数据仓库的有效补充。”

大家都在看

相关专题