人类可以很容易地识别事物并对其行为进行推理,这是我们认知发展的核心即使是孩子,他们也会根据他们的动态来细分对象,用持久性、稳定性和连续性的概念来解释对象会发生什么,并推断在其他情况下对象会发生什么。
受此启发,为了简化人工智能模型的视觉识别问题,一组来自麻省理工学院——国际商用机器公司沃森人工智能实验室、麻省理工学院计算机科学和人工智能实验室、深度思维和哈佛大学的研究人员引入了一套动态视频推理基准——clevre,并开发了一套可以预测物体运动的模型。
Clevre包含超过20,000个由物理引擎生成的碰撞物体的5秒视频。每个视频包含三种形状、两种材料和八种颜色。它还包括30多万个问题和答案。这些视频和问题都集中在逻辑推理的四个要素上:描述,什么颜色;解释原因;预测接下来会发生什么;与事实相反,如果什么

模型操作示意图
通过分析CLEVRER,研究人员确定了在描述性、解释性、预测性和反事实性问题上训练人工智能模型所需的内容,即:运动的符号描述、对象和事件之间的因果关系以及逻辑关系背后的推理随后,研究人员开发了一个神经符号动态推理模型
型号实际上由四部分组成它们是:视频帧解析器、神经动态预测器、问题解析器和符号程序执行器给定输入视频,视频帧解析器检测场景中的对象,并提取它们的轨迹和属性(即位置、颜色、形状、材质)在形成视频的抽象描述之后,它被发送到神经动态预测器以预测对象的运动和碰撞。问题解决程序接收输入问题,以获得代表其逻辑的功能程序然后,符号程序执行器在动态场景中运行程序并输出答案。
根据团队的报告,在应用了1000个程序的模型后,他们的模型对问题的识别准确率达到了88.1%,优于其他基准模型。在解释性、预测性和反事实性问题上,他们有更好的表现。
的研究人员指出:“自然科学-灾难恢复将动态规划集成到视觉推理任务中,可以直接预测未观察到的运动和事件,并且可以用于预测和反事实任务其次,象征性描述为视觉、语言、动机和因果关系提供了坚实的基础。通过设计,它使模型能够清楚地捕捉视频的因果结构和问题背后的逻辑”
,然而,研究人员也承认,即使训练所需的数据量相对较小,该模型仍难以在实际应用中使用此外,NS-DR的性能对于需要长期动态预测的任务(例如反事实问题)不是很高,这表明未来仍然需要能够产生更稳定和更精确轨迹的动态模型。