百度支持文库_百度飞桨重磅推出端侧推理引擎Paddle Lite 支持更多硬件平台

百度深度学习平台螺旋桨( PaddlePaddle )再扩大募集! 端侧推理引擎新升级,重量磅推出Paddle Lite,目的是使人工智能的应用在端侧更容易落地。 该推论引擎进一步完善了对多硬件、多平台和硬件混合调度的支持,是一次基于Paddle Mobile进行的大规模升级迭代。 通过改进基础结构设计,在可扩展性和兼容性等方面实现了显着提高。 Paddle Lite目前支持多种硬件平台,如ARM CPU、Mali GPU、Adreno GPU、华为NPU和FPGA,是当前第一个支持华为NPU在线编译的深入学习推论框架。

随着技术的进步,手机等移动设备已经成为非常重要的本地深度学习载体,但不断变异的硬件平台和复杂的终端使用情况将挑战端侧推理引擎的体系结构能力。 末端模型推理往往面临计算能力和内存限制,完全支持许多硬件体系结构,为了在这些硬件上实现人工智能应用性能优化,百度相容器基于Paddle Mobile预测库, 结合Anakin等多项相关技术优势,推出新的末端推理引擎Paddle Lite,通过对基础计算模型进行建模,增强多种硬件、量化方法、数据布局混合调度的运行能力,保证宏硬件的支持能力

Paddle Lite新升级到体系结构,重点添加了多种计算模型(硬件、量化方法、数据布局)混合调度的完整性设计,深层学习模型在不同硬件平台上的推理推广 与其它一些独立的推理引擎不同,Paddle Lite通过螺旋桨的训练框架及其相应的丰富而完整的运算符库,基础运算符的计算逻辑与训练严格一致,模型完全兼容,能够快速支持更多的模型。

Paddle Lite体系结构由四层组成。 模型优化工具将第一层模型层直接接受Paddle培训的模型转换为NaiveBuffer特殊格式。 更容易适应移动终端的展开场景。第2层的Program层是由operator序列构成的执行程序,第3层是完整的分析模块,主要包含TypeSystem、SSA Graph、Passes等模块的第4层是执行层

百度支持文库

Paddle Lite具有以下重要功能

与其他端引擎相比,Paddle Lite的可扩展性更高,框架层硬件抽象级描述能力更强,易于整合新硬件,模块化硬件和模型可以更详细地分析和优化。

模型支持方面,Paddle Lite现在支持Paddle图像分类、检测、分割、图像文字识别等领域的模型预测,公式发表了18个模型的benchmark。 另外,可以使用X2Paddle工具对在Caffe和TensorFlow中训练的模型进行变换并进行预测。

在硬件支持方面,目前Paddle Lite支持ARM CPU、ARM GPU、华为NPU和FPGA等硬件平台,支持的是寒武纪、比特大陆等国产AI芯片,支持的是英特尔、 与NVIDIA等主流云芯片兼容,通过与硬件制造商的广泛合作,lite具有高性能的表现,可以随着新硬件的发展提供比其他框架先进的性能表现优势。

模型支持和硬件平台支持的通用性总体上保证了框架的高通用性

在性能方面,Paddle Lite对不同的微体系结构进行了kernel深度优化,支持INT8量化计算,显示了在主要目标模型中领先的速度优势。 值得注意的是,“国产品”的华为NPU也有良好的性能表现。

与此同时,Paddle Lite可以深入定制和优化端设备的特性,而不依赖于第三方库,因此可以进一步减轻部署过程。 整体推理过程分为模型加载分析、计算图优化分析和设备高效运行。 移动终端可以直接引入优化的分析图来执行预测。 在Android平台上,ARMV7动态库为800k,ARMV8动态库仅为1.3M,可以根据需要进一步进行深层剪裁。

此外,还完善了Web前端开发界面,支持javascript呼叫GPU,能够在Web端迅速执行高级学习模型。

端侧推理引擎在人工智能应用落地阶段具有重要影响,与用户体验直接相关,在自动驾驶等人工智能应用领域,端侧推理引擎也关系到用户生命财产的安全。 百度飞桨发出Paddle Lite,大幅度优化和提高末端推理引擎的性能,对人类智能应用着地发挥了重要的推进作用。 在将来,Paddle Lite支持更多硬件并复盖更广泛的应用领域。

大家都在看

相关专题