英伟达被谁收购_加速计算25年,英伟达GPU帝国的三块新版图

电子发祥友原件(文/张慧娟)在加速计算领域25年,英伟达以15亿张GPU的发货量提交了学霸成绩单。

所有GPU都与CUDA兼容,并且采用相同的体系结构。 这是黄仁勋GPU帝国中最引人注目的一条。 集成的体系结构可以在各种工作负载下实现加速计算;在芯片起点上,通过完整的堆栈工程进一步加速。

CUDA平台拥有丰富的库、工具和应用程序,仅去年就发布了500多个SDK和库,并具有新的内容和最新版本。 通过持续优化,深度学习训练在3年内增加了4倍,深度学习推论在1年内增加了2倍。

英伟达被谁收购

过去几年,AI取得了重大进展,开始逐步改变行业。 从图像识别、图像分类,识别不同的物体等,也能识别图像中的各个像素。 在这背后,深刻学习的驱动力很大。 今年GTC,黄仁勋也着重介绍了英伟达在推荐系统和交互式AI两个方向上的重大进展。

网上推荐系统加快“双十一”的速度

推荐系统已经成为互联网的重要引擎。 我们在网上购物的时候,需要选择数十亿的产品。 您可以浏览数以万计的网页,也可以使用数以百万计的视频和应用程序。 如何在适当的时间将适当的内容和产品推送给用户? 这是所有电器商业平台、社交媒体等面临的最大的创伤。

在这种背景下,我们需要深入了解每个产品的各种特性,包括每个用户的喜好、历史行为等,几乎形成了TB级的数据集。

最生动的案例之一是阿里巴巴的年购物日“双11”。 今年的“双十一”,阿里巴巴创造了380亿美元的销售额,比去年的310亿美元增加了约四分之一,“黑色星期一”和“网络邮购周一”的网络销售额合计的2倍以上。

对阿里巴巴来说,推荐系统是一个重要的应用。 这个系统可以向用户提示符合喜好的商品,加大点击率。 点击率在电商界一直是提高销售量的重要推动力。 小幅提高点击率直接影响用户体验和业务收入。

阿里巴巴使用NVIDIA GPU支持三种优化策略:资源分配、模型量化和地图转换,提高了吞吐量和响应能力。 NVIDIA T4 GPU可以为推荐模型提供加速度,每秒处理780个查询,并且基于每秒3个查询的推论远远领先于CPU。

英伟达被谁收购

英伟达加速计算产品管理总监Paresh Kharya表示,推荐系统面临的挑战巨大,主要体现在两个方面:第一,这些模型非常复杂,需要处理的数据量庞大。 为了提高建议的相关度,必须对所有参数建模。 例如,用户的购买记录和阅览记录等,处理的参数非常多。 其次,这些模型必须实时计算。 用户在阅览时需要立即看推荐结果,因此不能等待很长时间。

这两大难题都需要以非常快的速度完成计算,屏障从CPU转移到GPU使用后,点击通过率提高了10%。 事实上,这种“点击率”很难逐步提高,GPU实时大规模运行,因此可用于该系统。

除了电子商务领域,只要产品与人相匹配,就需要这样的推荐系统。 百度、速手、美团、微软是必需的,沃尔玛、美国邮政等传统企业也在推荐系统中采用了英伟达的GPU平台。

值得注意的是,其他处理器,如FPGA,当前也在功率推荐系统之内。 Paresh Kharya说,AI的更新迭代非常快,模型规模非常大,每隔几分钟更新一次,整个推理过程都在变化,因此需要不断训练并有效地推荐这些模型,需要庞大的计算能力。 GPU可以说是AI领域的专用芯片。 具有指令集的优点,可编程的,在软件中定义。 此外,体系结构是前向兼容的,可以根据软件更新整个硬件体系结构,也可以直接在软件库中进行更新。

除了GPU,英伟达也通过工具和软件支持。 例如,最新的Tensor RT支持在不同的方案中部署模型,并支持数百万用户每秒搜索数十亿人。

会话式AI与真正的人工智能人机对话

在对话式AI上,黄仁勋发布了最新版本的推理软件NVIDIA TensorRT 7。 它实现了更智能的AI人机对话,可以与语音代理、聊天机器人、推荐引擎等应用程序实时对话。

实现对话式AI的难点主要是什么? Paresh Kharya为了实现交谈式AI,首先需要理解用户在说什么,然后将他说的语音转换为文字,理解文字的意思,并将其转换为语言,因此需要许多模型同时发挥作用并支持多种神经网络 其次,这个复杂的计算过程都必须在300毫秒以内完成,如果是几秒的话,这是实际会话不能接受的延迟,会话式AI也会失去意义。

TensorRT 7内置了新的深度学习编译器。 该编译器可以自动优化和加速递归神经网络和基于转换器的神经网络。 与在CPU上执行相比,会话式AI组件的速度提高了10倍以上,能够实现所需的300毫秒的阈值以下。

对于对话式AI领域的投资,黄仁勋表示:“进入了能够实时理解人类语言的新时代。 TensorRT 7为全球开发人员提供了工具,帮助他们构建和部署更快、更智能的交互式AI服务,以实现更自然的AI交互。

TensorRT是英伟达的推理优化软件。 英伟达的GPU在自动化运行、数据中心、嵌入式设备等领域也需要在PyTorch、TensorFlow等多个框架中训练自我优化的AI模型,TensorRT能够提供该优化模型。

由于AI具有各种使用场景,因此,不同的场景由不同的神经网络支持。 为了优化AI性能,各种神经网络都需要进行优化。 TensorRT 7的发售迈出了很大的一步,Transformer和RNN这一模型可以通过TensorRT 7进行优化。 其中,Transformer的典型模型是BERT,具有大量非常先进的自然语言理解功能的RNN的典型例子是将语音识别或文本转换为语音。

英伟达还对TensorRT 7进行了大量优化。 例如,许多数学运算能够更有效率地减少所使用的存储器量。 并且,在TensorRT 7中引入了内核生成功能,任何RNN都能够生成最佳的内核。 TensorRT 5仅支持几种类型的神经网络,而TensorRT 7基本上可以支持多种类型的神经网络,这些模型对于“会话型AI”至关重要。

第一次符合arm体系结构的快速计算

在GTC上,英伟们还发布了第一个基于arm的参考体系结构——NVIDIA HPC for arm。 双方的合作,提出了有趣的信息,是英伟达参与了arm的生态,还是arm拥抱英伟达的江湖。

英伟达只是一句淡淡的话,无论是数据中心、边缘、AI还是高性能,都想为客户提供选择。 由于arm不支持CUDA,因此客户一直希望使用CUDA加速arm,并且arm服务器为HPC和AI提供最佳选择。

世界上有1500亿个基于arm体系结构的设备,可提供客户希望实现的创新功能。 例如互连、内存、CPU核心和计算能力等多种支持。

在边缘计算领域,英伟达超过了arm体系结构授权的预算,双方于今年6月宣布合作。 两个强大的平台和生态握手也不出人意料。

作者:张慧娟

大家都在看

相关专题