Nvidia的人工智能超级计算机负责人Charlie boil前几天阐述了人工智能硬件和数据中心的现状以及未来的发展。
更重要的是,每个新数据中心工作负载,IT组织必须回答的问题都在哪里进行。 目前,最新的企业计算工作负载是机器学习(或人工智能)的变体,人工智能基础设施有很多选择,无论是培训还是推理深层学习模式(使用培训模式),直接为企业找到最佳解决方案
市场上有各种人工智能硬件选项、广泛而快速增长的人工智能云服务范围以及用于托管人工智能硬件的各种数据中心选项。 Nvidia是机器学习基础设施的生态系统中最重要的公司,为全球人工智能工作负载( Nvidia GPU )销售和生产大多数处理器,同时还大量构建在这些芯片上运行的软件,销售自己的人工智能超级计算机
业界媒体data center知识库( dck )与Nvidia的DGX人工智能超级计算机高级市场营销总监Charlie boil一起探讨了人工智能硬件的发展趋势和人工智能基础设施的发展趋势。 以下是采访的内容
DCK :企业如何确定云计算服务是用于机器学习,还是购买自己的人工智能硬件采用机器学习?
Charlie bogle :大多数客户都使用内部部署和云计算。 我们看到的最大动作是,数据所在的位置决定了那个位置。 在人工智能环境中,为了得到结果需要处理大量的数据。 如果企业数据中心已经存在所有这些数据(企业可能收集了10~30年的历史数据),则希望处理过程尽可能接近企业所在地。 因此,有助于将系统部署到内部。 如果您的企业是从云开始的,并且所有客户数据都位于云中,则建议您在云平台上处理数据。
DCK :将大量数据移动到云中或移动到云中是否有困难?
查理bogle :这也取决于公司如何生成数据。 由于大多数公司的数据都是动态的,因此总是添加数据,因此在收集系统中的所有数据时,您可以更轻松地继续执行内部操作。 在云服务中聚合大量数据可以使云服务处理数据。
这适用于生产用例。 许多实验用例可以从云开始,企业只需启动浏览器即可访问人工智能基础设施,但随着他们向生产过渡,企业是在当地决策、财务决策、安全决策以及在内部部署还是在云平台处理它们
Nvidia客户通常在公司内部进行人工智能模型培训。 因为这是他们的历史数据。 他们建立了好的模型,但是那个模型是由在线服务提供的。 他们根据在云中内部构筑的模型进行了推论。
DCK :您认为在企业内部部署和管理数据中心并运行人工智能工作负载的企业会采用什么冷却方法来增加机架的功率密度?
查理·博伊尔:数据中心采用液体冷却还是空气冷却一直成为话题。 我们正在研究这个问题。 通常,数据中心运行大量服务器机架,最多有50个服务器机架,采用传统的空气冷却设备更有效。 在运转电力密度更高的机架的情况下,例如机架的电力为30千瓦~50千瓦,一般用水冷式热交换器进行冷却。 这是数据中心实施的最新冷却措施,数据中心不会改造冷却系统本身的管道。
目前,一些戴尔OEM合作伙伴建立了基于GPU直接冷却芯片的水冷系统。 有些公司希望构建超高密度计算基础架构,以预先部署冷却基础架构。 但是,我们与大多数托管服务提供商合作,发现只有水冷系统才能支持高功率密度机架操作。
直接冷却芯片就像一个操作问题。 我们的技术现在是可能的,但是如何提供服务呢? 对于正常运营的企业来说,这是学习曲线。
DCK:NVIDIA DGX系统和其他GPU驱动的人工智能硬件非常密集,是否无法通过空气冷却?
查理·博伊尔:我们的系统都采用空冷和液体冷却技术。 主要是因为我们看到大多数客户采用这些方法。 电力密度的处理不是固有的方法。 因为在未来,大多数客户都会受到机架电源的限制,因此无法进行空气冷却或混合冷却。
目前,我们运行30~40kW的机架。 当然,我们可以运行100kW和200kW的机架,但现在没有人采用这种功率密度机架。 那么,能采用液体冷却吗? 也许是这样,但确实是所有客户最有效的选择。 看到客人采用混合冷却方式,他们在回收废热。 我们会继续关注这一点,继续与这些公司合作,调查他们的方法是否有意义。
我们的工作站产品DGX station采用内部闭环水冷技术。 但是,大多数客户尚未在数据中心基础架构的服务器端采用。
DCK :许多公司的数据中心甚至无法冷却30kW和40kW机架。 这是销售DGX产品的障碍吗?
Charlie boil :这不是障碍,而是对话点,是为什么要发表DGX准备计划的第二阶段。 尽管仅安装这些机架可以支持任何数据中心,但是如果数据中心安装了50~100个机架,公司必须重建数据中心或寻求托管数据中心的提供商的帮助。
因此,客户可能需要部署50台DGX-2超级计算机,因为数据中心团队需要与数据中心提供商合作以实现高功率密度和液体冷却
我们三年前推出这些产品,当一些客户购买一些产品时,他们会提出如何大规模购买和安装这些产品的问题,我们的一些客户选择建设新的数据中心基础设施,另一些客户会向我们提供数据 因此,我们建立了支持DGX的数据中心计划,以避免客户等待。
对于拥有强大数据中心设施的客户,我们已多次向他们购买30kW机架。 或者,客户可以与托管数据中心的合作伙伴更快地获得服务和产品。
DCK :您是否知道客户选择承载数据中心提供商,即使他们拥有数据中心空间?
Charlie bogle :人工智能设备是许多客户的新工作负载,因此他们不会采用现有的基础设施,也不会为此建设或购买新的基础设施。 对于他们来说,部署到数据中心或管理数据中心并不重要。 经济有效,很快就能完成工作。 这是大多数人工智能项目的重要组成部分,他们希望立即取得成功。
Nvidia公司在总部附近(加利福尼亚州圣克拉拉)也采用了多家数据中心供应商提供的服务,因为他们拥有办公空间但没有数据中心。 幸运的是,在硅谷,我们周围有很多优秀的供应商。
DCK:Nvidia公司将DGX作为人工智能的超级计算机普及。 此体系结构与传统高性能计算( HPC )工作负载的超级计算机有何不同?
Charlie bogle :大约五年前,高性能计算( HPC )和人工智能系统之间有很大差异,但现在这两种功能已经合并在一起。 以前,人人都认为超级计算机是64位,倍精度。 人工智能的工作负载主要是32位或16位混合。 这两种技术应用于两种不同的场合。
已经看到了典型的超级计算机在许多节点上运行问题,并在人工智能工作负载中做同样的事情。 perf ( hightwareintelligencehardwareperformancetestedition )刚刚发布,许多节点只完成了一项任务。 人工智能和高性能计算之间的工作量实际上很相似。 使用最新的GPU提供了传统高性能计算的双倍精度,人工智能为32比特精度,可以加速人工智能的混合精度。
传统的超级计算中心目前采用人工智能技术,有可能安装了超级计算机,但超级计算机的任务和人工智能工作负载在同一个系统中运行。
两者的框架相同。 迄今为止,超级计算机使用的是与以往的人工智能不同的网络。 现在一切都融合了。 这就是客户购买Mellanox产品的原因之一。 目前,超级计算基础设施对双方都至关重要。 这被认为是高性能的计算机,但它将成为主流。现在,企业把它作为他们人工智能系统的支柱。
DCK :人工智能硬件有激烈的竞争。 例如,谷歌的TPU、FPGA、云计算供应商和创业公司设计的其他定制芯片是Nvidia的热点吗?
查理·博伊尔:我们一直关注竞争,但竞争对手以我们为标准。 我们在这个行业生产这么多的理由之一是因为我们无处不在。 谷歌云平台采用Nvidia GPU,亚马逊云平台也采用Nvidia GPU。
如果笔记本电脑有Nvidia GPU,您可以对其进行培训。 Dell GPU能够执行所有交易并在笔记型电脑上进行进阶学习训练的软体堆叠,与在超级电脑上执行的软体堆叠相同。
与所有这些创业公司不同的人选择一个标准时,这是个大问题。 例如,一家公司说“我们真的很擅长ResNet 50”,仅凭ResNet 50,这只是整个企业的人工智能工作量的一小部分,因此具有软件灵活性和程序性对我们来说是一大财富。 因此,我们在过去十年中建立了生态系统。
我认为这是该领域创业公司面临的最大挑战。 企业可以开发和构建芯片,但如果笔记本电脑和云都没有使用这些芯片,那么数百万开发人员很难使用这些芯片。 查看谷歌的自定义人工智能芯片( TPU ),TPU仅在他们认为合适的工作负载中提供。 提交最新的MLPerf结果几乎可以提交所有类别。
DCK :谷歌最近发布了一种新的压缩算法,可以通过智能手机运行人工智能工作负载。 未来数据中心所需的GPU很少。 手机能完成所有的人工智能计算吗?
查理·博伊尔:世界总是需要更多的计算。 是的,我想手机的功能会变得更强大,但是世界对计算的渴望增加了。 如果我们在手机中追加电脑功能的话,那意味着什么呢?
人们频繁旅行的话,有可能会熟悉美国航空公司和美国航空公司的语音响应系统。 过去几年,人工智能改善了语音响应。 随着越来越好,人们需要更多的服务,更多的服务意味着计算能力。 执行此任务需要更多的GPU。 因此,手机使用的功能越好,对我们越有利。 我认为所有的消费者服务都是这样的。
DCK :您在移动网络边缘看到过有说服力的机器学习用例吗?
查理·博格尔:我们与许多通讯公司合作,无论是人们使用流媒体还是个人的位置服务,通讯公司都希望与顾客接近。 大约十年前,我在电信公司工作,一直想把很多服务转移到边缘。 我们发现一些机器学习应用程序在边缘运行。 随着5G的发售,人们看到更多的东西在边缘移动。
DCK :电信公司在边缘测试或部署了哪些机器学习工作负载?
Charlie bogle :这些都是针对特定用户的服务。 在一些地区的人知道移动电话上的应用在该地区,因此可以提供更好的建议和更好的处理方法。 然后,随着人们开始消费越来越多的内容,随着带宽的增加,更多的处理移动到更远的边缘。
DCK :电信公司是一家以计算为限制的公司,是否提供您指定的所有服务?
Charlie bogle :您可能正在构建服务,也可能正在购买服务。 我认为这就是今天人工智能和机器学习应用的迅速应用。 现在很多创业公司都在构建着电信公司现在消费的特定服务。 他们想出了一个好主意,电信公司的分销网络是放置这些类型服务的理想场所。 因为很多服务需要大量的计算能力,所以我认为边缘上的GPU是值得关注的产品。