雪鹰领主cdk兑换_原创 蚂蚁金服开源ElasticDL:Kubernetes原生的分布式深度学习系统

9月11日,阿里金服在2019谷歌开发者大会上海站发布了开源ElasticDL,是基于TensorFlow 2.0的Kubernetes原始分散深度学习系统。 这也是业界首个支持TensorFlow灵活调度的深度学习系统。

ElasticDL的主要特性是灵活的容错性计划,通过开发Kubernetes-native框架并调用TensorFlow 2.0来实现。 Kubernetes-native意味着分布式程序调用Kubernetes API来开始进程,为分布式系统提供了更多的调度灵活性。 相应的方法是为每个分布式框架编写Kubernetes operator并启动分布式任务。 例如,Google Cloud为TensorFlow开发了Kubernetes operator Kubeflow,但Kubeflow不支持灵活的时间表。

由于TensorFlow 2.0的eager execution API是ElasticDL的另一大力量,因此ElasticDL将计算图执行的中间结果gradients称为“如Uber Horovod那样的TensorFlow 1.x设计的系统”

当多人共享计算群集时,支持灵活的计划意味着大大提高团队效率和总体利用率。 举个极端的例子,假设群集有n个GPU,一个任务只使用一个。 如果没有灵活的计划,则需要所有n个GPU的任务必须等到上一个任务完成。 这个等待时间可能会延长几天到几周。 等待时,群集的效用是1/N。如果具有灵活的调度能力,新任务可以在N-1个GPU中立即运行,Kubernetes可以将第一个任务完成后占用的GPU分配给此任务。 在这种情况下,整个群集的效用是100%,因此在某些情况下,ElasticDL可以显着提高群集的利用率。

此外,ElasticDL还具有高效、易于使用的特性。 今年5月,argold穿着开源SQLFlow,ElasticDL与SQLFlow配合使用,使AI使用SQL变得简单,SQLFlow将SQL程序翻译成ElasticDL程序,工程师以SQL语言建模

ElasticDL项目负责人王益表示:“ElasticDL处于研发初期,我们将尽快与开源ElasticDL共享其设计意图,集中来自不同公司和社区的力量,与GoogleTensorFlow2.0和Kubernetes

蚂蚁金衣一直积极参与开源社区的共建。 自2011年第一个开源项目发布以来,开源项目的数量每年都在增加。 目前蚂蚁金服有400多个开源项目,ant设计项目已获得4万多颗GitHub星标,800多人参与项目建设,SQLFlow、EggJS和SOFA系列也受到社区的欢迎。

雪鹰领主cdk兑换

大家都在看

相关专题