蚂蚁王益:Go+ 可有效补全 Python 的不足

云栖号资讯:【点击查看更多行业资讯】
在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!

蚂蚁王益:Go+ 可有效补全 Python 的不足

阿里妹导读:Python 的语法很灵活,融合了很多其他语言中令人觉得方便的特点。然而 Python 的优势同时也隐含了其劣势w 2 a Z S `。蚂蚁研究员王益在工业系统中对 Python 的亲身体会,更加深刻地~ ) G 6 = D F 2 D了解到了 Python 的局限,而 Go+ 是弥补方案里最靠谱的1 J n。那么 Python 有哪些不足?Go+ 又是如何能弥补的?本文分享王益对 Go+ 补全 Python 的局限上的相关看法和尝试。

不久前许式伟(江湖人称老许)的 Go+ 项目在 H_ + yacker News 上掀起了一阵风潮[1]。我一见倾心,参与贡献。最近老许和社区组织了一个视频交流,拉我跟大家说说为啥关注 Go+ 以及图个啥。在- n . S /直播交流后,根据弹幕反馈,以及两位好友 ——洪明Z G O t 0 N 0胜(TenosrF# F d Blow Ru e d / c o J $ 6untime 负责人)以及王玉(N : x U ~ z 2沈雕墨)的建议,做了修改。

我做分布式深度学习系统十三年了,尤其是 2016 年徐伟老师让我接替他作为他原创的PaddlePaddle 项目的负责人之后,在工业系统中对 Python 的亲身体会让我对其局限了解愈深2 K : ? { % _ 0。而 Go+ 是我见过的弥补方案里最靠谱的。

我期待 Go+ 对标 Python,补全 Python 的不足,并且在此基础上有一个类似 numpy 的项目(姑且称之为 numgo+ 吧)用来支持张量(tensor)运算,满足数据科学的需求;在 numgo+ 之上再构建一个类似 PyTorch 的深度学习基础库(姑且称之为 GoTorch 吧)。如果可以,进一步成为深度学习编译器生态的一V 5 A G 6 3 ^种前端语言。

我现在在蚂蚁集团工作,负责一个开源 SQL 编译器 SQLFlow —— 把扩展语法以支持 AI 的 SQL 程序翻译成 Python 程序。同事们说,如果 Go+ 这套生态能成熟起来,很S ) A乐意让 SQLFl z I i F 0 n ?low 输出 Gh ( R , ^o+ 程序。

很多读者估计觉得我瞎说八道 —— Python 如此如日中天一般火热的语言,何须“补足”?

Python 的优势

Python 的语法很灵活,融合7 B g F y了其F l r 9 v E a他很多语言令人觉得方便的特点。比如,和 C++ 一样, Python 允许重载操作符,numpy 的作者于是重载了算~ B L Z数操作符来做张量运算。和 Lisp 一样,Python 的 eval 函数递归地实现了 Pyh @ = C 1 1thon 解释器,可以解释执行 Python 表达式,所以 Python 程序可以生成自己。

这样的灵活性允许程序员随心所欲,因此特别适合探索性工作。比如研究生们用 Python 做科研;数据科学家们用来替代之前各种昂贵的商业化系统;在随后诞生的深度学习领域,Python 也迅速蓬勃发展起来。

Python 的局限

PQ ( e tython 的优势同时也隐含了其劣势。 我亲身感受的痛点有二。u 0 C x s d 3 5

难以保证代码质量

语法灵活的另一种说法是:一个程序有多重写法。现代软件工程里没有D f h v 8 G Z U _孤胆英雄,全靠大家合作。多种可能的写法往往意味着团队容易在 code review 时吵架 —— 而且难以平息,因为不一定有客观选择标准。很多其他语言也有类似问题,比如 Java。解法是,社区里定一些设计模式(5 h mdesign patterns),程序员写程序前先看看有q $ J Q C E } u ]没有可以套$ 4 | t # c l A }用的设计模式,如果有,则遵循之。所以 Java 程序员除了学习 Java 语法,还要4 E r f } g P学习设计模式。C++ 也有类似的问题。解法之一是 Google 定了一套 code style —— 哪些语法可以用,哪些不许用 —— 按照 Rob Pike 的解释,允许用的部分语法挑出来,就是 Go 的设计初% 4 b y衷。Python 太灵活,以至于 code style 都P N f u 8 P J 1 A没法定义得和 C++ 的一样细致 —— PEP8 几乎只是说说排版要求,Q A q ~ : y对语法的选用几_ ( r H ( k e ) 1乎没有限制。PythF r 8on 也没法定义模式 —— 太多了,写不完。

Pr 7 ]ython 为了灵活采用动态类型,所以我们看一个 Python 函数,必须得细读其代码,否则都不知道它有没有返回值,以及返回值是啥。Python 也有语法扩展,要求编程者指明输入输出的数据类型,不过用的人不多 —— 毕竟大家都是冲着“灵活”来的;要是限制灵活性,那就真不如用静态K B p y m 8类型语言了。这个结果是,每个 Python 函数都不能太长,否则看不明白了。可是4 D $ d Python 程序员就是冲着灵活性来的,要的就是信马由缰的感觉,管你懂不懂呢,我自己明白就行,反正发完论文就毕业了。拆分函数细化粒度?不可能的,这辈子都不可能的。

有没有写( d M Y的很好的 Python 代码呢?有8 C D J的。比如 Google Tangent。这是一个很小众的项目。作者也只有两个。其代码结构清晰 —— 每个函数基本都在十行代码之内,代码( B $ g和注释一样长,所以很好懂。不过这也和 Python 用户众多的印象相悖了m @ d v 5 m X。我在负责 PaddlePaddle 项目的时候,除了自己努力学习和总结 Python 的模式,也配置u r D CI 调用各种工具做源码检查,然并卵,这些工具! J T b G y没有智能化到可以自动注释代码,也不会自动拆分太长的函数定义。

难以优化计算效率

Python 的语法丰富、灵活性强,所以解释器写起来很复杂,要优化性能也很难。相比之下,G2 Q j W 6 t xo 语言语法简洁,表达能力远胜于 C 但是 keyword 总数少于 C,这种简洁使得 Go 程序的性能优化比较容易。在 Go 诞生后几年,Go 编译器对代码的性能优化水平就快速接近 GCC 对 C++ 程序的优化水平了,而 C++ 和 Python 一样,语法丰富,所以编译器里的代码性能优化功能很x q X 6 6 5 c n `不容易开发。

有人尝试写 Python 的编译器来代替] c X ;解释器,从而在程序执行之前先做性能优化。但是 Python 语法比 C++ 更灵活,以至于几乎没法写一个完全支持 Python 标准语法的编译器出来。几个尝试因此作罢。目前的普遍的做法O $ R是解释器来做执行时优化(JIT compilation),因为有 runtime 信r g h b } z v息,所以相对编译器更容易一些。

在 AI 领域,深度学习训练非常消耗计算资源。TensorFlow 的图模式的解法是:用户写的 Python 程序在执行时并不真的做训练,而是把训练过程输出成一个被称为”计算图“的数据结构,交给 TenosrFlow runtime 这个“解释器”来执E [ . U b L /行。只要保证 TensorFlow runtime 的执行效率,即可不受 Python 解释器效率的限制。

TensorFlow 图模式用心良苦,也画蛇添足 —— 源程序、各层 IR、以及 binary code 是一直以来人们用来描述计算过程的表达方式,TensorFlow 项目早年间发u H M h q m明的计算B 9 +图重复造了个轮% c L a A $ v子,而且造得不专业 —— 图难以表达 if-else、循环、函数定义和调用,更别提 closure、coroutine 和 threading 这样的高级控制流结构了。人工智能工程师的非专业编译器设计让 LLVM 的作者 Ch4 r s 6 @ris LattV ! ~ M ) Mener 掩面而笑,于是他尝试用j + . Z H ` Swift for TensorFlow 替换 Python 作为前端语言,用 MLIR 代替 TensorFlow 中的“计算图” [2]。

补全局限的尝试

我在负责 PaddlePaddle 期间为了验证 Paddle FluidY ; j C 3 t 的能力,和我的同事陈曦一起做了一个无人3 Q B % ; O x H |驾驶船,尝试用 Fluid 写 immitation learning 方法,让船能学习人类驾驶员的驾驶技术,详情请见系列博客[3]。可是如果我们把跑 Pyt0 0 f K dhon 程序的 MacBook Pro 带上船则太费电,U W Y 1 z S 6 (而嵌入式的设备上又不适合9 O 9 2 & U跑 Python 写的训练程序。如果每次停船后上传数据到服务器训练,那么船向人学习迭代的进度就太慢了。

为此,当时另一位同事杨杨写了 Paddle Tape,用 C+. ( V+ 实现了 PyToD b rrch 的自动求导能力,结合 Paddle Fluid 积累的众多用 C++ 写J g } b c s f的基本计算单元(operators),Tape 完全是一个 C++ 实现的深度学习系统系统,和 Python 没啥关系了。

2019 年初,我的朋友洪明胜在 Google 负责 Swift for TensorFlow 项目,这也是一个 AI 基础架构去 Python 化的尝试。他4 X p当时拉我给 Chris Lattener 的团队~ Y 3 e 6 *分享了 Paddle Tape 和无人船的故事,并修改了幻灯片[4]。

我在蚂蚁集团负责的一个开源分布式深度学习训练系统 ElasticDL,尝试过调用 TensorFlow graph mode、eager execution mode、PyTorch、和 Swift for TensorFlow,很受 Swift for TensorFlow 的设计理念以及和 Python 生态共荣的策t m 3 . X n t q ?略的启发。

Go+ 和数据科学

以上尝试提醒我,语言的选择标准必须包括:语法清晰简练和语法稳定容易学习。也希望语言的使用者是比较8 B U ~有探索精神的一个群体。Go+ 及其基于 Go 社o p x Y 9 x d区的用户群体刚好符合这些条件。

在 Go+ 出现之前,也有把 Go 用于数据科学的尝试,也有用 Go 实现的张量运算库(比如 gonum),但是用起来都不如用 numpy 的 PI 2 r 9ython 程序简练,很直接的一个原因是 Go 的常量需6 p d c g ) N要指定数据类型,而 Pythonc % y 的则不用。我写了几个对比[5]。

用 Go 定义一个 ndarray 类型的常量,用户需要写:

x :=numgo.NdArray(
[][]float64{
{1.0, 2.0, 3.0},
{1.0, 2.0, 3.0}})

而用 Python 是:

x = nu@ F I ^ mmpy.nda2 I { e f k @ 1rray(
[[1.0,2.0, 3.0],
[1.0,2E r ] / O # B 7 l.0, 3.0]])

有了 Go+ 来自动推导数据类型,写法就和 Python 几乎一样了:

x :=numgo.NdArray(
[[1.0, 2.0, 3.Q j | x h 8 + x0],
[1.0,2.0, 3.0]])

更进一步,老许加的一个 comment 解释 Go+ 准备支持 MATLAB 的张量定义语法。这样一来,这个8 ) l Y + %程序就更简单了:

x :=numgo.NdArray(
[1.0, 2.0,h @ O l [ v k h 3.0;
1.0, 2.0, 3.0])

类似的便捷的语法改进在 Go+ 已经积累了不少,例子在[6]。这些语法扩展足以极大简化数据科学编程。

而 Go+ compiler 负责把利用这些语法糖写作的 Go+ 程序翻译成 Go 程序。这样可以@ / ^ E 0 C / 5 [和其c r 6 ~ e 3 z他 Go 语言写的库一起编译,从而复用 Go 生态里的代码。

复用 5 # Go 生态是 Go+ 语言的一个长项。在 Go 的发展过程中,已经积累了不少科学计算的基础技术,- ) 1比如P $ u #实现张量的 Go 数据类型的封装。这些数据类型的计` ` = h + R算也有= - p 3 , Q 6 D s高效的 Go 实现,部分缘于 Go 程序可以方便地调用 C/C++ 程序,包括科学计算领域里久c t U = j @ ^ o经考验的基础库如 LAPACK,甚至 NVIDIA GPU 的接口库 CUDA。值得注意的是,这些基于 C/C++ 的基础库也是 PythoD l D p ;n 的数据科学生态的基础,所以本{ X [ ) _ V | 1文的标题是 Go+ 补全 P_ F M 7 l q Sython 生态。

Go+ 和深度学习编译器a K ~ !

上文提到了深度学习技术。这是 Python 被广泛使用的另一个领域,和数据科学有自然的联系,比如 PyTorch 和 TensorF@ f 4low 的 tensor 数据结构和 numpy 的 ndarray 一样。而在深度学习领2 p Z 4 C l l域,编译器是最新的主流研究方向。

Go 社区里目前后台系统开发者居多;视频直播时,有听众在弹幕里说自己不是 AI 工程师,不关注 AI。如果真的这么想,恐怕不只是技术理想问题,而且是对饭碗不负责任了。

后台系统和 AI 系统之间的界限越来越模糊,因为后台系统指o f /的是互联网服务的后台系统;而整个互联网经济建立在用不眠不休的服务器取代人来服务大众,而 AI 是这个逻辑成立的基础,详见我的一篇老文H r & $ Z 2 d g m[7],例数了最近二十年被 AI 技术淘汰的人类职业。

而且这个界限在s v W u y 3 F不久的将; , J来会彻底消失,因为随着 online learning、reinforcement learning、 imitation learning、federated learning 技术取代 sueprvised learning 成为互联b . 1 6 h 9网智能(包括传统的搜索、广告、推荐,也包括b d N t W z $新兴的无人驾驶和金融智能5 q J % O)的主流技术,AI 系统将不再能y X T / ~ I被分为训练和预测% J i g C两部分,也不Z K k P -再由 AI 工程师负责前l / - Z e /者,而后台工程师负# 7 ) m N责后者了。

在 AI 领域里,深度学习超越传统机器| d 7 F r g s Q X学习的一个重要原因是:传统机器的每一个模型(可以理解为对知识结构的描述)往往对应一种甚至多种训练算a d | K J . Q V ]法;而深度学习里,几乎所有模型都用一种0 N T . 1算法 stocB j Ghas1 / & Stic gradient descend(SGD)或者其大同小异的变种来训练。这样,基础架构工程师负责训练系统的开发;模型研究人员复用之,大大减小了科研的工程负担,提升了模型研发的效率。

深度学习系统的核心问题在于 autodiff,这是 SGD 算法的数学特C I F点决定的。SGD 算法通过交替执行前向计算过程(forward pass)和反向计算过程(backw, z f ~ g J B Qard pass),即可从训练数据归纳出模型的参数。模型加参数就是知识。这里的工程挑战在于模型研究者在定义模型的时候,就附带描述了前向计算过程,但是反向计算过程很难由人来描述,最好有一个程序自动从前向计算过程推导出反向计算过程。这个自动推导被称为 autodiff。

目前有两种 autodiff 的策略。第一种在运行时推导,也被称为 dynamic net 和 tapo n B me-based approach。基本思路是不管前向计算过程有多复杂,哪怕包括 if-else、循环、函数定义和调用、甚至 coroutine 和 multithreading,只要把依次执行的基本操作(O e T 1 operator)记录下来,到一p 5 L G D ` 0 e 2个 tape 里,那么反向计G ` e算过程就是回溯这个 tape 里R a 4 Q ; { , V c的记录,并且依次调用每个 operator 对应的求导数 operator(gradient operator)M { ( T 1 P d r ^。这是 PyTorch、TensorFlow eager execution、以及 Pau c 3 V ( k G -ddle8 u * k O F u K ] Tape 采用的策略。这种策略和编译器关系不大,和 JIT compilation 有点关系。

另一种策略是运行之前T p o | V $推导反向计算过程,为此需要引入一个专门6 + i : e - # G做 autodiff 的编译器。TensorFlow graph mode、Caffe/Caffe2、Paddle Fluid、Google Tangen} v a r Q 2 }t、Julia、Swift for TensorFlow 用的是这个策略。编译器一般来说是把源语言描述的源程序翻译成目标语言描述的目标程序。但是前三种o ,技术偷懒了,没有引入源语言,而是让用户通过调用 Python library 来描述前向计算过程。Google Tangent、Julia、Swift for TensorFlow 分别让用户用 Python 语言] X . 3 ( 4 ^ ]、JuliaD F [ K h z ` Z 语言、Swift 语言来定义函数,从而描述前向计算过程,并且能把前向计算函数翻译成反向计算函数。

严格地说,Julia 的作* M [者实现了多种 autodiff 方案:有运行时的、也有编译时的、也有二者混合的。明胜在帮我修改此文时提醒:

For a different vision,where the same language is used to both implement kernels and construct+executeprograms/graphs b` k ` F Oased on the kernels, see [8].

这里的 kernel 指的是深度@ h O {学习基本操作单元 operator 的实现。

8 z q G R译时和运U 6 r N行时 autodiff 这两种策略,也都适用于 Go+,而且并不妨碍 Go+ 复用现有技术。就像数据科学领域应该复用 LAG H r , r J 9 C LPACK 这些基础库,深度学习领域也应该i ) F ` E Bx D W x } b a } b用基础的 operators 和 gradient operators。

运行时用 tape 实现 autodiff 的策8 L l k V +略的实现更简单。我记得杨扬用一个星期时间就开发了 Paddle Tape。而编译的策略复杂很多。Paddle Fluid 二十多人在 TensorFlow 团队 Yuan Yu 老师的工作[9]的基础上,用了好几个月的时} l 9 3 c s P A /间,才搞定 if-e7 $ $ z @ ! S Rlse、循环、函数定义和调用的 autodiff。

这些尝试提醒我们复用社区核心技术的重要性。比如,用 MLIR 代替计算图从而能描述更复杂的控制流 ——t 7 f [ + 计算图肯定没法描述 goroutine 和 select。用 TVM 作为编译器后段(backend),用深度学习技术学习如何优化深度学习程序。所有这些技f P & Y术的输出,都是o h n c z 4对基本 operaotor 的调用。从这个0 # U Z = a O角度看,之前深度学习技术生态积累的 operd P V Q 3 = #ators 类似 built-in functions。这也W $ @ a X是洪明胜在修改! , 7 $ (此文时反复提醒的。

希望不久的将来,Go+ 可以作为一种新的深度学习前端语言,与 Python、Julia、Swift 并列,共: y 7 4 s E ?同复用更底层的 IR、编译器后段、以及基本 operators。

小结

我理解未来 Go+ 项目的核心战术工作是:在维持 Go 的语法简洁性的本色之上,合理准入简化语法 —— 不要像 Python 和 C++ 那样融入太多灵4 : t z -活性,同时在 Go 的3 $ [ P ; E极简语法规范之上,适当地更加灵活。

此外,通过社区合作开发 numgo+ 和 GoTorch 这样的探索性项目,丰富技x e 9 L术生态是社区的战略方向。甚至更进一步,成为一种深度学习E - 7 , L W ; l编译器的前端语言H P [ l T 0 u .,以复用多年来社区沉淀的深度学习底层计算技术。

【云栖号在线课堂】每天都有产f 3 F 2 m品技术专家y C H Q A *分享!
课程地址:https://yqh.aliyun.com/live

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间:2020-07-16
本文作者:王益
本文来自:“阿里技术公众号”,了解相关信息可以关注“阿里技术”