PyODPS开发中的最佳实践

PyODPS 支撑用 Python 来对 MaxCompute 政策做相关操作,它供给了 DataFrame API 来用相似 pandas 的接口进行大规模数据剖析以及预处理,而且可以用 ml 模块来实施机器学习算法。

现在为了让咱们能更好地运用 PyODPS,咱们总结开发过程中的最佳实践,来让咱们更高效地开发 PyODPS 程序。当然,期望咱们咱们能一起来帮助咱们来完善总结。

除非数据量很小,不然不要试图进行本地数据处理

咱们 PyODPS 供给了多种便利拉取数据到本地的操作,因而,许多用户会试图把数据拉取到本地处理,然后再上传到 ODPS 上。

许多时分,用户其实根柢不清楚这种操作的低效,拉取到本地完全丧失了 MaxCompute 的大规模并行才华。而有的用户仅仅是需要对单行数据运用一个 Python 函数,或许试图做一行变多行的操作,这