DataWorks PyODPS节点实现结巴中文分词
找到可以在MaxCompute上运行的包 您可以选择在pypi或GitHub下载jieba,本文以github下载为例,如图所示,下载zip压缩包。pypi.org下载GitHub下载 上传第三方包 在 DataWorks 创建业务流程上传已下载至本地的jieba-master.zip上传完毕,务必记得提交资源至maxcompute开发环境。 创建测试数据表及数据 建表不做演示,DDL语句附后。 CREATE TABLE `jieba_test` ( `id` STRING, `content` STRING ); 创建临时查询,插入测试数据 insert into jieba_test values('1','阿里云大数据团队'); insert into jieba_test values('2','结巴分词测试'); 编写代码验证 在 DataWorks 创建业务流程-->创建PyODPS节点 def test(input_var): import jieba import sys reload(sys) sys.setdefaultencoding('utf-8') re...
