您现在的位置是:首页 > 文章详情

DataWorks PyODPS节点实现结巴中文分词

日期:2019-05-10点击:1321

找到可以在MaxCompute上运行的包

您可以选择在pypi或GitHub下载jieba,本文以github下载为例,如图所示,下载zip压缩包。
pypi.org下载
GitHub下载
_zip_

上传第三方包

在 DataWorks 创建业务流程
_
上传已下载至本地的jieba-master.zip
_
上传完毕,务必记得提交资源至maxcompute开发环境。
_

创建测试数据表及数据

建表不做演示,DDL语句附后。
_

CREATE TABLE `jieba_test` ( `id` STRING, `content` STRING );

创建临时查询,插入测试数据
_

insert into jieba_test values('1','阿里云大数据团队'); insert into jieba_test values('2','结巴分词测试');

编写代码验证

在 DataWorks 创建业务流程-->创建PyODPS节点
_

 def test(input_var): import jieba import sys reload(sys) sys.setdefaultencoding('utf-8') result=jieba.cut(input_var, cut_all=True) return "Full Mode: " + "/ ".join(result) hints = { 'odps.isolation.session.enable': True } libraries =['jieba-master.zip'] iris = o.get_table('jieba_test').to_df() print iris.content.map(test).execute(hints=hints, libraries=libraries)

在DataStudio直接运行验证分词结果
_

原文链接:https://yq.aliyun.com/articles/702142
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章