DataWorks PyODPS节点实现结巴中文分词
找到可以在MaxCompute上运行的包
您可以选择在pypi或GitHub下载jieba,本文以github下载为例,如图所示,下载zip压缩包。
pypi.org下载
GitHub下载
上传第三方包
在 DataWorks 创建业务流程
上传已下载至本地的jieba-master.zip
上传完毕,务必记得提交资源至maxcompute开发环境。
创建测试数据表及数据
建表不做演示,DDL语句附后。
CREATE TABLE `jieba_test` ( `id` STRING, `content` STRING );
创建临时查询,插入测试数据
insert into jieba_test values('1','阿里云大数据团队'); insert into jieba_test values('2','结巴分词测试');
编写代码验证
在 DataWorks 创建业务流程-->创建PyODPS节点
def test(input_var): import jieba import sys reload(sys) sys.setdefaultencoding('utf-8') result=jieba.cut(input_var, cut_all=True) return "Full Mode: " + "/ ".join(result) hints = { 'odps.isolation.session.enable': True } libraries =['jieba-master.zip'] iris = o.get_table('jieba_test').to_df() print iris.content.map(test).execute(hints=hints, libraries=libraries)
在DataStudio直接运行验证分词结果
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
开源-开源公司-Apache
Apache开源软件一览: 1.Hadoop Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。github:https://github.com/apache/hadoop 2. Flink Apac
- 下一篇
elasticsearch head插件安装
简介 elasticsearch-head将是一款专门针对于elasticsearch的客户端工具 安装插件 首先要知道的是elasticsearch 5.x以上的版本是不支持head以插件的形式去安装的,这里我使用的是最简单的方式使用docker去安装,可能版本会有点老但是不影响使用 首先clone我的这个项目 git clone https://github.com/bboysoulcn/awesome-dockercompose.git 之后 cd awesome-dockercompose/elasticsearch-head docker-compose up -d 运行起来就可以 运行起来之后默认head插件是连接不上我们的elasticsearch的,我们要对elasticsearch进行一些简单的配置才可以 配置elasticsearch vim /etc/elasticsearch/elasticsearch.yml 修改network.host为 network.host: 0.0.0.0 这样elasticsearch可以被外部访问到 添加 http.cors.e...
相关文章
文章评论
共有0条评论来说两句吧...