DataWorks PyODPS节点实现结巴中文分词

2019-05-10 1590

找到可以在MaxCompute上运行的包

您可以选择在pypi或GitHub下载jieba，本文以github下载为例，如图所示，下载zip压缩包。
pypi.org下载
 GitHub下载

上传第三方包

在 DataWorks 创建业务流程

上传已下载至本地的jieba-master.zip

上传完毕，务必记得提交资源至maxcompute开发环境。

创建测试数据表及数据

建表不做演示，DDL语句附后。

CREATE TABLE `jieba_test` (
    `id` STRING,
    `content` STRING
);

创建临时查询，插入测试数据

insert into jieba_test values('1','阿里云大数据团队');
insert into jieba_test values('2','结巴分词测试');

编写代码验证

在 DataWorks 创建业务流程-->创建PyODPS节点

  def test(input_var):
    import jieba
    import sys 
    reload(sys) 
    sys.setdefaultencoding('utf-8')
    result=jieba.cut(input_var, cut_all=True)
    return "Full Mode: " + "/ ".join(result)
    
  hints = {
    'odps.isolation.session.enable': True
  }
  
  libraries =['jieba-master.zip']
  
  iris = o.get_table('jieba_test').to_df()
  print iris.content.map(test).execute(hints=hints, libraries=libraries)

在DataStudio直接运行验证分词结果

微信关注我们

原文链接：https://yq.aliyun.com/articles/702142

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

开源-开源公司-Apache

Apache开源软件一览： 1.Hadoop Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算。github:https://github.com/apache/hadoop 2. Flink Apac

2019-05-10

707

简介 elasticsearch-head将是一款专门针对于elasticsearch的客户端工具安装插件首先要知道的是elasticsearch 5.x以上的版本是不支持head以插件的形式去安装的，这里我使用的是最简单的方式使用docker去安装，可能版本会有点老但是不影响使用首先clone我的这个项目 git clone https://github.com/bboysoulcn/awesome-dockercompose.git 之后 cd awesome-dockercompose/elasticsearch-head docker-compose up -d 运行起来就可以运行起来之后默认head插件是连接不上我们的elasticsearch的，我们要对elasticsearch进行一些简单的配置才可以配置elasticsearch vim /etc/elasticsearch/elasticsearch.yml 修改network.host为 network.host: 0.0.0.0 这样elasticsearch可以被外部访问到添加 http.cors.e...

2019-05-11

705

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。