Hanlp自然语言处理工具的使用演练-低调大师

Hanlp自然语言处理工具的使用演练

2018-09-18 639

Hanlp是由一系列模型与算法组成的工具包，目标是普及自然语言处理在生产环境中的应用。Hanlp具备功能完善、性能高效、架构清洗、语料时新、可自定义的特点；提供词法分析（中文分词、磁性标注、命名实体识别）、句法分析、文本分类和情感分析等功能。
本篇将用户输入的语句根据词库进行分词、关键词提取、摘要提取、词库维护。

工具类名称：DKNLPBase

1、标准分词
方法签名：List StandardTokenizer.segment(String txt);
返回：分词列表。
签名参数说明：txt:要分词的语句。
范例：下例验证一段话第5个分词是阿法狗。
程序清单1

public void testSegment() throws Exception

{
    String text = "商品和服务";
    List<Term> termList = DKNLPBase.segment(text);
    assertEquals("商品", termList.get(0).word);
    assertEquals("和", termList.get(1).word);
    assertEquals("服务", termList.get(2).word);
    text = "柯杰解说“李世石VS阿法狗第二局” 结局竟是这样";
    termList = DKNLPBase.segment(text);
    assertEquals("阿法狗", termList.get(5).word);  // 能够识别"阿法狗"

}

2、关键词提取
方法签名：List extractKeyword(String txt,int keySum);
返回：关键词列表.
签名参数说明：txt:要提取关键词的语句，keySum要提取关键词的数量
范例：给出一段话提取一个关键词是“程序员”。
程序清单2

public void testExtractKeyword() throws Exception

{
    String content = "程序员(英文Programmer)是从事程序开发、维护的专业人员。" +
            "一般将程序员分为程序设计人员和程序编码人员，" +
            "但两者的界限并不非常清楚，特别是在中国。" +
            "软件从业人员分为初级程序员、高级程序员、系统" +
            "分析员和项目经理四大类。";
    List<String> keyword = DKNLPBase.extractKeyword(content, 1);
    assertEquals(1, keyword.size());
    assertEquals("程序员", keyword.get(0));
}

3、短语提取
方法签名：List extractPhrase(String txt, int phSum);
返回：短语
签名参数说明：txt:要提取短语的语句，phSum短语数量
范例：给出一段文字，能代表文章的五个短语，第一个短语是算法工程师。
程序清单3

public void testExtractPhrase() throws Exception

{
    String text = "算法工程师\n" +
            "算法（Algorithm）是一系列解决问题的清晰指令，也就是说，能够对一定规范的输入，在有限时间内获得所要求的输出。" +
            "如果一个算法有缺陷，或不适合于某个问题，执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、" +
            "空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。算法工程师就是利用算法处理事物的人。\n" +
            "\n" +
            "1职位简介\n" +
            "算法工程师是一个非常高端的职位；\n" +
            "专业要求：计算机、电子、通信、数学等相关专业；\n" +
            "学历要求：本科及其以上的学历，大多数是硕士学历及其以上；\n" +
            "语言要求：英语要求是熟练，基本上能阅读国外专业书刊；\n" +
            "必须掌握计算机相关知识，熟练使用仿真工具MATLAB等，必须会一门编程语言。\n" +
            "\n" +
            "2研究方向\n" +
            "视频算法工程师、图像处理算法工程师、音频算法工程师 通信基带算法工程师\n" +
            "\n" +
            "3目前国内外状况\n" +
            "目前国内从事算法研究的工程师不少，但是高级算法工程师却很少，是一个非常紧缺的专业工程师。" +
            "算法工程师根据研究领域来分主要有音频/视频算法处理、图像技术方面的二维信息算法处理和通信物理层、" +
            "雷达信号处理、生物医学信号处理等领域的一维信息算法处理。\n" +
            "在计算机音视频和图形图像技术等二维信息算法处理方面目前比较先进的视频处理算法：机器视觉成为此类算法研究的核心；" +
            "另外还有2D转3D算法(2D-to-3D conversion)，去隔行算法(de-interlacing)，运动估计运动补偿算法" +
            "(Motion estimation/Motion Compensation)，去噪算法(Noise Reduction)，缩放算法(scaling)，" +
            "锐化处理算法(Sharpness)，超分辨率算法(Super Resolution),手势识别(gesture recognition),人脸识别(face recognition)。\n" +
            "在通信物理层等一维信息领域目前常用的算法：无线领域的RRM、RTT，传送领域的调制解调、信道均衡、信号检测、网络优化、信号分解等。\n" +
            "另外数据挖掘、互联网搜索算法也成为当今的热门方向。\n" +
            "算法工程师逐渐往人工智能方向发展。";
    List<String> phraseList = DKNLPBase.extractPhrase(text, 5);
    assertEquals(5, phraseList.size());
    assertEquals("算法工程师", phraseList.get(0));
}

4、自动摘要
方法签名：List extractSummary(String txt, int sSum);
返回：摘要语句
签名参数说明：txt:要提取摘要的语句，sSum摘要句子数量
范例：自动提取三句摘要句子。
程序清单4

public void testExtractSummary() throws Exception

{
    String document = "算法可大致分为基本算法、数据结构的算法、数论算法、计算几何的算法、图的算法、动态规划以及数值分析、加密算法、排序算法、检索算法、随机化算法、并行算法、厄米变形模型、随机森林算法。\n" +
            "算法可以宽泛的分为三类，\n" +
            "一，有限的确定性算法，这类算法在有限的一段时间内终止。他们可能要花很长时间来执行指定的任务，但仍将在一定的时间内终止。这类算法得出的结果常取决于输入值。\n" +
            "二，有限的非确定算法，这类算法在有限的时间内终止。然而，对于一个（或一些）给定的数值，算法的结果并不是唯一的或确定的。\n" +
            "三，无限的算法，是那些由于没有定义终止定义条件，或定义的条件无法由输入的数据满足而不终止运行的算法。通常，无限算法的产生是由于未能确定的定义终止条件。";
    List<String> sentenceList = DKNLPBase.extractSummary(document, 3);
    assertEquals(3, sentenceList.size());

}

5、拼音转换
方法签名：List convertToPinyinList(txt);
返回：拼音列表
签名参数说明：txt:要转换拼音的语句
范例：给出一段文字中第二个字的拼音。
程序清单5

public void testConvertToPinyinList() throws Exception

{
    String text = "鸭绿江的绿跟绿色的绿不是一个读音";
    List<Pinyin> pinyinList = DKNLPBase.convertToPinyinList(text);
    assertEquals(text.length(), pinyinList.size());
    assertEquals(Pinyin.lu4, pinyinList.get(1));

}

6、添加词库
方法签名：String addCK(String filePath);
返回：空—完成，其它—错误信息
签名参数说明：filePath:新的词库文件，每个词使用回车换行分隔。
范例：读取新词库文件，将文件内容中第7个词“新美“添加到词库。
程序清单6

public void testAddCK() throws Exception

{
    DKNLPBase.addCK("src/test/resources/custom_dictionary.txt");
    String text = "互联网家装质量问题频繁 新美大杀入胜算几何";
    List<Term> termList = DKNLPBase.segment(text);
    assertEquals("新美", termList.get(6).word);

}

7、新词发现
方法签名：
NewWordDiscover discover = new NewWordDiscover(max_word_len, min_freq, min_entropy, min_aggregation, filter);
discover.discovery(text, size);
返回：空—完成，其它—错误信息
签名参数说明：max_word_len：控制识别结果中最长的词语长度,默认值是 4;该值越大,运算量越大,结果中出现短语的数量也会越多。
min_freq：控制结果中词语的最低频率,低于该频率的将会被过滤掉,减少一些运算量。由于结果是按照频率排序的,所以该参数其实意义不大。实际上，在接口中直接设为了0，意思是所有候选词都会出来。
min_entropy：控制结果中词语的最低信息熵（信息的不确定度）的值,一般取 0.5 左右。该值越大,越短的词语就越容易被提取出来。
min_aggregation：控制结果中词语的最低互信息值（字和字之间的关联性）,一般取 50 到 200.该值越大,越长的词语就越容易被提取出来,有时候会出现一些短语。
Filter：设为 true 的时候将使用内部词库过滤掉“旧词”。
Text：用于新词发现的文档。
Size：新词个数。
范例：新词发现。
程序清7

public void testFindNewWord() {

    NewWordDiscover discover = new NewWordDiscover(4, 0.0f, 0.5f, 100f, true);

//读取文件夹下所以文档并合并成一篇文档用于新词发现

    StringBuilder sbText = new StringBuilder();
    File[] txtFiles = new File("src/test/resources/搜狗文本分类语料库微型版/健康").listFiles();
    int i = 0;
    for (File file : txtFiles)
    {
        System.out.printf("[%d / %d] 读取 %s 中...\n", ++i, txtFiles.length, file.getName());
        sbText.append(IOUtil.readTxt(file.getPath()));
        if (i == 100) break;
    }
    System.out.printf("对长度为%d的语料进行分析中...\n", sbText.length());
    List<WordInfo> wordInfoList = discover.discovery(sbText.toString(), 10);
    //打印出发现的新词
    for (WordInfo wordInfo : wordInfoList) {
        System.out.println(wordInfo.text);
    }
}

微信关注我们

原文链接：https://yq.aliyun.com/articles/642008

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

人工智能领域大事记

本文试着给出一个适当视角，来看待人工智能（AI），回顾我们所做的工作和取得的成就。我们列出了半个世纪以来在人工智能领域的成就，并讨论了最近IBM的沃森-危险边缘挑战赛。我们也权衡了从未达到过人类级别的人工智能的前景。首先，我们回顾了搜索、知识表示和学习在人工智能系统建设中的重要性，并给出了示例，说明合适的知识表示有助于解决问题。其次，我们介绍了在神话和文学中反复出现的一个主题——创造生命或智能体的尝试总会遇到可怕的后果。也许，我们应该向人工智能界提出一些警告。本文说明了计算机科学中无法求解的问题的概念，即不存在求解算法的问题。我们自问是否能够创造人类级别的人工智能，就是这样的问题。接着，我们回顾了半个世纪以来在人工智能领域的成就。然后，我们讨论了IBM的沃森系统。2011年3月，在一场观众众多的电视比赛中，IBM计算机击败了危险边缘挑战赛中的两位常胜Jeopardy冠军。最后，我们回顾了关于创造生命的若干理论，并解释了智能和意识。人工智能概述之前我们开始了人工智能旅程。当时我们说，如果你想设计智能软件，那这个软件就需要具备以下特点。（1）搜索能力。（2）知识表示的...

2018-09-18

659

MEC的优势，就是可以把计算、存储资源分散在网络的各个部分，而应用可以从MEC中按需获取，而MEC的部署方式也是为了满足应用对低延迟的要求。应用计算量重分配那么什么应用需要到边缘云上进行计算？或者多少计算量和什么计算量需要到边缘云上计算。这个问题有三种选项： 1、本地处理，全部的计算都在终端进行处理； 2、所有流量都通过MEC处理； 3、一部分本地处理，一部分MEC处理；而计算能力的重分配（offloading）取决于很多因素。比如用户的喜好、回程链路的质量保证、终端设备的计算能力、MEC云的计算能力等。因此如何定义应用计算量offloading的策略也是学术界正在研究的方向。目前来看，有研究价值的第三种，即应用的计算量一部分本地处理，一部分远端处理。由于一些部分应用数据不适合由远端处理（如相机处理图片、用户输入输出、位置数据），而且有些应用不能估计多少的数据量，也无法估计要传输多久（比如在线游戏）也不适合由MEC来进行处理。比较适合由MEC处理的数据则是人脸识别、病毒扫描等，这些应用都是需要把数据传到后台庞大的数据库中，一般数据库由于其占有的存储资源比较大，因此适合部署在...

2018-09-18

647

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。