首页 文章 精选 留言 我的

精选列表

搜索[工具库],共10000篇文章
优秀的个人博客,低调大师

搜狗开源业内最全「阅读理解工具集合」,助力研发人员快速构建高效模型

机器阅读理解是当前智能问答领域中的热门研究问题,它的目标是根据给定的问题和文章(段落),在文章(段落)中抽取或改写文字片段作为问题的答案。举例来说,当前多数的搜索引擎,当用户输入的搜索关键字是一个问题时,就会尝试从搜索结果的网页中寻找答案并以最高优先级呈现给用户。例如搜索“搜狗的吉祥物是什么”,搜索引擎就会反馈如下: 这其中所利用到的技术便是“机器阅读理解”。 近年来,由于神经网络的复兴和大规模数据集的可访问,阅读理解的研究取得了很大的进展,相继涌现出许多优秀的机器阅读理解模型。例如,在SQuAD 1.0的排行榜中就已经有80多个提交的模型,其中有相当一部分模型的性能已经超越了人类的表现。 这里存在一个问题。作为一个研究人员或开发者,为了比较这些模型的优缺点并加以利用,重现这些模型是非常必要的。但在已有的模型中,很多

优秀的个人博客,低调大师

开源自然语言处理工具包hanlp中CRF分词实现详解

CRF简介 CRF是序列标注场景中常用的模型,比HMM能利用更多的特征,比MEMM更能抵抗标记偏置的问题。 [gerative-discriminative.png] CRF训练 这类耗时的任务,还是交给了用C++实现的CRF++。关于CRF++输出的CRF模型,请参考《CRF++模型格式说明》。 CRF解码 解码采用维特比算法实现。并且稍有改进,用中文伪码与白话描述如下: 首先任何字的标签不仅取决于它自己的参数,还取决于前一个字的标签。但是第一个字前面并没有字,何来标签?所以第一个字的处理稍有不同,假设第0个字的标签为X,遍历X计算第一个字的标签,取分数最大的那一个。 如何计算一个字的某个标签的分数呢?某个字根据CRF模型提供的模板生成了一系列特征函数,这些函数的输出值乘以该函数的权值最后求和得出了一个分数。该分数只是“点函数”的得分,还需加上“边函数”的得分。边函数在本分词模型中简化为f(s’,s),其中s’为前一个字的标签,s为当前字的标签。于是该边函数就可以用一个4*4的矩阵描述,相当于HMM中的转移概率。 实现了评分函数后,从第二字开始即可运用维特比后向解码,为所有字打上BEMS标签。 实例 还是取经典的“商品和服务”为例,首先HanLP的CRFSegment分词器将其拆分为一张表: null表示分词器还没有对该字标注。 代码 上面说了这么多,其实我的实现非常简练: 标注结果 标注后将table打印出来: 最终处理 将BEMS该合并的合并,得到: [商品/null, 和/null, 服务/null] 然后将词语送到词典中查询一下,没查到的暂时当作nx,并记下位置(因为这是个新词,为了表示它的特殊性,最后词性设为null),再次使用维特比标注词性: [商品/n, 和/cc, 服务/vn] 新词识别 CRF对新词有很好的识别能力,比如: CRFSegment segment = new CRFSegment(); segment.enablePartOfSpeechTagging(true); System.out.println(segment.seg("你看过穆赫兰道吗")); 输出: CRF标注结果 你 S 看 S 过 S 穆 B 赫 M 兰 M 道 E 吗 S [你/rr, 看/v, 过/uguo, 穆赫兰道/null, 吗/y] null表示新词。

资源下载

更多资源
腾讯云软件源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题,腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构,目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring

Spring框架(Spring Framework)是由Rod Johnson于2002年提出的开源Java企业级应用框架,旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念,提供核心容器、应用上下文、数据访问集成等模块,支持整合Hibernate、Struts等第三方框架,其适用范围不仅限于服务器端开发,绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源,继承了IntelliJ IDEA强大的JS部分的功能。

用户登录
用户注册