NLPIR汉语分词为自然语言处理提供新方向
随着计算机网络的飞速普及,人们已经进入了信息时代。在这个信息社会里,信息的重要性与日俱增,无论是个人,企业,乃至政府都需要获取大量有用的信息。谁掌握了信息,谁就能在竞争中处于有利位置。在这种环境下,搜索引擎技术逐渐成为技术人员的开发热点,而其中最为重要的技术就是分词技术。
中文分词,顾名思义,就是借助计算机自动给中文断句,使其能够正确表达所要表达的意思。中文不同于西文,没有空格这个分隔符,同时在中文中充满了大量的同义词,相近词,如何给中文断句是个非常复杂的问题,即使是手工操作也会出现问题。中文分词是信息提取、信息检索、机器翻译、文本分类、自动文摘、语音识别、文本语音转换、自然语言理解等中文信息处理领域的基础研究课题。对于中文分词的研究对于这些方面的发展有着至关重要的作用。可以这样说,只要是与中文理解相关的领域,都是需要用到中文分词技术的。因此对于中文分词技术的研究,对于我国计算机的发展有着至关重要的作用。
北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是满足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。
NLPIR大数据语义智能分析平台十三大功能:
精准采集:对境内外互联网海量信息实时精准采集,有主题采集(按照信息需求的主题采集)与站点采集两种模式(给定网址列表的站内定点采集功能)。
文档转化:对doc、excel、pdf与ppt等多种主流文档格式,进行文本信息转化,效率达到大数据处理的要求。
新词发现:从文本中挖掘出新词、新概念,用户可以用于专业词典的编撰,还可以进一步编辑标注,导入分词词典中,提高分词系统的准确度,并适应新的语言变化。
批量分词:对原始语料进行分词,自动识别人名地名机构名等未登录词,新词标注以及词性标注。并可在分析过程中,导入用户定义的词典。
语言统计:针对切分标注结果,系统可以自动地进行一元词频统计、二元词语转移概率统计。针对常用的术语,会自动给出相应的英文解释。
文本聚类:能够从大规模数据中自动分析出热点事件,并提供事件话题的关键特征描述。同时适用于长文本和短信、微博等短文本的热点分析。
文本分类:根据规则或训练的方法对大量文本进行分类,可用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多方面。
摘要实体:对单篇或多篇文章,自动提炼出内容摘要,抽取人名、地名、机构名、时间及主题关键词;方便用户快速浏览文本内容。
智能过滤:对文本内容的语义智能过滤审查,内置国内最全词库,智能识别多种变种:形变、音变、繁简等多种变形,语义精准排歧。
情感分析:针对事先指定的分析对象,系统自动分析海量文档的情感倾向:情感极性及情感值测量,并在原文中给出正负面的得分和句子样例。
文档去重:快速准确地判断文件集合或数据库中是否存在相同或相似内容的记录,同时找出所有的重复记录。
全文检索:支持文本、数字、日期、字符串等各种数据类型,多字段的高效搜索,支持AND/OR/NOT以及NEAR邻近等查询语法,支持维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。
编码转换:自动识别内容的编码,并把编码统一转换为其他编码。
中文分词技术应时代的要求应运而生,在很大程度上满足了人们对自然语言处理的需要,解决了人和计算机交流中的一些障碍;但中文分词技术也存在很多困难,我们相信在未来的几年里,通过对中文分词技术的深入研究,必将开发出高质量、多功能的中文分词算法并促进自然语言理解系统的广泛应用。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
盘它!10篇+阿里云技术经典案例,看完必收藏(下)
很多小伙伴反馈,说好的技术经典案例解读(下)去哪了,盼星星盼月亮,终于小编催各位技术大大把文章交上来了,小编也不知道这些文章有多牛,小编也不敢问,各位看官点了就知道,点击标题即可直接阅读。 DataV基础平面地图教程 DataV基础平面地图—地图数据不显示问题 DataV基础平面地图—区域热力层使用教程 使用cookie实现大屏数据“千人千面” 【OCR】企业实现全面“数据化”转型,这么做数据才有价值! 【智能语音】泡沫下的破浪者,智能语音产品到底落地何处? 【图像搜索】一图解千言,从兴趣意念直达搜索目标! 重磅公开!阿里语音识别模型端核心技术,让你“听”见未来 基于深度前馈序列记忆网络,如何将语音合成速度提升四倍? 示范了200句后,我的声音“双胞胎”诞生了! DFSMN在阿里巴巴的应用以及如何采用开源代码训练DFSMN模型 Nmslib高维空间最近邻
- 下一篇
支付宝刷脸支付带来“靠脸吃饭”时代
用手机、不输密码,支付宝刷脸支付带来“靠脸吃饭”时代 “靠脸吃饭”时代来了!支付宝在肯德基KPRO餐厅上线刷脸支付 刷脸支付全球首个商用试点落地:肯德基上线支付宝刷脸支付 刷脸支付首度走出实验室,在肯德基吃饭可以用支付宝刷脸支付了! 2年前的春天,“外星人”马云的笑脸被定格在汉诺威电子展的大屏上,几秒钟之后,屏幕显示支付成功,他用自己的脸,向现场包括德国总理在内的嘉宾演示了支付宝的“刷脸支付”技术。 现在,这一技术终于走出了实验室,实现商用。9月1日,支付宝宣布在肯德基的KPRO餐厅上线刷脸支付:不用手机,通过刷脸即可支付。这也是刷脸支付在全球范围内的首次商用试点。 如果说随着移动支付的普及,手机正在取代钱包,那么未来,人们不需要带手机,靠脸就能走遍天下。这样的未来,正在到来。中科院自动化所生物识别与安全技术研究中心主任李子青表示,刷脸支付的
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8编译安装MySQL8.0.19
- Hadoop3单机部署,实现最简伪集群
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- Windows10,CentOS7,CentOS8安装Nodejs环境
- 设置Eclipse缩进为4个空格,增强代码规范
- CentOS关闭SELinux安全模块
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7