NLPIR大数据分词技术行业信息挖掘的推动者
随着计算机的日益普及,互联网的快速发展,文本的数量(电子邮件、新闻、网页、科技论文等)在不停的增长,因而对文本作智能化处理以获取所需信息的需求日益迫切。在这样的社会需求下,自然语言处理技术的地位和作用日益重要。分词作为自然语言处理的第一个步骤,是其他高层应用的基础,起着极其重要的作用。
词是最小的能够独立活动的有意义的语言成分 。在中文中,词与词之间不存在分隔符,词 本身也缺乏明显的形态标记,因此,中文信息处理 的特有问题就是如何将汉语的字串分割为合理的词语序列,即中文分词,因而分词是中文自然语言处理的第一步,这是不同于其他语言的自然语言处理系统的重要特点,也是影响自然语言处理在中文信息处理中应用的重要因素。分词系统是中文信息处理中的一个主要组成部分,是中文自然语言理解、文献检索、搜索引擎以及文本挖掘系统中最基本的一部分。汉字的简体/繁体转换、信息检索和信息抽取、搜索引擎、Web文本挖掘、文本分类、文本校对等中文信息处理系统都首先需要分词作为其最基本的模块,因而对汉语词法分析技术的研究就显得至关重要。
北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是满足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。
NLPIR大数据语义智能分析平台十三大功能:
精准采集:对境内外互联网海量信息实时精准采集,有主题采集(按照信息需求的主题采集)与站点采集两种模式(给定网址列表的站内定点采集功能)。
文档转化:对doc、excel、pdf与ppt等多种主流文档格式,进行文本信息转化,效率达到大数据处理的要求。
新词发现:从文本中挖掘出新词、新概念,用户可以用于专业词典的编撰,还可以进一步编辑标注,导入分词词典中,提高分词系统的准确度,并适应新的语言变化。
批量分词:对原始语料进行分词,自动识别人名地名机构名等未登录词,新词标注以及词性标注。并可在分析过程中,导入用户定义的词典。
语言统计:针对切分标注结果,系统可以自动地进行一元词频统计、二元词语转移概率统计。针对常用的术语,会自动给出相应的英文解释。
文本聚类:能够从大规模数据中自动分析出热点事件,并提供事件话题的关键特征描述。同时适用于长文本和短信、微博等短文本的热点分析。
文本分类:根据规则或训练的方法对大量文本进行分类,可用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多方面。
摘要实体:对单篇或多篇文章,自动提炼出内容摘要,抽取人名、地名、机构名、时间及主题关键词;方便用户快速浏览文本内容。
智能过滤:对文本内容的语义智能过滤审查,内置国内最全词库,智能识别多种变种:形变、音变、繁简等多种变形,语义精准排歧。
情感分析:针对事先指定的分析对象,系统自动分析海量文档的情感倾向:情感极性及情感值测量,并在原文中给出正负面的得分和句子样例。
文档去重:快速准确地判断文件集合或数据库中是否存在相同或相似内容的记录,同时找出所有的重复记录。
全文检索:支持文本、数字、日期、字符串等各种数据类型,多字段的高效搜索,支持AND/OR/NOT以及NEAR邻近等查询语法,支持维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。
编码转换:自动识别内容的编码,并把编码统一转换为其他编码。
中文分词技术应时代的要求应运而生,在很大程度上满足了人们对自然语言处理的需要,解决了人和计算机交流中的一些障碍;但中文分词技术也存在很多困难,我们相信在未来的几年里,通过对中文分词技术的深入研究,必将开发出高质量、多功能的中文分词算法并促进自然语言理解系统的广泛应用。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
直播平台制作中系统功耗过高问题原因分析
大家在直播平台观看直播时,由于手机长时间处在视频直播状态,导致手机发烫的现象十分常见。引起发烫的主要原因是CPU或GPU的占用率过高。其实在直播平台制作时可以通过很多细节方面的优化,降低系统功耗。但前提是要求我们明确其中的原因。那么导致CPU或GPU占用率过高的原因都有哪些呢? 1.数据量过大 在整个视频直播过程中,视频的尺寸和帧率是决定数据量大小的两点因素。通常在直播平台制作过程中,为了不影响用户体验,适当的减小视频尺寸和帧率可以降低CPU或GPU的“压力”,从而降低一定的功耗,但这样需要在用户体验和功耗之间找到最佳的平衡点。 2.格式转换问题 在直播平台制作过程中,不同的模块对于数据格式的要求是存在一定差异的。为了尽可能的减少不同格式之间的数据转换,通常是选择GPU来处理部分复杂的格式转换。这样一来也会加大GPU的占用率,导致系统功耗增加。 3.过度放大图像 过度放大图像会涉及到复杂的运算从而导致CPU功耗升高。当然,如果过度缩小或剪裁图像,也会因为一系列复杂运算而消耗一定的CPU。所以在选择预览分辨率和推流尺寸时,尽可能让两者保持一致,寻求最佳的平衡点,这样既能合理把控CPU功耗...
- 下一篇
AI技术普及,直播平台源码开发市场发展可期
AI技术在网络视频直播行业的应用不再少数。AI人工智能虽然是没有感情的,但是强大的算法技术,可以使其极大程度上提升用户的互动视频直播体验。目前,国内头部直播平台已经纷纷转向AI技术在视频直播领域的赋能研究,在不久的将来肯定会为直播平台用户带来新颖的玩法体验。 AI虚拟主播未来可期 直播平台内容同质化,是困扰绝大多数直播平台的难题。而对于直播平台源码服务商而言,想要从开发角度解决这个问题同样是束手无策。但很多主流直播平台一直在寻求合适的解决方案,通过AI技术合成虚拟主播即是其中一种方式,像此前KK直播的“黑科技应用”,以及斗鱼直播的虚拟主播试水等。AI虚拟主播可以通过人工智能算法,将很多真人主播不能实现的直播间操作变为了可能,同时这种穿梭在虚拟与现实中的技术应用能够带给用户更加新颖的直播平台体验。此外,AI技术与很多二次元形象内容是极为契合的,会提升直播平台二次元细分人群的互动黏性。对于直播平台源码开发商而言,投入AI虚拟主播的研发还是比较困难的,这些复杂人工智能算法不同于直播平台源代码层面上的编译,但就当下直播行业发展而言,AI虚拟主播未尝不是一个发展方向。 AI智能推荐算法应用 对于...
相关文章
文章评论
共有0条评论来说两句吧...