自然语言处理在开放搜索中的应用

2020-10-14 1208

特邀嘉宾：谢朋峻--阿里云智能高级算法专家
视频地址：https://yunqi.aliyun.com/2020/session54?liveId=44650

自然语言智能（NLP）

自然语言智能研究实现人与计算机之间用语言进行有效通信。它是融合语言学、心理学、计算机科学、数学、统计学于一体的科学。它涉及到自然语言和形式化语言的分析、抽取、理解、转换和产生等多个课题。

人工智能可以分为几个阶段

• 计算智能，指依靠计算强大的算力和海量数据的存储能力，可以在部分领域超越人类的表现。代表例子就是谷歌的alphago，凭借谷歌TPU的强大算力以及结合类似蒙特卡洛树搜索、强化学习等算法，能够在围棋的巨大搜索空间中计算出好的决策路径，战胜人类，这是计算智能；
• 感知智能，是指从无结构化数据中识别出重要的要素。比如给一个query，分析出包含的人民、地名、机构名等；
• 认知智能，是在感知之上，能够理解其中要素的含义以及进行一些推理。比如“谢霆锋是谁的儿子谁是谢霆锋的儿子”两句话。词和实体都差不多，但语义差别很多。这是认知智能要解决的问题；
• 创造智能，比如计算机指能够理解语义的基础上，创造出符合常识、语义、逻辑的句子。比如自动写出行云流水的小说、创造娓娓动听的音乐能够无违和跟人自然聊天等
自然语言处理研究覆盖了感知智能，认知智能，创造智能这样的学科，是实现完整人工智能的必要技术

自然语言智能发展趋势

深度语言模型突破式发展, 引领重要自然语言技术取得进展；
公有云NLP技术服务从通用功能走向定制化服务；
自然语言技术逐步与行业/场景紧密结合, 产生更大价值；

阿里集团NLP平台能力

从下到上分为了NLP数据、NLP基础能力、NLP应用技术和上层应用。
NLP数据是很多算法的原料，累了包括语言词典、实体知识词典、句法词典、情感分析等词典等。阿里NLP基础技术包含了词法分析、句法分析、文本分析、深度模型。在这之上，是NLP垂直的技术包括问答对话技术反垃圾地址解析等。这些技术的组合，就支持了很多应用。其中搜索是NLP能力非常密集的一个应用

开放搜索中NLP应用和典型技术

• 基础设施包含了阿里云基础产品，以及基于阿里生态搜索场景打磨出的多个搜索自研系统，比如HA3、RTP、Dii等；
• 管控基础平台，保证我们离线数据采集、管理、训练等；
• 算法模块，我们分为两块，一块是查询分析相关，包含多粒度分词、实体识别、纠错改写等；另一个块是相关性和排序相关，包括文本相关性、CTR CVR预估、LTR 等；
（其中橙色背景的表示是跟NLP相关）
开放搜索的目标是要打造一站式、开箱即用的智能搜索服务，所以我们会把这些算法能力，以行业模板、场景化、周边服务的形式开放给用户。

开放搜索NLP分析链路

搜索的发起，往往是一个搜索关键词触发，比如用户搜索“ aj1北卡兰新款球鞋”

跨领域分词
我们在开放搜索开放了一系列的领域的分词模型
分词挑战

各个领域不断新增的未登录词或者叫新词，往往会大大降低分词效果；
为新用户定制分词模型，从标注到训练的整个过程，成本都比较高；
解决思路
结合统计特征，比如互信息、左右上等构建一个成词模型，可以基于用户数据快速构建一份领域词典；
结合源领域分词模型和目标领域的词典，我们基于远程监督技术可以快速构建一个目标领域分词器；

（上图为自动跨领域分词框架）
用户只需要提供给我们一些自己业务的语料数据，我们就可以自动的得到一个定制化的分词模型，这不仅大大提升了效率，同时也更快满足客户的需求。
通过这个技术，我们可以在各个领域获得比开源通用分词，更好的效果

命名实体识别
命名实体识别（NER），例如从query中提取人名地名时间等。
挑战与困难
NER在NLP领域研究非常多同时也面临很多的挑战，尤其在中文上由于缺乏天然分隔符，面临边界歧义、语义歧义、嵌套歧义等困难。
**解决思路
**• 下图右上角是我们在开放搜索中使用的模型架构图；
• 在开放搜索中，很多用户都积累了大量词典实体库。为了充分利用这些词典，我们提出了一种在bert之上，有机融合知识的graphNer框架。从右下角的表格可以看出，在中文上能取得最好的效果；

拼写纠错
开放搜索分为4个纠错步骤包含了挖掘、训练、评估和在线预测。
主要的模型根据统计翻译模型和神经网络翻译模型两套系统，同时在性能、展示样式和干预上有一套完备方法。

语义匹配
深度语言模型的出现给很多NLP任务带来了跨越式的提升，尤其是在语义匹配等任务上。
达摩院在bert上也提出了很多创新，提出了自研的StructBert。主要创新点在于在深度语言模型训练中，增加了字序/词序的目标函数和更多样的句子结构预测目标函数，进行多任务学习。但是这样的通用的structbert是无法试用给开放搜索里成千上万个客户，成千上万个领域的。我们需要做领域适配。所以我们提出了语义匹配3阶段范式。可以快速的为客户定制适合于自己业务的语义匹配模型。

（具体的流程如图）

NLP算法产品化

算法模块产品化的系统架构，包含了离线计算、在线引擎以及产品控制台。
图中浅蓝色的部分是NLP在开放搜索上开放的算法相关功能，用户可以直接在控制台体验和使用。

以上就是本次云栖大会--“自然语言处理在开放搜索中的应用”的内容。如果您对搜索与推荐相关技术感兴趣，欢迎加入钉钉群内交流~

【开放搜索】新用户活动：阿里云实名认证用户享1个月免费试用https://free.aliyun.com/product/opensearch-free-trial

微信关注我们

原文链接：https://yq.aliyun.com/articles/775695

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

“视频云营业厅”发布，蚂蚁 mPaaS 加速金融机构数字化转型

在业务和数据争相“上云”的今天，更多金融机构加速数字化转型进程，将原有的人对人、线下、柜面核心业务进一步线上化，扩充全新的业务触点，开启远程业务办理的新模式。在 2020 年云栖大会上，蚂蚁集团 mPaaS 团队在金融云专场分享了视频云营业厅技术方案，贴合金融专属场景，让技术创新成为数字金融发展和变革的源动力。移动终端时代，随着 5G 基础设施的高速发展，AI 技术的日渐成熟，相关政策的鼓励和加持，以及当前疫情大环境的催化，远程无接触的业务办理方式由创新模式快速走向通用。通过多媒体音视频技术建立服务通道，结合 AI 技术完成客户身份校验及流程辅助，让客户足不出户即可完成银行转账、保险查勘定损、证券开户、信托产品售卖等原有的柜面或需要客户经理上门办理的业务，金融行业正在迈入核心业务全面线上化的新时代。蚂蚁集团旗下移动开发平台 mPaaS 凭借多年的技术积累和开放经验，将视频云营业厅这一技术方案打造为业务加速器，并在 2020 年云栖大会金融云专场对外发布。疫情之下，视频云营业厅成为全新的业务触点疫情催生了远程业务办理的兴起和变革，也让⾦融⾏业原有的⼈对⼈、线下、柜⾯业务模式看到...

2020-09-20

957

导读：2020年，Sentinel 推出 Go 原生版本Sentinel-Golang，在云原生领域继续突破。本文将从实际出发结合案例说明在Sentinel-Golang中如何集成Nacos，使其做为外部动态数据源，将流控规则存储在nacos中，并且实现动态实时更新规则。本文主要分为两个部分：将sentinel流控规则定义在代码内部实现限流效果。将sentinel流控规则定义在nacos配置中心，实现限流效果以及在nacos中动态更新规则,实现动态流控。下面将详细介绍一下相关的背景知识。 1. Sentinel 随着微服务的流行，服务和服务之间的稳定性变得越来越重要。Sentinel 以流量为切入点，从流量控制、熔断降级、系统负载保护等多个维度保护服务的稳定性。 Sentinel 具有以下特征: 丰富的应用场景：Sentinel 承接了阿里巴巴近 10 年的双十一大促流量的核心场景，例如秒杀（即突发流量控制在系统容量可以承受的范围）、消息削峰填谷、集群流量控制、实时熔断下游不可用应用等。完备的实时监控：Sentinel 同时提供实时的监控功能。您可以在控制台中看到接入应...

2020-10-08

890

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。