百度中文依存句法分析工具 DDParser 重磅开源
继百度词法分析工具 LAC 2.0开源之后,8月4日,百度 NLP 又重磅发布了中文依存句法分析工具——DDParser!
相较于目前的其他句法分析工具,DDParser 基于大规模标注数据进行模型的训练,采取了更加简单易理解的标注关系,并且支持一键安装及调用,更加适合开发者快速学习及使用。
开源地址:
https://gitee.com/baidu/DDParser
https://github.com/baidu/DDParser
DDParser 是什么
DDParser(Baidu Dependency Parser)是百度 NLP 基于大规模标注数据和深度学习平台飞桨研发的中文依存句法分析工具,可帮助用户直接获取输入文本中的关联词对、长距离依赖词对等。
如图1所示,输入文本通过 DDParser 输出其对应的句法分析树,其中,两词之间的弧表示两个词具有依赖关系,由核心词指向依存词,弧上的标签表示依存词对核心词的关系。
▲ 图1
DDParser 能做什么
通过依存句法分析可直接获取输入文本中的关联词对、长距离依赖词对等,其对事件抽取、情感分析、问答等任务均有帮助。
如图1所示实例,在事件抽取任务中,我们通过依存分析结果可提取句子中所包含的各种粒度的事件,如“纳达尔击败梅德韦杰夫”、“纳达尔夺得冠军”、“纳达尔夺得2019年美网男单冠军”。
相应的,在问答任务中,我们根据问题的句法树与答案所在文本的句法树进行基于树的结构匹配,可获取对应的答案。例如,问题“谁夺得了2019年美网男单冠军”,句法树见图2,其答案所在文本的句法树见图1,我们通过两棵树的对应部分匹配,可得出答案为“纳达尔”。
▲ 图2
在情感分析任务中,依存分析可用于评价对象的情感极性判断。如图3所示,我们根据依存分析结果提取评价对象“羊肉串”的观点:“羊肉串咸”和“羊肉串不新鲜”,基于此来判断该评价对象的情感极性。
▲ 图3
利用依存分析结果可获取词之间的依赖关系和关联路径,如图4所示实例。前半句中存在两条路径“打疫苗”和“在哪儿打”,后半句中存在两条路径“打疫苗”和“打在哪儿”,这些路径信息可以给相似度计算等其他任务提供更多特征。
▲ 图4
总而言之,依存分析将句子表示为一棵树,提供了词之间的依赖关系和关联路径,其在句子序列基础上提供了更多的句子结构信息,可帮助其他任务从句子结构角度获取所需信息。
DDParser 的优势
· 基于大规模优质标注数据
DDParser 训练数据近百万,包含搜索 query、网页文本、语音输入数据等,覆盖了新闻、论坛等多种场景。从应用的角度出发,为了方便用户快速上手,DDParser 共设计了14种依存关系,并着重凸显实词间的关系,在随机数据上 LAS 可达到86.9%。
· 基于深度学习框架,不依赖繁复的特征工程
首先,DDParser 采用 bilinear attention mechanism 对句子语义进行表示,代替复杂的特征工程模式。其次,其输入层加入了词的 char 级别表示,缓解粒度不同带来的效果下降,网络结构如图5所示。
▲ 图5
· 调用便捷
DDParser 支持 Python 一键安装,方便用户快速使用。
DDParser 与其他开源工具的效果对比
DDParser 在与训练数据同源分布的标准测试集合上,LAS 达到92.9%。同时,为了验证 DDParser 在中文句法分析的优势,我们选择市面上关注度高的2款句法分析开源工具进行效果对比,评估方式为专家根据各工具依存关系定义人工标注。
经测试,在从搜索、聊天、网页文本、语音输入等数据集合中随机抽取构成的随机测试集合上,DDParser 效果达到了86.9%,效果优于同类工具,具体效果对比情况如表1所示。
▲ 表1
DDParser 如何安装使用
DDParser 支持 pip 一键安装,兼容 Windows、Linux 和 MacOS,调用方法如下所示:
pip install ddparser
from ddparser import DDParser ddp = DDParser() ddp.parse("百度是一家高科技公司")
具体安装方法参见 GitHub 的 README 文档中的快速开始。
目前,DDParser 已经开源,欢迎大家体验,并贡献你的 star 和 Fork!!!如果你有任何意见或问题都可以提 issue 到 Github,工具开发者将及时为你解答。
DDParser 项目地址:
https://gitee.com/baidu/DDParser
https://github.com/baidu/DDParser
百度自然语言处理(Natural Language Processing,NLP)以『理解语言,拥有智能,改变世界』为使命,研发自然语言处理核心技术,打造领先的技术平台和创新产品,服务全球用户,让复杂的世界更简单。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Hyperf 发布 Jet 统一模型 RPC 客户端组件及 v2.0.6 版本
更新内容 本周主要发布了 hyperf/jet 组件 v0.1 beta 版本,Jet 是一个统一模型的 RPC 客户端,内置 JSONRPC 协议的适配,该组件可适用于所有的 PHP (>= 7.2) 环境,包括 PHP-FPM 和 Swoole 或 Hyperf。同时修复了一些其它组件的 🐛Bug,继续提升 Hyperf 的稳定性,发布于 2.0.6 版,建议用户更新此版本。 直接访问 官网 hyperf.io 或 文档 hyperf.wiki 查看更新内容 新增 #2125 新增 hyperf/jet 组件。 修复 #2236 修复 Nacos 使用负载均衡器选择节点失败的 BUG。 #2242 修复 watcher 组件会重复收集多次注解的 BUG。 关于 Hyperf Hyperf 是基于 Swoole 4.5+ 实现的高性能、高灵活性的 PHP 协程框架,内置协程服务器及大量常用的组件,性能较传统基于 PHP-FPM 的框架有质的提升,提供超高性能的同时,也保持着极其灵活的可扩展性,标准组件均基于 PSR 标准 实现,基于强大的依赖注入设计,保证了绝大部分组件或类都...
- 下一篇
【云栖号直播】本周重磅:阿里云CDN产品解读及全站加速在游戏行业的最佳实践
云栖号在线课堂,及时了解行业动态!阿里云推出疫情专题方案,为企业业务护航,让你足不出户了解行业动态。 在这里可以走近阿里云基础产品,了解更多应用方案,还能遇见大咖分享洞见及故事!也可以通过视频的形式让你高效、生动的了解场景化的上云最佳实践。 本周重磅推荐 标题:阿里云容器安全能力全面升级 简介:企业正在加快向微服务与DevOps转型的脚步,容器技术与生态也在不断更新。容器环境中的安全挑战和防护建设也日益受到关注。阿里云将于近期发布更为完整的容器安全能力,基于ATT&CK攻防矩阵与容器安全一体化解决方案,整合云安全能力与原生容器服务,提供更为自动化的容器安全检测和响应能力,助力企业云上容器化进程。 观看直播 标题:中小企业与商标那些事儿 简介:企业品牌保护从商标开始,如何挑选一家靠谱的渠道注册商标,解读品牌权益维护的重要节点。 观看直播 标题:阿里云CDN产品解读及全站加速在游戏行业的最佳实践 简介:15:00:阿里云CDN产品家族价值解读;15:30:全站加速在游戏行业的最佳实践 观看直播 标题:云数据仓库+BI — 持续定义SaaS模式云数据仓库MaxCompute 简介:本...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Hadoop3单机部署,实现最简伪集群
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Windows10,CentOS7,CentOS8安装Nodejs环境
- 设置Eclipse缩进为4个空格,增强代码规范
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- Linux系统CentOS6、CentOS7手动修改IP地址
- Docker安装Oracle12C,快速搭建Oracle学习环境