《中国人工智能学会通讯》——12.53 知识图谱构建技术-低调大师

《中国人工智能学会通讯》——12.53 知识图谱构建技术

2017-09-03 595

12.53 知识图谱构建技术

知识图谱中知识的来源有两类，一类是互联网上分布、异构海量资源；一类是已有的结构化的异构语义资源。从第一类资源中构建知识图谱的方法根据获取知识的类型分为概念层次学习、事实学习、事件学习等，而第二类资源进行的工作是异构资源的语义集成。

概念层次学习
概念是人们理解客观世界的线索，是人们对客观世界中的事物在不同层次上的概念化描述，概念层次是知识图谱的“骨骼”。概念层次学习就是通过合理的技术，抽取知识表示中的概念，并确定其上下位关系。概念层次学习多采用基于启发式规则的方法，其基本思路是根据上下位概念的陈述模式，从大规模资源中找出可能具有上下位关系的概念对，并对上下位关系进行归纳。另一类是基于统计的概念层次学习方法[27] ，假设相同概念出现的上下文也相似，利用词语或实体分布的相似性，通过定义计算特征学习概率模型来得到概念结构。

事实学习
知识图谱中事实以三元组的形式表示，事实的数量决定了知识图谱的丰富程度。按照知识图谱构建时采用的机器学习方法可以分为有监督、半有监督及无监督的知识图谱构建方法。

有监督的事实知识获取方法需要有已标注文档作为训练集，可以分为基于规则学习、基于分类标注和基于序列标注方法等。基于规则学习的语义标注方法从带语义标注的语料中自动学习标注规则，利用规则对数据资源进行语义标志，适合对具有比较规范出现的资源的知识获取；基于分类的知识获取方法将知识获取方法转化为分类算法，根据确定的标注特征从标注语料中学习标注模型；基于序列模式标注的方法同时考虑多个语义标志之间的关系，可以提高标注的准确率。另外还包括其他如考虑层次关系的语义标注的方法等。

半有监督的知识获取方法主要包括自扩展方法和弱监督方法。自扩展方法[28-30]需要初始的种子实体对，根据这些种子实体对，发现新的语义模板，再对语料进行迭代抽取以发现新的实体对，这种方法的主要问题是语义漂移；弱监督方法使用知识库中的关系启发式地标注文本，它的问题主要在于训练实例中本身带有大量噪音。

无监督的知识获取方法主要是开放信息抽取，使用自然语言处理方法，无需预先给定要抽取的关系类别，自动将自然语言句子转换为命题，这种方法在处理复杂句子时效果会受到影响。代表性的系统有之前提到的 KnowItAll，该系统具有领域无关特性，可以使用自扩展的方式从大规模互联网信息中抽取语义信息，同时会自动地对抽取信息进行评审。

语义集成
知识库间的异构性阻碍了知识在整个语义网上的共享。语义集成，就是在异构知识库之间，发现实体间的等价关系，从而实现知识共享。由于知识库多以本体的形式描述，因此语义集成中的主要环节是本体映射。主要方法包括：

● 基于文本的方法主要利用本体中实体的文本信息，例如实体的标签和摘要。通过计算两个实体字符串之间的相似度来确定实体之间是否具有匹配关系。

● 基于结构的方法主要利用本体的图结构信息对本体进行匹配。其中较为代表性的方法有SimRank [31] 和相似度传播[32] , 这些方法利用本体的图结构，对实体间的相似度进行传播，从而提高对齐的效果。

● 基于背景知识的方法一般使用 DBPedia 或WordNet 等已有的大规模领域无关知识库作为背景知识来提高匹配效果。例如，Aleksovski 等人利用DICE 本体 ( 医学领域的本体 ) 来匹配结构信息缺失的两个与医学相关的本体[33] 。

● 基于机器学习的方法将本体匹配问题视为一个机器学习中的分类或优化问题，从而采取机器学习方法获得匹配结果。例如，Niepert 等人将本体匹配转换为一个马尔可夫逻辑网络问题，将本体中的各种信息转化为各种约束条件，并求出最优解[34] 。

微信关注我们

原文链接：https://yq.aliyun.com/articles/219614

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

《中国人工智能学会通讯》——12.50 知识图谱研究综述

12.50 知识图谱研究综述知识图谱（Knowledge Graph， KG）旨在描述客观世界的概念、实体、事件及其之间的关系。其中，概念是指人们在认识世界过程中形成对客观事物的概念化表示，如人、动物、组织机构等；实体是客观世界中具体事物，如篮球运动员姚明、互联网公司腾讯等；事件是客观世界的活动，如地震、买卖行为等。关系描述概念、实体、事件之间客观存在的关联关系，如毕业院校描述了一个人与他学习所在学校之间的关系，运动员和篮球运动员之间的关系是概念和子概念之间的关系等。谷歌于 2012 年 5月推出谷歌知识图谱，并在其搜索引擎中增强搜索结果，标志着大规模知识在互联网语义搜索中的成功应用。知识图谱将互联网的信息表达成更接近人类认知世界的形式，提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱给互联网语义搜索带来了活力，同时也在智能问答、大数据分析与决策中显示出强大威力，已经成为互联网基于知识的智能服务的基础设施。知识图谱与大数据和深度学习一起，成为推动人工智能发展的核心驱动力之一。知识图谱技术是指在建立知识图谱中使用的技术，是融合认知计算、知识表示与推理、信息检索与抽取、...

2017-09-03

714

7.2 基于深度学习的自然语言处理深度学习旨在模拟人脑对事物的认知过程，一般是指建立在含有多层非线性变换的神经网络结构之上，对数据的表示进行抽象和学习的一系列机器学习算法。该方法已对语音识别、图像处理等领域的进步起到了极大的推动作用，同时也引起了自然语言处理领域学者的广泛关注。如图 1 所示，深度学习为自然语言处理的研究主要带来了两方面的变化，一方面是使用统一的分布式（低维、稠密、连续）向量表示不同粒度的语言单元，如词、短语、句子和篇章等；另一方面是使用循环、卷积、递归等神经网络模型对不同的语言单元向量进行组合，获得更大语言单元的表示。除了不同粒度的单语语言单元外，不同种类的语言，甚至不同模态（语言、图像等）的数据都可以通过类似的组合方式，表示在相同的语义向量空间中；然后通过在向量空间中的运算来实现分类、推理、生成等各种能力，并应用于各种相关的任务之中。下面分别对这两方面加以详细的阐述。

2017-09-03

739

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。