《中国人工智能学会通讯》——6.11 链接数据技术
6.11 链接数据技术 数据链接的建立涉及多个方面,包括数据资源标识、资源描述模型、词汇与本体定义、链接数据格式、自动链接抽取、链接预测等。 资源标识资源标识是构建数据链接的第一步。LOD 要求每个实体资源都要用类似于网页 URL 一样的 HTTPURI(Unified Resource Identifier) 来进行标识。但与维护传统网页之间的链接不同,一个网站的数据集中通常有数量巨大的实体资源。要维护不同数据集之间的 URI 链接,将带来巨大的工作量。 Schema.org 鼓励采用一种称为基于描述的引用(Reference by Description)的方式实现资源的标识和相互引用[18] 。Guha 认为人们之间交流信息时,通常基于实体的描述而非 ID 来区分实体。例如,当你介绍一个人时,常用“这位是著名作家张三”和“那位是某公司 CEO 张三”等来进行区分,而不是通过一个 ID 来介绍。因此,Schema.org 只要求少量的资源拥有 URIs,并鼓励数据发布者为资源增加尽可能多的额外描述。这些描述可以进一步被各种自动实体消解和实体对齐技术所使用,来实现更加自动的资源引用和...
