《 短文本数据理解》——第1章 短文本理解及其应用 1.1 短文本理解
本节书摘来自华章出版社《短文本数据理解(1)》一书中的第1章,第1.1节,作者王仲远,更多章节内容可以访问云栖社区“华章计算机”公众号查看
1.1短文本理解
短文本广泛地存在于互联网的各个角落,如搜索查询、广告关键字、锚文本、标签、网页标题、在线问题、微博等,都属于短文本。一般而言,短文本字数少,没有足够的信息量来进行统计推断,因此机器很难在有限的语境中进行准确的语义理解。此外,由于短文本常常不遵循语法,自然语言处理技术如词性标注和句法解析等,难以直接应用于短文本分析。正是由于这些特性,使得让机器正确理解短文本十分困难。然而,短文本理解又是一项对于机器最终实现人工智能至关重要的任务,其在知识挖掘领域有很多潜在应用,如网页搜索、在线广告、智能问答等。那么,如何才能够破解其中的挑战呢?
我们不妨首先跳出机器的范畴,看看人类是如何理解短文本的