自然语言处理领军人刘兵:没有终身学习,机器不可能智能 | 新智元专访
将一块石子投向水中会发生什么?
这个问题对人而言简单,对计算机却很难,因为答案有太多——可能是溅起水花,激起波纹,也可能惊动水中的鱼,击中池边的花……还可能是上面所有这些乃至更多。因此,计算机无无法作答。
“语言是不精确的,字面意思背后还有太多太多。”美国伊利诺伊大学芝加哥分校的计算机科学教授刘兵说。这也是为什么相较有着一对一表征的图像和语音,自然语言处理是一个如此艰巨的问题。
人类理解语言是将左边的感受(sensation)转化为右边的行动(action),而中间有一个表征。自然语言与图像和语音不同的地方在于,中间表征并非一一对应。换句话说,语言是不精确的。
要让计算机理解人类的语言,现在一般有两条路。一是从形式语言入手,将文本切割为单词、标点这些没有意义的 token,把知识“硬编码”给计算机。研究者会把各种 token 组合起来手动