【干货】刘知远:面向大规模知识图谱的表示学习技术
演讲全文:
我们为什么要关注表示学习这个问题呢?我们可以看关于机器学习的一个重要公式,这个公式有三个部分组成,第一部分是关于数据或者问题的表示,在表示的基础上我们要去设计或者构建一个目标,也就是说我们要实现一个什么样的目标。
在设定了目标之后,开始看怎么实现这个目标,这就是优化的过程。对于机器学习来讲,表示是这三个环节中最基础的部分,也是我们为什么会关注它的重要原因。
对于自然语言处理和多媒体处理而言,所处理的数据是典型的无结构数据。为了让计算机更好地对这些数据进行智能处理,如何很好地表示它们是一个至关重要的问题。
什么是表示学习呢?
在自然语言处理中,常用的表示方式是1-hot Representation,每一个词都可以表示成一个非常长的向量,这个向量的长度就是词汇的数量,例如汉语常用词有6000个,我们就把每个词表示成6000维的向量