一文理解Skip-Gram上下文的预测算法
来源商业新知网,原标题:简单粗暴!一文理解Skip-Gram上下文的预测算法 自然语言处理属于人工智能领域,它将人类语言当做文本或语音来处理,以使计算机和人类更相似,是人工智能最复杂的领域之一。 由于人类的语言数据格式没有固定的规则和条理,机器往往很难理解原始文本。 要想使机器能从原始文本中学习,就需要将数据转换成计算机易于处理的向量格式,这个过程叫做词表示法。 词向量 词表示法在向量空间内表达词语。 所以,如果词向量之间距离较近,这就意味着这些词是相互关联的。 在上图中,可以看到与女性有关的词语聚集在左边,而与男性有关的词语聚集在右边。 所以,如果我们给出“耳环”这种词语,电脑会把它和女性联系起来,这在逻辑上是正确的。 语言的词汇量很大,人类难以对其进行一一分类和标识; 因此我们需要使用无监督学习技术,该技术可以独立学习词语的上下文。 无监督学习是指: 没有标注的训练数据集,需要根据样本间的规律统计对样本进行分析,常见如任务聚类等。 Skip-gram就是一种无监督学习技术,常用于查找给定单词的最相关词语。 Skip-gram用于预测与给定中心词相对应的上下文词。 它和连续词袋模型(...