自然语言处理透析希拉里和特朗普各自的“演讲范儿”
◆ ◆ ◆
数据科学可以应用到很多领域。从图像处理到人工智能,无所不能。其中之语义分析(semantic analysis),在社交媒体监测中非常有用。本文聚焦于政治,而非推特或脸书的评论分析。
今年7月21日,唐纳德•特朗普,在俄亥俄州的克利夫兰举行的共和党全国代表大会的最后一天接受了共和党总统候选人提名。一周之后的28日,希拉里•克林顿在费城接受了民主党总统候选人提名。
在家人和成千上万粉丝的支持下,他们发表了各自的提名演讲。本文对此进行了分析,以期更好地理解这份政治通讯背后隐藏的深意。本文集中在三个特征上:词汇、风格和节奏。
◆ ◆ ◆
深扒词汇
评价谁使用的词汇量最大的方法之一是看演讲者用了有多少独特的词。为此需要先去除英语中没有“意义”的那些词(如“the”,“a”,“of”等)。这些词也叫停用词:具体名单可参照此链接http://