《写给程序员的数据挖掘实践指南》——
本节书摘来自异步社区出版社《写给程序员的数据挖掘实践指南》一书中的第5章,第5.8节,作者:【美】Ron Zacharski(扎哈尔斯基),更多章节内容可以访问云栖社区“异步社区”公众号查看。 5.8更多数据、更好的算法以及一辆破公共汽车 几年前我在墨西哥城参加一个学术会议,那次会议的会程与其他会议有点不同:第一天做报告,而第二天则是一天的游览(包括帝王蝶、印加遗迹等)。游览的那天涉及一段在公共汽车上的长途旅行,而汽车出了点故障。于是,在汽车进行检修时,一大堆博士有很多时间站在路边互相交谈。这段马路上的交流对我而言是那次会议的亮点。其中和我交谈的一个人叫Eric Brill,他因为开发一个称为Brill的词性标注器而闻名。与前几章类似的是,Brill标注器做的也是对数据分类,此时,它将词按照词性(名词、动词等)分类。Brill构建的算法要显著优于前人的算法(因此,Brill在自然语言处理领域变得十分出名)。在那条墨西哥公路边,我同Eric Brill探讨提高算法性能的问题。他的观点是,通过获得更多训练数据带来的提高会比算法改进带来的提高要大。实际上,他感觉如果保留原始的词性标注算法并且...