【机器学习调查】脏数据最棘手,逻辑回归最常用
数据科学社区Kaggle的最新调查显示,机器学习和数据科学研究者在被问到工作中面临的最大障碍时,最常见的回答是“脏数据”,其次是缺乏该领域的人才。此外,他们最常用的方法是“逻辑回归”,而神经网络只排在第4位。
想象一下机器学习研究者的生活,你可能会觉得很令人向往。你会给自动驾驶汽车编程,在科技界的巨头公司工作,而你编写的软件甚至可能导致人类的灭亡。太酷了!但是,正如最近一项针对数据科学家和机器学习研究者的调查所显示的,这些期待需要调整,因为这些职业面临的最大的挑战是一些相当平常的事情:清洗脏数据。
这是来自数据科学社区Kaggle(今年早些时候被谷歌收购)的一项调查。该网站130万会员中,约有16700人回答了问卷调查,当被问及工作中面临的最大障碍时,最常见的回答是“脏数据”(dirty data),其次是缺乏该领域的人才。
“工作中遇
