教你用Python进行自然语言处理(附代码)
自然语言处理(NLP)是数据科学中最有趣的子领域之一,越来越多的数据科学家希望能够开发出涉及非结构化文本数据的解决方案。尽管如此,许多应用数据科学家(均具有STEM和社会科学背景)依然缺乏NLP(自然语言处理)经验。
在这篇文章中,我将探讨一些基本的NLP概念,并展示如何使用日益流行的Python spaCy包来实现这些概念。这篇文章适合NLP初学者阅读,但前提是假设读者具备Python的知识。
你是在说spaCy吗?
spaCy是一个相对较新的包,“工业级的Python自然语言工具包”,由Matt Honnibal在Explosion AI.开发。它在设计时目标用户以应用数据科学家为主,这也意味着它不需要用户来决定使用哪个算法来处理常见任务,而且它非常地快—快得难以置信(它用Cython来实现)。如果你熟悉Python数据科学栈,sp