自然语言处理如何检查拼写错误?(Tensorflow实例教程&源代码)
机器学习的一个最重要的问题就是,我们需要干净的数据。自然语言处理项目存在着一个问题——使用人类书写的文本。而不幸的是,我们并不擅长写作。想象一下,如果在Reddit上的有关帖子和评论的数据集中存在着许多拼写错误,这对于机器来说,是不是有些不好处理呢?
因此,制作一个拼写检查器将会是一个非常有价值的项目,这将有助于缓解这些问题。
我们即将用于此项目的模型与我在文章“亚马逊评论中的文本汇总”(https://medium.com/towards-data-science/text-summarization-with-amazon-reviews-41801c2210b)(都是seq2seq模型)中写的是很相似的,但是我添加了一些额外的代码行,以便可以使用grid search来调整整个架构和超参数,并且可以使用TensorBoard来分