在线伪原创工具www.bolewei.com的开发过程
中文伪原创工具需要考虑的问题 我开始思考,目前已有的中文伪原创工具,效果差在哪些地方呢?我想到以下几个: 一、分词问题。 中文和英文不同,无论是搜索引擎的蜘蛛,还是其他自然语言处理的语料分析,都是需要分词的。如果不先进行分词的预处理就开始“伪原创”,肯定是不靠谱。举个例子:“天真”和“纯洁”是近义词。在不分词的情况下,“我有一个天真的表妹”仍然可以伪原创为“我有个纯洁的妹妹”,但“今天真热”处理为“今纯洁热”就是严重不靠谱。 二、顺序执行引发的单一化。 无论是网上流行的中文伪原创词库,还是现成的中文伪原创工具,我都试过了,他们的词库格式如下: 普通的算法是按照顺序依次替换,那么,如图所示,“凡间”的同义词原本有“尘寰”“尘间”“尘世”三个,但它永远不会被替换成后两个词。 最最理想的状态是能够根据语境,替换为合适的词。例如“天真”的同义词有“无邪 ”“纯真 ”“纯洁 ”“纯朴”等等,并非每个词在所有语境下都能够完全替换。当然,结合语境是高级自然语言处理的范畴,简单得伪原创能达到次理想状态就算OK:遇到多个同义词的情况,随机替换其中的一个。 三、词库打架的问题 我下载了网上流传的大部分词...