中文伪原创工具需要考虑的问题
我开始思考,目前已有的中文伪原创工具,效果差在哪些地方呢?我想到以下几个:
一、分词问题。
中文和英文不同,无论是搜索引擎的蜘蛛,还是其他自然语言处理的语料分析,都是需要分词的。如果不先进行分词的预处理就开始“伪原创”,肯定是不靠谱。举个例子:“天真”和“纯洁”是近义词。在不分词的情况下,“我有一个天真的表妹”仍然可以伪原创为“我有个纯洁的妹妹”,但“今天真热”处理为“今纯洁热”就是严重不靠谱。
二、顺序执行引发的单一化。
无论是网上流行的中文伪原创词库,还是现成的中文伪原创工具,我都试过了,他们的词库格式如下:
普通的算法是按照顺序依次替换,那么,如图所示,“凡间”的同义词原本有“尘寰”“尘间”“尘世”三个,但它永远不会被替换成后两个词。
最最理想的状态是能够根据语境,替换为合适的词。例如“天真”的同义词有“无邪 ”“纯真 ”“纯洁 ”“纯朴”等等,并非每个词在所有语境下都能够完全替换。当然,结合语境是高级自然语言处理的范畴,简单得伪原创能达到次理想状态就算OK:遇到多个同义词的情况,随机替换其中的一个。
三、词库打架的问题
我下载了网上流传的大部分词库,收费的、免费的,都尝试了。发现没有人去解决词库打架问题。
![image image]()
什么叫做“词库打架问题”?很简单,看这两组词。
![image image]()
顺序执行替换后,会发现文字兜了一个圈回到了原点……这显然不是我们想要的,但,这个问题在现有的词库、伪原创工具中,非常非常普遍。
四、可读性太差
为什么会可读性太差?因为现有的中文伪原创工具,都是通篇全部替换。如果词库里有10万组同义词,程序会遍历一次,把原文中所有能够替换的字符串“榨干”。这样一来虽然伪原创成功了,但可读性无限趋近于零。让我们看这样一组例子:
![image image]()
伪原创后:
![image image]()
如果读者直接阅读伪原创后的文字,能够理解吗?
怎样解决这个问题呢,我想,可以设置一个百分比,或叫做伪原创等级。例如“轻微 柔和 适中 猛烈 变态 面目全非 魂飞魄散”七个等级。用户选择“轻柔”时,只替换100个可替换同义词中的随机10个, 选择“适中”中,替换100个可替换同义词中的随机50个,以此类推。这样就可以让用户自己在“可读性”“原创度”之前自由权衡。
我心中的完美中文伪原创工具
| 功能模块 |
功能说明 |
技术实现 |
| 智能分词 |
避免“今天真热”变成“今纯洁热”的问题。 |
可以调用现有的中文分词开源组件。 |
| 随机性 |
既便是同一篇文章,每次进行伪原创的结果都不一样。 |
引入随机取词条。 |
| 伪原创力度调节 |
定义伪原创的百分比,让用户在“可读性”和“原创度”之间自由权衡。 |
引入等级设置、随机取词条。 |
| 词库不要打架 |
避免或降低“发誓”被替换为“立誓”后又被替换回“发誓”的情况发生。 |
放弃顺序执行。 |
| 统计 |
统计伪原创后替换了多少词 |
替换时插入标记 |
| 标记 |
标记被替换的词,方便查看、校对 |
替换时插入标记 |
核心程序实现
考虑以上提到的很多方面的问题,程序还是比较长,接近一万行。下面我只列几段核心的代码供大家参考、讨论。
一、分词。
分词其实很容易,因为有很懂开源组件可以使用。我最喜欢的是SCWS。官网地址是http://www.ftphp.com/scws/
SCWS本来是PHP中文分词解决方案,但它提供了API,我们C#程序猿也可以毫无压力的调用。
View Code
二、解决词库打架问题。
这没什么好说的。程序也只有一句话。
![image image]()
三、根据百分比,随机取x条记录。
取随机记录,最方便的是Mysql数据库,内置的rand()函数可以在select中使用。如果使用SQL Server稍微麻烦些,效率也会低一些。
参考http://www.rndblog.com/how-to-select-random-rows-in-mysql/
四、替换同义词主函数。
请看代码里的注释。
public
string ReplaceArticle(
string old,
int strength,
bool markRed,
ref
int replacedcount)
{
string newArticle = old ;
int wordsAmount =
180482;
//
词库总量
int kwcount = Convert.ToInt32(strength *
1.0 /
100 * wordsAmount);
//
根据传入的百分比,计算需要取多少个词
var dataset = SQLHelper.ExecuteDataset(SQLHelper.connectionString, System.Data.CommandType.Text,
"
select * from words order by rand() limit
" + kwcount);
//
随机取kwcount组词
foreach (DataRow r
in dataset.Tables[
0].Rows)
{
//
随机。对于词典中A->B的词组。随机决定本次替换是Replace(A,B)还是Replace(B,A)
int i =
new Random().Next(
0,
1);
newArticle = newArticle.Replace(r[i].ToString()
,
string.Format(
"
<b>{0}</b>
", r[
1 - i].ToString()));
}
//
数被替换的词。
replacedcount = newArticle.Split(
new
string[] {
"
</b>
" }, StringSplitOptions.None).Length -
1;
if (!markRed)
{
//
如果用户不要求标记,则去掉<b>标记。
newArticle = newArticle.Replace(
"
<b>
",
string.Empty).Replace(
"
</b>
",
string.Empty);
}
return newArticle;
}
最终程序界面
![image image]()
最后
如前文所说,中文伪原创几乎是一片空白。希望本文能够启到抛砖引玉的作用,更希望有兴趣的同学能够与我一起继续不断的完善、改进它。
本文转自 流牛木马 博客园博客,原文链接:http://www.cnblogs.com/azure/archive/2012/08/29/bolewei.html,如需转载请自行联系原作者