在线伪原创工具www.bolewei.com的开发过程-低调大师

在线伪原创工具www.bolewei.com的开发过程

2017-10-29 605

中文伪原创工具需要考虑的问题

　　我开始思考，目前已有的中文伪原创工具，效果差在哪些地方呢？我想到以下几个：

　　一、分词问题。

　　中文和英文不同，无论是搜索引擎的蜘蛛，还是其他自然语言处理的语料分析，都是需要分词的。如果不先进行分词的预处理就开始“伪原创”，肯定是不靠谱。举个例子：“天真”和“纯洁”是近义词。在不分词的情况下，“我有一个天真的表妹”仍然可以伪原创为“我有个纯洁的妹妹”，但“今天真热”处理为“今纯洁热”就是严重不靠谱。

　　二、顺序执行引发的单一化。

　　无论是网上流行的中文伪原创词库，还是现成的中文伪原创工具，我都试过了，他们的词库格式如下：

　　普通的算法是按照顺序依次替换，那么，如图所示，“凡间”的同义词原本有“尘寰”“尘间”“尘世”三个，但它永远不会被替换成后两个词。

　　最最理想的状态是能够根据语境，替换为合适的词。例如“天真”的同义词有“无邪 ”“纯真 ”“纯洁 ”“纯朴”等等，并非每个词在所有语境下都能够完全替换。当然，结合语境是高级自然语言处理的范畴，简单得伪原创能达到次理想状态就算OK：遇到多个同义词的情况，随机替换其中的一个。

　　三、词库打架的问题

　　我下载了网上流传的大部分词库，收费的、免费的，都尝试了。发现没有人去解决词库打架问题。

　　什么叫做“词库打架问题”？很简单，看这两组词。

　　顺序执行替换后，会发现文字兜了一个圈回到了原点……这显然不是我们想要的，但，这个问题在现有的词库、伪原创工具中，非常非常普遍。

　　四、可读性太差

　　为什么会可读性太差？因为现有的中文伪原创工具，都是通篇全部替换。如果词库里有10万组同义词，程序会遍历一次，把原文中所有能够替换的字符串“榨干”。这样一来虽然伪原创成功了，但可读性无限趋近于零。让我们看这样一组例子：

伪原创后：

　　如果读者直接阅读伪原创后的文字，能够理解吗？

　　怎样解决这个问题呢，我想，可以设置一个百分比，或叫做伪原创等级。例如“轻微柔和适中猛烈变态面目全非魂飞魄散”七个等级。用户选择“轻柔”时，只替换100个可替换同义词中的随机10个，选择“适中”中，替换100个可替换同义词中的随机50个，以此类推。这样就可以让用户自己在“可读性”“原创度”之前自由权衡。

我心中的完美中文伪原创工具

功能模块	功能说明	技术实现
智能分词	避免“今天真热”变成“今纯洁热”的问题。	可以调用现有的中文分词开源组件。
随机性	既便是同一篇文章，每次进行伪原创的结果都不一样。	引入随机取词条。
伪原创力度调节	定义伪原创的百分比，让用户在“可读性”和“原创度”之间自由权衡。	引入等级设置、随机取词条。
词库不要打架	避免或降低“发誓”被替换为“立誓”后又被替换回“发誓”的情况发生。	放弃顺序执行。
统计	统计伪原创后替换了多少词	替换时插入标记
标记	标记被替换的词，方便查看、校对	替换时插入标记

核心程序实现

　　考虑以上提到的很多方面的问题，程序还是比较长，接近一万行。下面我只列几段核心的代码供大家参考、讨论。

　　一、分词。

　　分词其实很容易，因为有很懂开源组件可以使用。我最喜欢的是SCWS。官网地址是http://www.ftphp.com/scws/

　　SCWS本来是PHP中文分词解决方案，但它提供了API，我们C#程序猿也可以毫无压力的调用。

 
 
 View Code 

　　二、解决词库打架问题。

　　这没什么好说的。程序也只有一句话。

　　三、根据百分比，随机取x条记录。

　　取随机记录，最方便的是Mysql数据库，内置的rand()函数可以在select中使用。如果使用SQL Server稍微麻烦些，效率也会低一些。

　　参考http://www.rndblog.com/how-to-select-random-rows-in-mysql/

　　四、替换同义词主函数。

请看代码里的注释。

  
  public 
  string ReplaceArticle(
  string old, 
  int strength, 
  bool markRed, 
  ref 
  int replacedcount)
  
     {
  
  string newArticle = old ;
  
  int wordsAmount = 
  180482;
  //
  词库总量
  
  int kwcount = Convert.ToInt32(strength * 
  1.0 / 
  100 * wordsAmount);  
  //
  根据传入的百分比，计算需要取多少个词
  
  var dataset = SQLHelper.ExecuteDataset(SQLHelper.connectionString, System.Data.CommandType.Text, 
  "
  select * from words order by rand() limit 
  " + kwcount);
  //
  随机取kwcount组词
  
  foreach (DataRow r 
  in dataset.Tables[
  0].Rows)
  
         {
  
  //
  随机。对于词典中A->B的词组。随机决定本次替换是Replace(A,B)还是Replace(B,A)
  
  int i = 
  new Random().Next(
  0, 
  1);
  
             newArticle = newArticle.Replace(r[i].ToString()
  
                   , 
  string.Format(
  "
  <b>{0}</b>
  ", r[
  1 - i].ToString()));
  
         }
  
  //
  数被替换的词。
  
        replacedcount = newArticle.Split(
  new 
  string[] { 
  "
  </b>
  " }, StringSplitOptions.None).Length - 
  1;
  
  if (!markRed)
  
         {
  
  //
  如果用户不要求标记，则去掉<b>标记。
  
            newArticle = newArticle.Replace(
  "
  <b>
  ", 
  string.Empty).Replace(
  "
  </b>
  ", 
  string.Empty);
  
         }
  
  return newArticle;
  
     }

最终程序界面

最后

　　如前文所说，中文伪原创几乎是一片空白。希望本文能够启到抛砖引玉的作用，更希望有兴趣的同学能够与我一起继续不断的完善、改进它。

本文转自流牛木马博客园博客，原文链接：http://www.cnblogs.com/azure/archive/2012/08/29/bolewei.html，如需转载请自行联系原作者

微信关注我们

原文链接：https://yq.aliyun.com/articles/570665

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

这 8 份「Paper + Code」，你一定用得上 | PaperDaily #08

**[ 自然语言处理 ]**SLING: A framework for frame semantic parsing@paperweekly 推荐一个非常快的 semantic parsing 工具，工作来自 Google。论文链接http://www.paperweekly.site/papers/957代码链接https://github.com/google/sling Optimal Hyperparameters for Deep LSTM-Networks for Sequence Labeling Tasks@wangmuy 推荐通过超过 50000 次实验，综合评价序列标注任务（POS，Chunking，NER，Entities，Events）中的超参数作用。将比较有名的序列标注都实现了一遍，并大量实验求证超参数的作用。论文链接http://www.paperweekly.site/papers/962代码链接https://github.com/UKPLab/emnlp2017-bilstm-cnn-crf Bottom-Up and Top-Down Attent...

2017-10-29

750

在“AI+”时代，行业在技术驱动下高歌猛进，消费者行为也在随之变化，这一切正在重塑全球保险业，对站在转型十字路口的中国保险公司来说，亟待未雨绸缪，转变观念、厘清战略，在新格局下背水一战。在全球保险市场，中国保险市场一直遥遥领先。2016年我国保险行业保费收入高达3万亿元，高居世界第二。伴随国内经济发展和保险受众群体的日益扩大，社会各界对保险产品和服务质量、效率都有新的期待。然而，传统保险业在投保、理赔、运营各个核心环节仍分布着诸多痛点。在投保方面，实人、实证、保单三合一的实人认证非常繁琐，且容易在保单过程中产生纠纷。一份保险申请资料往往多达四十几页，平均耗时长达15小时，因此造成的损失也难以忽视：2016年仅平安集团退保金就超过4000亿，占其全年保费收入五分之一。某保险行业精算师向雷锋网透露，退保率高反映出公司在前期销售时客户是

2017-10-30

443

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。