字符串替换研究
一、背景
需求非常简单,给定一组关键词,需要将商品名称中出现过的关键字替换掉;
如:skuName="HUAWEI Pura 70 Pro 国家补贴500元 羽砂黑 12GB+512GB 超高速风驰闪拍 华为鸿蒙智能手机" 需要替换成
skuName="HUAWEI Pura 70 Pro 羽砂黑 12GB+512GB 超高速风驰闪拍 华为鸿蒙智能手机" 这里的关键字"国家补贴500元";
直接skuName.replace("国家补贴500元", ""),不就可以了吗?如果是一组,那就循环替换就完了嘛,再考虑到关键字前缀问题,对这一组关键词,按字符长度进行排序,先替换长的关键词,再替换短的就ok了;
如果这一组关键词非常多,上千个怎么办?真实场景也是这样的,一般需要替换的关键词都是比较多,并且使用String.replace上线后,直接CPU打满,基本不可用;
这个字段替换本质上与敏感词过滤是一样的原理,针对敏感词的深入研究,出现了 Aho-Corasick(AC自动机) 算法;
Aho-Corasick(AC自动机)是一种多模式字符串匹配算法,结合了Trie树的前缀匹配能力和KMP算法的失败跳转思想,能够在单次文本扫描中高效匹配多个模式串。其核心优势在于时间复杂度为O(n + m + z)(n为文本长度,m为模式串总长度,z为匹配次数),适用于敏感词过滤、基因序列分析等场景。
二、方案
针对这几种算法进行对比;
字符串替换,定义一个接口,通过4个不同的方案实现,进行性能对比
public interface Replacer { String replaceKeywords(String text); }
2.1 String.replace 方案
这种方案最简单,也是关键词少的时候,最有效,最好用的;
public class StrReplacer implements Replacer { private final List<String> keyWordList; public StrReplacer(String keyWords) { this.keyWordList = Lists.newArrayList(keyWords.split(";")); // 按关键字长度降序排序,确保长关键字优先匹配 keyWordList.sort((a, b) -> Integer.compare(b.length(), a.length())); } /** * 替换文本中所有匹配的关键字为空字符串 */ @Override public String replaceKeywords(String text) { String newTxt = text; for (String s : keyWordList) { newTxt = newTxt.replace(s, ""); } return newTxt; } }
2.2 使用正则替换
String.replace本质,还是使用正则进行替换的,通过代码实现使用编译好的正则进行替换性能会好于直接使用replace;
String.replace的实现
public String replace(CharSequence target, CharSequence replacement) { return Pattern.compile(target.toString(), Pattern.LITERAL).matcher( this).replaceAll(Matcher.quoteReplacement(replacement.toString())); }
使用正则替换的实现
public class PatternReplacer implements Replacer { // 预编译正则表达式模式 private final Pattern pattern; public PatternReplacer(String keyWords) { List<String> keywords = Lists.newArrayList(keyWords.split(";")); // 按关键字长度降序排序,确保长关键字优先匹配 keywords.sort((a, b) -> Integer.compare(b.length(), a.length())); // 转义每个关键字并用|连接 String regex = keywords.stream() .map(Pattern::quote) .collect(Collectors.joining("|")); this.pattern = Pattern.compile(regex); } // 替换方法 @Override public String replaceKeywords(String skuName) { return pattern.matcher(skuName).replaceAll(""); } }
2.3 使用Aho-Corasick(AC自动机) 算法实现
在java中已有现成的算法实现,源代码github-robert-bor/aho-corasick,
引入jar包
<dependency> <groupId>org.ahocorasick</groupId> <artifactId>ahocorasick</artifactId> <version>0.6.3</version> </dependency>
基于 Aho-Corasick 算法的字符串替换实现
public class AhoCorasickReplacer implements Replacer { private final Trie trie; public AhoCorasickReplacer(String keyWords) { // 构建Aho-Corasick自动机 Trie.TrieBuilder builder = Trie.builder().ignoreOverlaps().onlyWholeWords(); //trie.caseInsensitive(); //trie.onlyWholeWords(); for (String s : keyWords.split(";")) { builder.addKeyword(s); } this.trie = builder.build(); } /** * 替换文本中所有匹配的关键字为空字符串 */ @Override public String replaceKeywords(String text) { if (text == null || text.isEmpty()) { return text; } StringBuilder result = new StringBuilder(); Collection<Emit> emits = trie.parseText(text); // 获取所有匹配结果 int lastEnd = 0; for (Emit emit : emits) { int start = emit.getStart(); int end = emit.getEnd(); // 添加未匹配的前缀部分 if (start > lastEnd) { result.append(text, lastEnd, start); } // 跳过匹配的关键字(即替换为空) lastEnd = end + 1; // 注意:end是闭区间,需+1移动到下一个字符 } // 添加剩余未匹配的后缀部分 if (lastEnd <= text.length() - 1) { result.append(text.substring(lastEnd)); } return result.toString(); } }
2.4 自己实现Trie树算法实现
通过deepseek等人工智能,是非常容易自己实现一个Trie树,我们就只实现字符串替换的功能,其他的就不使用了;
Trie树,又叫字典树,前缀树(Prefix Tree),单词查找树,是一种多叉树的结构.
结构说明: 表示根节点(空节点)
每个节点表示一个字符
粉色节点表示单词结束标记(使用 CSS class 实现)
路径示例:
root → c → a → t 组成 "cat"
root → c → a → r 组成 "car"
root → d → o → g 组成 "dog"
public class TrieKeywordReplacer implements Replacer { private final Trie trie; @Override public String replaceKeywords(String text) { return trie.replaceKeywords(text, ""); } public TrieKeywordReplacer(String keyWords) { Trie trie = new Trie(); for (String s : keyWords.split(";")) { trie.insert(s); } this.trie = trie; } static class TrieNode { Map<Character,TrieNode> children; boolean isEndOfWord; public TrieNode() { children = new HashMap<>(); isEndOfWord = false; } } static class Trie { private TrieNode root; public Trie() { root = new TrieNode(); } private synchronized void insert(String word) { TrieNode node = root; for (char c : word.toCharArray()) { if (node.children.get(c) == null) { node.children.put(c, new TrieNode()); } node = node.children.get(c); } node.isEndOfWord = true; } public String replaceKeywords(String text, String replacement) { StringBuilder result = new StringBuilder(); int i = 0; while (i < text.length()) { TrieNode node = root; int j = i; TrieNode endNode = null; int endIndex = -1; while (j < text.length() && node.children.get(text.charAt(j)) != null) { node = node.children.get(text.charAt(j)); if (node.isEndOfWord) { endNode = node; endIndex = j; } j++; } if (endNode != null) { result.append(replacement); i = endIndex + 1; } else { result.append(text.charAt(i)); i++; } } return result.toString(); } } }
4个实现类对象的大小对比
类 | 对象大小 |
---|---|
StrReplacer | 12560 |
PatternReplacer | 21592 |
TrieKeywordReplacer | 184944 |
AhoCorasickReplacer | 253896 |
性能对比
说明:待替换一组关键词共 400个;JDK1.8
StrReplacer | PatternReplacer | TrieKeywordReplacer | AhoCorasickReplacer | |
单线程循环1w次,平均单次性能(ns) | 21843ns | 28846ns | 532ns | 727ns |
名称中只有1个待替换的关键词,2个并发线程,循环1w次,平均单次性能(ns),机器 CPU 30%左右 | 23444ns | 39984ns | 680ns | 1157ns |
名称中只有20待替换的关键词,2个并发线程,循环1w次,平均单次性能(ns),机器 CPU 30%左右 | 252738ns | 114740ns | 33900ns | 113764ns |
名称中只有无待替换的关键词,2个并发线程,循环1w次,平均单次性能(ns),机器 CPU 30%左右 | 22248ns | 9253ns | 397ns | 738ns |
通过性能对比,自己实现的Trie树的性能是最好的,因为只做了替换的逻辑,没有实现其他功能,其次是使用AhoCorasick算法,因为使用 AhoCorasick算法,实现字符串替换是最基本的功能,AhoCorasick算法,还能精准的匹配到在什么地方,出现过多少次等信息,功能非常强大;
通过对比编译好的正则性能确实是比使用原生String.replace;
public class ReplacerTest { @Test public void testTrieKeywordReplacer(){ //String name = skuName; //String expected = v2; //String name = "三星Samsung Galaxy S25+ 超拟人AI助理 骁龙8至尊版 AI拍照 翻译手机 游戏手机 12GB+256GB 冷川蓝"; //String expected = name; String name = keyWords; String expected = v1; int cnt = 2; Replacer replacer = new TrieKeywordReplacer(keyWords); check(replacer, name, expected); for (int i = 0; i < cnt; i++) { checkExec(replacer, name); } } @Test public void 替换所有关键字() throws InterruptedException { //String name = skuName; //String expected = v2; //String name = "三星Samsung Galaxy S25+ 超拟人AI助理 骁龙8至尊版 AI拍照 翻译手机 游戏手机 12GB+256GB 冷川蓝"; //String expected = name; String name = keyWords; String expected = v1; int cnt = 2; System.out.println("替换:" + name); Replacer replacer = new StrReplacer(keyWords); check(replacer, name, expected); for (int i = 0; i < cnt; i++) { checkExec(replacer, name); } replacer = new PatternReplacer(keyWords); check(replacer, name, expected); for (int i = 0; i < cnt; i++) { checkExec(replacer, name); } replacer = new TrieKeywordReplacer(keyWords); check(replacer, name, expected); for (int i = 0; i < cnt; i++) { checkExec(replacer, name); } replacer = new AhoCorasickReplacer(keyWords); check(replacer, name, expected); for (int i = 0; i < cnt; i++) { checkExec(replacer, name); } } @Test public void 无关键字替换() throws InterruptedException { //String name = skuName; //String expected = v2; String name = "三星Samsung Galaxy S25+ 超拟人AI助理 骁龙8至尊版 AI拍照 翻译手机 游戏手机 12GB+256GB 冷川蓝"; String expected = name; //String name = keyWords; //String expected = v1; int cnt = 1; System.out.println("替换:" + name); Replacer replacer = new StrReplacer(keyWords); check(replacer, name, expected); for (int i = 0; i < cnt; i++) { checkExec(replacer, name); } replacer = new PatternReplacer(keyWords); check(replacer, name, expected); for (int i = 0; i < cnt; i++) { checkExec(replacer, name); } replacer = new TrieKeywordReplacer(keyWords); check(replacer, name, expected); for (int i = 0; i < cnt; i++) { checkExec(replacer, name); } replacer = new AhoCorasickReplacer(keyWords); check(replacer, name, expected); for (int i = 0; i < cnt; i++) { checkExec(replacer, name); } } @Test public void 有1个关键字替换() throws InterruptedException { //String name = skuName; //String expected = v2; //String name = "三星Samsung Galaxy S25+ 超拟人AI助理 骁龙8至尊版 AI拍照 翻译手机 游戏手机 12GB+256GB 冷川蓝"; //String expected = name; //String name = keyWords; //String expected = v1; String name = "HUAWEI Pura 70 Pro 国家补贴500元 羽砂黑 12GB+512GB 超高速风驰闪拍 华为鸿蒙智能手机"; String expected = "HUAWEI Pura 70 Pro 500元 羽砂黑 12GB+512GB 超高速风驰闪拍 华为鸿蒙智能手机"; int cnt = 1; System.out.println("替换:" + name); Replacer replacer = new StrReplacer(keyWords); check(replacer, name, expected); for (int i = 0; i < cnt; i++) { checkExec(replacer, name); } replacer = new PatternReplacer(keyWords); check(replacer, name, expected); for (int i = 0; i < cnt; i++) { checkExec(replacer, name); } replacer = new TrieKeywordReplacer(keyWords); check(replacer, name, expected); for (int i = 0; i < cnt; i++) { checkExec(replacer, name); } replacer = new AhoCorasickReplacer(keyWords); check(replacer, name, expected); for (int i = 0; i < cnt; i++) { checkExec(replacer, name); } } static void check(Replacer replacer, String name, String expected) { System.out.println(replacer.getClass().getName()+",对象大小:"+ObjectSizeCalculator.getObjectSize(replacer)); String newTxt = replacer.replaceKeywords(name); //System.out.println(newTxt); Assert.assertEquals(replacer.getClass().getName() + ",对比不一致!", expected, newTxt); } void checkExec(Replacer replacer, String name) { String newTxt = replacer.replaceKeywords(name); int nThreads = 2; ExecutorService executorService = Executors.newFixedThreadPool(nThreads); CountDownLatch downLatch = new CountDownLatch(nThreads); int i = 0; while (i++ < nThreads) { executorService.submit(new Runnable() { @Override public void run() { int i = 0; long ns = System.nanoTime(); while (i++ < 100000) { replacer.replaceKeywords(name); } String name = replacer.getClass().getName(); downLatch.countDown(); System.out.println(StringUtils.substring(name, name.length() - 50, name.length()) + "\ti=" + i + ", \t耗时:" + (System.nanoTime() - ns) / i + "ns"); } }); } executorService.shutdown(); try { downLatch.await(); } catch (InterruptedException e) { e.printStackTrace(); } }
最后
1、使用现成的AhoCorasick算法进行实现,是性能与稳定性最优的选择,非常强调性能,还是可以自己实现Trie树来实现;
2、在真实的使用过程中,因为大部分的商品名称最多出现几个关键词,并且待替换的关键词往往都是比较多的,可以将这么关键词找出找出几个有代表性能的词,做前置判断,商品名称中是否存在;再进行全量替换;
如待替换的关键词有:政府补贴、国补、支持国补; 那么我们并不是直接就循环这个待替换的关键词组,而是找出这么关键词中都有的关键字”补”先判断商品名称中是否存在“补”字后,再做处理; 这里的前置判断,还可以使用布隆过滤器实现;
public String replaceKeywords (String skuName){ Replacer replacer = new AhoCorasickReplacer(keyWords); if(skuName.contains("补")){ return replacer.replaceKeywords(skuName); } else { return skuName; } }
参考
- [1] Aho-Corasick 算法 AC自动机实现
- [2] Trie字典树

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
待到山花烂漫时:鸿蒙开发者的个人感悟
序言:用代码浇灌春天,最终必将见证万紫千红的生态盛景。 她说:“我愿在这时代盛开,我花开后百花杀” 吉林银行作为吉林省经济发展的 “金融引擎”,在数字化转型浪潮中勇立潮头。其开发团队通过分布式架构重构、ArkUI-X 框架迁移及原子化服务开发等技术突破,历时21个自然日完成 HarmonyOS NEXT 核心功能版本适配。今天让我们采访一下吉林银行的鸿蒙开发者代表卢妍娆女士,一起听她讲讲应用适配HarmonyOSNEXT的故事。 自22年加入吉林银行以来,卢妍娆便先后投入到了新一代核心系统建设以及吉林银行手机银行6.0迭代建设。23年年末吉林银行对应用鸿蒙化表示明确认可,认为鸿蒙生态适配不仅仅是吉林银行构建数字金融护城河的战略突破口,更是实现技术自主可控的关键战役,如春潮涌动时抢占滩头的先锋。 “我们非常期待能在HarmonyOSNEXT这个种满花卉的生态里,迅速绽放并共同成长,掌握一定的话语权。” 在“打仗”之前,吉林银行研发团队完成了鸿蒙开发的学习,并于2024年2月与华为达成鸿蒙适配的合作意向。“华为为我们提供了技术上的答疑指导,帮助我们打通开发道路,让后面的开发更加便利。...
- 下一篇
【直播】基于昇腾的大模型创新应用和实践指南
随着大模型技术快速发展,其在自然语言处理、多模态交互等领域的应用逐渐深入产业场景。然而,开发者与企业落地大模型时仍面临算力需求高、推理效率不足、部署成本优化难等现实问题。昇腾AI基础软硬件平台通过异构计算架构、全场景AI框架等技术,为大模型开发与部署提供了高效支撑体系。 4月9日晚,开源中国OSCHINA 直播栏目【数智漫谈】将邀请具备一线开发经验的技术专家,聚焦昇腾平台与大模型结合的创新实践。 直播亮点: 昇腾+大模型落地的真实场景与创新案例解析 从算法压缩到硬件协同,解密企业级模型高效部署策略 企业级模型在昇腾平台的实战调优经验,平衡性能与成本 昇腾生态技术大牛+国企 AI 实战派互动答疑 微信扫码,预约直播 【数智漫谈】 OSCHINA 视频号直播畅聊栏目【数智漫谈】,每期一个技术话题,三五位专家围坐,各抒己见,畅聊开源。给大家带来最新的行业前沿、最热门的技术话题、最有趣的开源项目、最犀利的思想交锋。如果你手上也有新点子、好项目,想要跟同行交流分享,欢迎联系我们,讲坛随时开放~
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Hadoop3单机部署,实现最简伪集群
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS6,CentOS7官方镜像安装Oracle11G
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- MySQL8.0.19开启GTID主从同步CentOS8