C++ 过滤出字符串的中文（GBK，UTF-8）-低调大师

C++ 过滤出字符串的中文（GBK，UTF-8）

2019-07-27 695

C++ 过滤出字符串的中文（GBK，UTF-8）
最近在处理游戏敏感词之类的东西，为了加强屏蔽处理，所以需要过滤掉字符串中的除汉字之外的是其他东西如数字，符号，英文字母等。

首先我查阅资料并写了个函数：

示例：返回输入字符串中汉字的个数：

复制代码
std::string StrWithOutSymbol(const std::string &source)
{

string sourceWithOutSymbol;

int i = 0;
while (source[i] != 0)
{
    if (source[i] & 0x80 )
    {
        sourceWithOutSymbol += source[i];
        sourceWithOutSymbol += source[i + 1];
        i += 2;
    else
    {
        i ++;
    }
}
return

　　sourceWithOutSymbol;
}
复制代码
这个函数的原理是ord($str)&0x80来判断汉字
80对应的二进制代码为1000 0000,最高位为一,代表汉字汉字编码格式通称为10格式一个汉字占2字节,但只代表一个字符

"Windows中，中文简体字符集的编码是同时用1个字节和2个字节来表示的。当高位是0x00～0x7f时，为一个字节，高位为0x80以上时用2个字节表示"

当你发现一个字节的内容大于0x7f,那它肯定是个(跟另外一个字节拼凑成一个)汉字,如何判断肯定大于0x7f呢?
0x7f(1111111)后面一个数就是0x80(10000000),所以想要大于0x7f，这个字节的最高位都肯定是1,我们只需要判断这个最高位是否为1就行了。

判断方法:
位与(相同的位都是1的才为1，否则为0):
如:要判断一个数的第三位是否是1，只要跟4(100)位与,判断一个数的第2位是否为1就跟2(10)位与.
同理判断第八位是否为1只要跟(10000000)也就是0x80位与了.

这里为什么不用>0x7f？php可能还行，但在其他强类型语言里面，1个字节的最高位用来标示负数，一个负数肯定不可能大于0x7f(最大的整数)

再举个例子:
a的assic码是97(1100001)
A的assic码是65(1000001)

b的assic码是98(1100010)
B的assic码是66(1000010)

发现一个规律:一个a-z的字母,只要是小写字母，第六位肯定是1，我们可以用这个来判断大小写:
这时候只要跟用以个字母跟0x20(100000)来位与判断:
if(ord($a)&0x20){

    //大写

}

如何把所有字母改成大写?第六位的1改成0就行了:
$a='a';
$a = chr(ord($a)&(~0x20));
echo $a;

然后我信心满满的吧这个函数加入到项目中去，点击运行，输入中文进行检查，当！项目报错了？？？？数组越界？？？？

这是为什么，我又定位到报错的地方，发现我使用的cocos-lua，在向c++传递字符串的时候传进来的字符串是以UTF-8来进行编码的，我又去找UIF-8的编码规则发现

UTF-8编码规则：如果只有一个字节则其最高二进制位为0；如果是多字节，其第一个字节从最高位开始，连续的二进制位值为1的个数决定了其编码的字节数，其余各字节均以10开头。UTF-8转换表表示如下：

而我之前的是按照GBK编码进行操作的，GBK每个中文字符只占两个字节，而utf-8的话中文可能占3个字节，四个字节，甚至是五个六个，所以用刚才那样的函数就会有越界的情况发生，所以对用UTF-8进行编码的字符串，就需要进行另外的处理，所以我写了一个新函数：

对UTF-8编码的字符串进行中文筛选的函数：

复制代码
std::string censorStrWithOutSymbol(const std::string &source)
{

string sourceWithOutSymbol;

int i = 0;
while (source[i] != 0)
{
    if (source[i] & 0x80 && source[i] & 0x40 && source[i] & 0x20)
    {
        int byteCount = 0;
        if (source[i] & 0x10)
        {
            byteCount = 4;
        }
        else
        {
            byteCount = 3;
        }
        for (int a = 0; a < byteCount; a++)
        {
            sourceWithOutSymbol += source[i];
            i++;
        }
    }
    else if (source[i] & 0x80 && source[i] & 0x40)
    {
        i += 2;
    }
    else
    {
        i += 1;
    }
}
return sourceWithOutSymbol;

}
复制代码
点击运行，成功了！舒服。
原文地址https://www.cnblogs.com/kpxy/p/11256791.html

微信关注我们

原文链接：https://yq.aliyun.com/articles/711429

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Java集合 HashSet的原理及常用方法

Java集合 HashSet的原理及常用方法目录一. HashSet概述二. HashSet构造三. add方法四. remove方法五. 遍历六. 合计合计先看一下LinkedHashSet在看一下TreeSet七. 总结一. HashSet概述HashSet是Java集合Set的一个实现类，Set是一个接口，其实现类除HashSet之外，还有TreeSet，并继承了Collection，HashSet集合很常用，同时也是程序员面试时经常会被问到的知识点，下面是结构图 public class HashSet extends AbstractSet<E> implements Set<E>, Cloneable, java.io.Serializable {}二. HashSet构造HashSet有几个重载的构造方法，我们来看一下 private transient HashMap map;//默认构造器public HashSet() { map = new HashMap<>(); }//将传入的集合添加到HashSet的构造器public ...

2019-07-27

614

java并发笔记之java线程模型java当中的线程和操作系统的线程是什么关系？猜想： java thread —-对应-—> OS thread Linux关于操作系统的线程控制源码：pthread_create()Linux命令：man pthread_create int pthread_create(pthread_t thread, const pthread_attr_t attr, void (start_routine) (void ), void arg); 根据man配置的信息可以得出pthread_create会创建一个线程，这个函数是linux系统的函数，可以用C或者C++直接调用，上面信息也告诉程序员这个函数在pthread.h，这个函数有四个参数: 然后我们来在linux上启动一个线程的代码：创建一个后缀名.c的文件：复制代码//引入头文件 include include //定义一个变量，接受创建线程后的线程idpthread_t pid;//定义子线程的主体函数void thread_entity(void arg){ while (1) {...

2019-07-27

896

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。