关于C 遍历中文字符串的问题
创始人
2025-07-14 03:51:11
0

今天来介绍一个C++中的基础问题:中文字符串的遍历问题。可就是这么的一个基础问题,也坑了我不少时间,真是应了那句话基础不牢,地动山摇。

小试牛刀

首先我们来一个demo,假如要使用std::string遍历"你好,世界123"这个字符串,你会怎么写?

当时笔者是这么想的:

于是大手一挥,Ctrl C + Ctrl V写下了一下代码:

using namespace std;
int main() {
    std::string text = "你好,世界123";
    for (const auto c:text) {
        std::cout << "c:" << c << std::endl;
    }
    return 0;
}

运行起来一看,我都懵逼了,居然是乱码...

一看到乱码,笔者首先想到的可能编码不是utf-8的,于是我改了一行代码:

 std::string text = u8"你好,世界123";

结果还是于事无补,还是乱码的,我开始有点慌了...

在这里说明一下当在C++中使用字符串字面值时,可以使用前缀u8来表示使用UTF-8编码。这意味着该字符串会以UTF-8编码的格式存储在内存中。

面对这些乱码,我不得不拿出CV工程师的杀手锏,赶紧上stackoverflow求助...

不负众望,果然被我找到了答案。。。

马上复制粘贴来验证一波...

using namespace std;
int main() {
    std::string text = u8"你好,世界123";
    for(size_t i = 0; i < text.length();)
    {
        int cplen = 1;
        if((text[i] & 0xf8) == 0xf0) cplen = 4;
        else if((text[i] & 0xf0) == 0xe0) cplen = 3;
        else if((text[i] & 0xe0) == 0xc0) cplen = 2;
        if((i + cplen) > text.length()) cplen = 1;
        cout << text.substr(i, cplen) << endl;
        i += cplen;
    }
    return 0;
}

运行起来,果然是想要的结果。666,凭实力攻克了一个技术难题,带领公司往前跨了一大步,这回升级加薪稳了吧!!!

寻根问底

本着举一反三的学习态度,我想知道为什么中文字符串的遍历要特殊处理,我找到了这个:https://en.wikipedia.org/wiki/UTF-8#Description

原来一个中文字符不一定是和英文一样占用一个字符,它们可能会占用几个字符,但它们的长度其实可以从字符的头中读取出来的。

我简单地用浏览器翻译了一下,大家将就这看一下大概意思

当然如果你不想自己写获取中文字符长度的逻辑代码,也可以用别人写好的开源库。这里给大家推荐一个轻量级的,只有一个utf8.h文件的开源库:https://github.com/sheredom/utf8.h

那么我们的代码就变成了这样:

int main() {
    std::string text = u8"你好,世界123";
    for (size_t i = 0; i < text.size();)
    {
        auto cplen = utf8codepointcalcsize(&text[i]);
        std::cout << text.substr(i, cplen) << std::endl;
        i += cplen;
    }
    return 0;
}

其实我们查看下utf8.h这个库的utf8codepointcalcsize函数内部实现,和我们上面说的是一样的。

这么一个简单的坑,以前怎么没发现这个问题?一个是没遇到过这样的需求,二是就算用到了也不是用C++实现的,例如在QT上直接使用QString就没有这些问题。

相关内容

热门资讯

PHP新手之PHP入门 PHP是一种易于学习和使用的服务器端脚本语言。只需要很少的编程知识你就能使用PHP建立一个真正交互的...
网络中立的未来 网络中立性是什... 《牛津词典》中对“网络中立”的解释是“电信运营商应秉持的一种原则,即不考虑来源地提供所有内容和应用的...
各种千兆交换机的数据接口类型详... 千兆交换机有很多值得学习的地方,这里我们主要介绍各种千兆交换机的数据接口类型,作为局域网的主要连接设...
什么是大数据安全 什么是大数据... 在《为什么需要大数据安全分析》一文中,我们已经阐述了一个重要观点,即:安全要素信息呈现出大数据的特征...
全面诠释网络负载均衡 负载均衡的出现大大缓解了服务器的压力,更是有效的利用了资源,提高了效率。那么我们现在来说一下网络负载...
粉嫩如何诠释霸道 东芝M805... “霸道粉”是个什么玩意东芝M805拿过来的时候,笔者扑哧笑了,不是笑这款笔记本,而是笑这款产品的颜色...
如何允许远程连接到MySQL数... [[277004]]【51CTO.com快译】默认情况下,MySQL服务器仅侦听来自localhos...
30分钟搞定iOS自定义相机 最近公司的项目中用到了相机,由于不用系统的相机,UI给的相机切图,必须自定义才可以。就花时间简单研究...
如何利用交换机和端口设置来管理... 在网络管理中,总是有些人让管理员头疼。下面我们就将介绍一下一个网管员利用交换机以及端口设置等来进行D...
P2P的自白|我不生产内容,我... 现在一提起P2P,人们就会联想到正在被有关部门“围剿”的互联网理财服务。×租宝事件使得劳...