utf8中文截断原理以及php的实现

php截断字符串用的是substr,但是这个是无法截断中文的,原因就是中文是采用多字节编码。这里说一下针对utf8编码的汉字截断原理。

UTF-8的编码规则是这样的

1)对于单字节的符号,字节的第一位(字节的最高位)设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。

2)对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的unicode码。

下表总结了编码规则,字母x表示可用编码的位。

UTF-8编码方式(十六进制) | 十进制|(二进制)
—————+———————————————————————
0000 0000-0000 007F |0 - 127      | 0xxxxxxx
0000 0080-0000 07FF |192 - 223  |110xxxxx 10xxxxxx
0000 0800-0000 FFFF |224 - 239  |1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF |240 - 247  |11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

更详细的可以去看看utf8编码原理

知道了编码规则,那也就可以针对utf8编码来写出截断函数了。

要用到的函数有

strlen()计算字符串长度

substr()单字节截断字符串

ord()获取字符的ascii码

我们要做的就是遍历字符串的字节数,根据ascii的值有针对性的截断,最后再拼出一个截断后的字符串

首先看看下面代码输出了什么

$str = "你好";
    $len = strlen($str);//计算字符串长度
    $i = 0;
    while( $i<$len ){
        echo $ascii = ord($str[$i]);//计算ascii值
        echo "\n";
    $i++;
}

结果是

228
189
160
229
165
189

可以看到,你好这两个字每一个字都是由多个字节构成的,至于是两个,三个,四个我们却不知道了,不过只要知道,这个文字的第一个ascii的范围,我们就知道这个汉字是由多少字节组成了。

你好,你字的第一位是228,可以看到是在第三个区间,因此你是三个字节编码,228 189 160 表示“你”,下面是229,同样在第三个区间,229 165 189表示“好”。

根据编码规则,我们很容易就能够写出字符串截断函数了

找到这个汉字的字节长度,然后截取对应的长度,整个汉字就被截取下来了,接着找下一个,就这样,一个utf8字符串截取的函数就完成了

下面写了一个

/**
  * utf8_substr 一个简单地中文截断函数
  *
  * @param  string $str    等待截断的utf8字符串
  * @param  int $start  起始位置
  * @param  int $sublen 截断长度
  * @return str         新的字符串
  */
 function utf8_substr($str,$start,$sublen){
     $len = strlen($str);
     $i = 0;
     $newstr = '';
     $strpos = 1;
     while( $i < $len ){
        $ascii = ord($str[$i]);
        $end = 1;

        if( $ascii >= 192 && $ascii <= 223 ){
            $end = 2;
        }
        if( $ascii >=224 && $ascii <=239 ){
            $end = 3;
        }
        if( $ascii >=240 && $ascii <= 247 ){
            $end = 4;
        }

        //从大于起始长度开始截取
        if( $strpos > $start ){
            $newstr .= substr($str, $i, $end);
        }

        $i += $end;
        $strpos += 1;

        //超出长度则跳出
       if( ($strpos-$start) > $sublen) break;

    }

    echo $newstr;

}

//用法
utf8_substr("你asdas",0,3);

//这个将会输出"你as"!

你可能还喜欢下面这些文章

utf8编码原理

在我的程序中,基本都使用utf8来编码(除非历史原因,实在是无法转换)。但我用的php在处理中文语言的时候,总显得有些生硬,总感觉没有处理英文那么流畅。比如为什么统计字符的数目要远大于汉字的个数?为什么截断中文乱码?为什么一串英文所组成的字符串可以使用数组的方式访问但是中文字符串为什么就是乱码?等等等等之类的问题。这一切的一切,都是因为对utf8编码不了解所导致的!虽然我们有mb_string这个扩展的对中文有很友好的支持,但对于编码原理,还是需要好好的了解一下。但对于初学者,我想你未必有耐心看完这篇文章,可以跳过直接看程序实例,这篇文章可以作为实例程序的参考作用。

mysql varchar类型探秘

mysql中varchar能够存储可变长度的字符串。过去我做的诸多业务中,一般存储短字符串的需求,都会使用varchar类型,并且定义长度为255,也就是varchar(255)。不过为了探究varchar这种类型到底是怎么存储的,它的最大长度能达到多少,我决定区翻一下mysql文档学习一下。varchar怎么存储经过一番了解,varchar最大能存储的长度为65535字节。存储字符串的时候,会将字符串的长度存在首部,接着才是内容。当varchar存储的字符个数小于或等于255的时候,首部需要一个字节来记录字符的个数。当内容大于255的字符的时候,首部需要2个自己来保存长度。varchar能存

MySQL时间字段类型的选择

建表的时候对时间的字段类型选择有些疑惑,于是找出高性能MySQL这本书来看看,书中已经给了我们很好的建议,因此记录下来。保存时间通常有这几种类型可以选择: datetime timestamp int date首先看看datetime,datetime这个类型可以保存从1001年到9999年的数据,内部是将日期和时间封装在YYYYMMDDHHMMSS的整数中,与时区无关,占用8个字节。timestamp,timestamp只能保存1970年到2038年,占用4个字节,和int所占用的字节是一样的。int,int占用的同样是4个字节,和timestamp一样,但是timestamp拥有一

C++字符串拼接

在C++中,字符串拼接可以使用多种方法,下面是一些常用的方法:使用 运算符C++中的 类型支持 运算符来进行字符串拼接。使用 成员函数 类提供了 成员函数,它可以用来拼接字符串。使用 运算符 也支持 运算符来进行字符串拼接。使用 C 风格的字符串拼接虽然不推荐使用C风格的字符串拼接(因为它可能会导致缓冲区溢出),但你还是可以在C++中这样做。在这种情况下,你需要确保目标缓冲区有足够的空间来存储拼接后的字符串。在这个例子中, 函数被用来拼接两个C风格的字符串。注意,在使用 之前,我们检查了 是否有足够的空间来存储拼接后的字符串,以防止缓冲区溢出。使用 对于更复杂的字符串拼接,特

C++实现python字符串的endswith方法

可以使用的或方法配合比较运算符来模拟方法的功能。下面是一个示例函数,它检查一个字符串是否以另一个字符串结束:在这个示例中,函数接受两个参数:和。函数首先检查的长度是否大于或等于的长度。如果不是,那么显然不能以结束,函数返回。否则,函数使用方法从的末尾提取与长度相同的子字符串,并将其与进行比较。如果它们相等,那么以结束,函数返回。否则,函数返回。请注意,这个函数是区分大小写的。如果你想要一个不区分大小写的版本,你可以在比较之前使用和函数将和转换为小写。在这个版本中,函数首先使用和函数将和转换为小写。然后,它调用函数来检查转换后的字符串是否以结束。

python教程(一):变量和数据类型

python的基本数据类型有整型,浮点型,字符串,布尔,列表,元组,字典,集合。它们占用内存和定义方式如下表:类型占用内存如何定义整型(int)动态长度>=24字节a = 1浮点型(float)动态长度>=24字节a = 1.0字符串(string)动态长度,>=37字节,增加一个字符加1字节a = 'str'布尔(boolean)24字节a = True列表(list)动态长度,>=72字节a = []元组(tupe)动态长度,>=56字节a = ()集合(set)动态长度,>=232字节a = set([])占用的内存通过sys.getsizeof()获

rapidjson从字符串解析json

在RapidJSON中,要从字符串解析JSON,你可以使用类的方法。下面是一个简单的例子,展示了如何使用RapidJSON从一个JSON字符串中解析数据:在这个例子中,我们首先定义了一个包含JSON数据的字符串。然后,我们创建了一个对象,并使用方法将JSON字符串解析到这个对象中。解析完成后,我们检查是否有解析错误。如果没有错误,我们就可以通过键(例如"name"、"age"、"city")来访问JSON对象中的各个成员,并使用、等方法来检查成员的类型,并使用、等方法来获取成员的值。最后,我们还展示了如何将解析后的对象转换回JSON字

redis的RDB文件存储结构分析

原文标题:15天玩转redis —— 第十一篇 让你彻底了解RDB存储结构这里我们来继续分析一下RDB文件存储结构,首先大家都知道RDB文件是在redis的“快照”的模式下才会产生,那么如果我们理解了RDB文件的结构,是不是让我们对“快照”模式能做到一个心中有数呢?一:RDB结构剖析首先呢,我们要对RDB文件有一个概念性的认识,比如下面画的图一样: 从图中,我们大概看到了RDB文件的一个简要的存储模式,但为了更好的方便对照,我准备save一个empty database,对比一下看看效果: 然后我们用winHex打开dump.rdb文件,看看它的16进制。好了,该打开的我都

python rsplit

在Python中, 是字符串(str)对象的一个方法,用于从字符串的末尾(右侧)开始分割字符串。这个方法与 方法相似,但方向相反。 方法接受一个分隔符(默认为所有空白字符)和一个最大分割次数作为参数,并返回分割后的子字符串列表。下面是 方法的基本语法::分隔符,用于指定如何分割字符串。如果不指定分隔符,则默认为所有的空白字符(包括空格、换行符 、制表符 等)。:可选参数,指定最大分割次数。如果指定了 ,则分割不会超过这个指定的次数,并且结果列表的长度最多为 。如果 参数被省略或者为 -1,则分割会进行到字符串的末尾。下面是一些使用 方法的例子:注意:如果 参数为空字符串 ,则 会

bash教程:一、变量,函数,控制流程

变量的定义和使用变量的定义bash变量定义很简单。如下:a="hello"左边是变量名,右边是变量值。bash是弱类型,因此不需要给a加上类型。注意,等号两边不能有空格 比如 a = "hello",这是错误的。变量使用变量使用需要在定义的变量名之前加上$,比如我们打印之前定义的aecho $a特殊变量后面再说,现在仅仅是最基础的,能够让自己写出一个完整的脚本就行。流程控制流程控制则是编写程序必备的过程,比如顺序,循环,条件,分支等等。在其他类C语言中有if...else,for,while,do...while,switch,那么在bash里面,这些应该怎么写呢。if...else结构a=0

赞赏

微信赞赏支付宝赞赏

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注