PHP UTF8中文字符截断函数代码


在PHP中,处理UTF-8编码的中文字符截断时,需要特别注意编码的完整性,以避免出现乱码。以下是一个简单的UTF-8中文字符截断函数的示例代码:


function utf8_substr($str, $start, $length = null) {
    if (function_exists('mb_substr')) {
        // 如果PHP环境支持mb_substr函数,则直接使用
        return mb_substr($str, $start, $length, 'UTF-8');
    }

    $str = preg_replace("/[\x00-\x7F]/", ".", $str); // 将ASCII字符替换为点,以便计算长度
    $str = preg_replace("/[\x80-\xBF]./s", ".", $str); // 将UTF-8编码的字符(除了第一个字节)替换为点
    $strcut = '';

    if (strlen($str) > $start) {
        $strcut = substr($str, $start, $length);
        // 移除替换的点
        $strcut = preg_replace("/\.{2,}/s", "", $strcut);

        // 还原被替换的UTF-8字符
        $strlen = strlen($strcut);
        $revert = '';
        for ($i = 0; $i < $strlen; $i++) {
            if ($strcut[$i] == '.') {
                $revert .= substr($str, $start + $i, 2);
                $i++;
            } else {
                $revert .= $strcut[$i];
            }
        }

        return $revert;
    }

    return false;
}

// 使用示例
$text = "这是一段测试文本,用于测试UTF-8中文字符截断函数。";
echo utf8_substr($text, 0, 10); // 输出: 这是一段测试

**注意**:

- 这个函数首先尝试使用`mb_substr`函数,这是处理多字节字符(如UTF-8编码的中文字符)的最佳实践。如果PHP环境支持`mbstring`扩展,建议使用此方式。

- 如果不支持`mb_substr`,则函数会尝试通过替换和重新组合字符串的方式来模拟截断功能,但这种方法在处理复杂文本时可能不够准确或高效。

- 在使用自定义的截断函数时,请确保测试各种边界情况,以确保函数的稳定性和准确性。