string 与 rune——UTF-8 编码与不可变性

摘要

Go 的 string 类型与大多数语言的字符串有一个本质区别：它是只读的字节序列，而非字符序列。这个设计让 Go 原生支持任意二进制数据（如 HTTP 请求体、文件内容），同时与 UTF-8 编码深度融合——Go 源码文件本身就是 UTF-8 编码的，字符串字面量存储 UTF-8 字节。rune（int32 的别名）代表 Unicode 码点，是 Go 处理”字符”的正确抽象。两者之间的转换并非免费：[]byte(s) 和 []rune(s) 都会产生内存分配和数据拷贝。本文深入 string 的内存结构（两字段 header）、UTF-8 的编码规则与为什么 Go 选择 UTF-8、string 与 []byte/[]rune 的转换开销、五种字符串拼接方式的性能对比（+、fmt.Sprintf、strings.Builder、bytes.Buffer、strings.Join），以及在国际化场景下正确处理中文、emoji 等多字节字符的方法。

第 1 章字符编码的历史：为什么 UTF-8 是正确的选择

1.1 ASCII 的时代：简单但局限

计算机最早由英语世界的工程师设计，早期字符编码 ASCII（American Standard Code for Information Interchange，1963 年）只有 128 个字符——包含 26 个英文字母（大小写）、10 个数字、常用标点符号和控制字符。ASCII 用 7 位二进制表示（0-127），在 8 位字节的计算机上，最高位通常为 0。

ASCII 对于英文文档已经足够，但面对世界上其他语言（中文有几万个汉字，仅常用字就有 3500 个），128 个字符远远不够。

1.2 字符编码的混战时代：Latin-1、GBK、Big5

各国和地区纷纷发展自己的扩展编码：

Latin-1（ISO 8859-1）：用 8 位（0-255）表示西欧字符，高位扩展了 ASCII；
GBK / GB2312：中国大陆的中文编码，用 2 字节表示汉字；
Big5：台湾地区的繁体中文编码，同样 2 字节；
Shift-JIS：日文编码；
EUC-KR：韩文编码……

这种编码碎片化带来了严重问题：同一个字节序列，用不同编码解释会得到完全不同的字符。同一封邮件，发件方用 GBK 编码，收件方用 Latin-1 解码，只能看到乱码。这就是”乱码”问题横行的根源。

1.3 Unicode 的统一：一个字符一个码点

1991 年，Unicode 联盟提出了统一字符集的目标：为世界上每一个字符分配一个唯一的编号（码点，Code Point），消灭编码碎片化。Unicode 码点用 U+XXXX 表示，例如：

U+0041：拉丁字母 A
U+4E2D：汉字”中”
U+1F600：😀（emoji，超出基本多文种平面）

Unicode 目前定义了超过 14 万个字符，覆盖世界上所有现存文字（和大量历史文字、符号、emoji）。

但 Unicode 只定义了”字符 → 码点”的映射，没有规定如何在内存/文件中存储这些码点——这由编码方案（UTF-8、UTF-16、UTF-32）决定。

1.4 UTF-8 为什么比 UTF-16/UTF-32 更好

UTF-32：每个码点固定用 4 字节存储。优点：随机访问简单（第 n 个字符在偏移 4*n 处）。缺点：全英文文本比 ASCII 大 4 倍，极度浪费空间，且与 ASCII 完全不兼容。

UTF-16：基本多文种平面（BMP，U+0000 到 U+FFFF）用 2 字节，扩展平面（emoji 等）用 4 字节的代理对（Surrogate Pair）。历史上 Java、JavaScript、Windows 均采用 UTF-16。问题：空字节（null byte）\x00 在 ASCII 字符的高字节中出现，破坏了大量 C 语言的字符串处理函数（C 字符串以 \x00 结尾）；变长编码使随机访问仍然是 O(n)；代理对机制极易出错（单个 emoji 跨越两个 UTF-16 单元）。

UTF-8（1992 年，由 Ken Thompson——Go 语言的设计者之一——参与设计）：变长编码，1-4 字节表示一个码点。关键设计：

码点范围	字节数	编码格式（二进制）
U+0000 - U+007F（ASCII 范围）	1 字节	`0xxxxxxx`
U+0080 - U+07FF	2 字节	`110xxxxx 10xxxxxx`
U+0800 - U+FFFF（含大多数汉字）	3 字节	`1110xxxx 10xxxxxx 10xxxxxx`
U+10000 - U+10FFFF（emoji 等）	4 字节	`11110xxx 10xxxxxx 10xxxxxx 10xxxxxx`

UTF-8 的天才设计在于：

向后兼容 ASCII：所有 ASCII 字符的 UTF-8 编码与其 ASCII 编码完全相同（高位为 0）；
无空字节问题：只有 ASCII \x00 会在 UTF-8 中产生 \x00 字节，与 C 字符串语义完全一致；
自同步：任何一个字节，通过其最高几位就能判断它是单字节字符、多字节字符的起始字节（11xxxxxx）还是延续字节（10xxxxxx），从任意位置都能向前/向后扫描找到字符边界；
二进制比较等于字典序比较：UTF-8 编码的字节序与 Unicode 码点的数值顺序一致，直接用 bytes.Compare 或 string 的 </> 比较就能得到正确的字典序（对 CJK 字符则需要额外的排序规则，但对 ASCII 文本天然正确）。

这就是为什么 Go 选择 UTF-8 作为 string 的标准编码：Ken Thompson 参与了 UTF-8 的设计，也参与了 Go 的设计，这不是巧合——Go 是第一个将 UTF-8 作为语言级别标准编码的主流编程语言。

第 2 章 string 的内存结构：只读字节序列

2.1 string header：两字段结构

Go 的 string 类型在内存中由两个字段组成（与 slice header 类似，但没有 cap 字段）：

// Go 运行时对 string 的内部表示（runtime/string.go）
type stringStruct struct {
    str unsafe.Pointer  // 8 字节：指向底层字节数组的指针
    len int             // 8 字节：字节数（不是字符数！）
}
// 共 16 字节

string 变量只有 16 字节大，赋值和传参复制的是这个 header（指针 + 长度），底层字节数组不被复制——这与 slice 的行为类似。

s1 := "Hello, 世界"
s2 := s1  // 只复制 header（16 字节），底层字节数组共享

string 与 []byte 的结构对比：

string header（16 bytes）:
+-------+-----+
|  ptr  | len |
+-------+-----+
  8 bytes  8 bytes

[]byte header（24 bytes）:
+-------+-----+-----+
|  ptr  | len | cap |
+-------+-----+-----+
  8 bytes  8 bytes  8 bytes

string 比 []byte 少了 cap 字段，因为 string 是不可变的——永远不需要 append，所以不需要 cap。

2.2 不可变性：设计决策与工程价值

string 是不可变的——一旦创建，字节内容不能修改：

s := "hello"
// s[0] = 'H'  // 编译错误：cannot assign to s[0] (strings are immutable)
 
// 只能读取，不能写入
fmt.Println(s[0])  // 104（'h' 的 ASCII 值）

为什么设计成不可变？

原因一：安全地共享。不可变性意味着多个 string 变量可以安全地共享同一块底层字节数组，不需要加锁，不需要担心一方修改影响另一方。这在并发程序中尤为重要：Goroutine 之间传递 string 是天然安全的，不需要任何同步机制。

原因二：可以放在只读内存段。字符串字面量（源码中的 "hello"）在编译后被放入二进制文件的只读数据段（.rodata），由操作系统的内存保护机制保证不可修改。尝试修改只读内存会导致段错误（SIGSEGV），而 Go 直接通过编译器禁止修改，更安全。

原因三：可以用作 map 的 key。Go map 的 key 必须是可比较的（Comparable）类型，而可变的 slice（[]byte）不能用作 key（因为 slice 的比较语义不明确——是比较 header 还是比较内容？）。不可变的 string 可以用作 map key，因为其内容不会改变，哈希值稳定。

2.3 len() 返回字节数，不是字符数

这是 Go 字符串处理中最常见的误解之一：

s := "Hello, 世界"
fmt.Println(len(s))    // 13，不是 9！
// 原因：
// "Hello, " = 7 个 ASCII 字符 × 1 字节 = 7 字节
// "世"       = U+4E16，UTF-8 编码 3 字节（0xE4 0xB8 0x96）
// "界"       = U+754C，UTF-8 编码 3 字节（0xE7 0x95 0x8C）
// 共 7 + 3 + 3 = 13 字节
 
// 如果需要字符数（rune 数），使用 utf8.RuneCountInString
import "unicode/utf8"
fmt.Println(utf8.RuneCountInString(s))  // 9
// 或者转为 []rune
fmt.Println(len([]rune(s)))  // 9（但有内存分配开销）

按字节下标访问：s[i] 返回的是第 i 个字节（byte/uint8），不是第 i 个字符：

s := "Hello, 世界"
fmt.Println(s[7])  // 228，即 0xE4，是"世"的第一个 UTF-8 字节
                   // 不是"世"这个字符本身
 
// 直接按字节下标截取也可能截断多字节字符
fmt.Println(s[7:10])  // "世"（恰好是 3 字节完整的"世"）
fmt.Println(s[7:9])   // 乱码（截断了"世"的第 3 字节）

第 3 章 rune：Unicode 码点的 Go 表示

3.1 rune 是什么

rune 是 int32 的别名（type rune = int32），用来表示一个 Unicode 码点。每个 Unicode 字符（包括中文汉字、emoji、控制字符）都有一个唯一的码点，rune 就是存储这个码点数值的类型：

var r rune = '世'   // r = 0x4E16 = 20054（"世"的 Unicode 码点）
var r2 rune = '😀' // r2 = 0x1F600 = 128512
 
fmt.Printf("%c %U %d\n", r, r, r)   // 世 U+4E16 20054
fmt.Printf("%c %U %d\n", r2, r2, r2) // 😀 U+1F600 128512

为什么用 int32 而不是 int16？ Unicode 目前定义的码点最大值是 U+10FFFF（1,114,111），超过了 int16 的范围（最大 65,535），需要 int32（最大 2,147,483,647）才能容纳。

byte 是 uint8 的别名：byte 代表原始字节（0-255），用于二进制数据处理；rune 代表 Unicode 字符（0-0x10FFFF）。两者的使用场景截然不同，这个命名上的区分让代码意图更清晰。

3.2 range 遍历 string：按 rune 还是按 byte？

Go 的 range 遍历 string 时，按 UTF-8 解码，逐 rune 遍历——每次迭代给出当前 rune 的字节偏移量（不是 rune 序号）和 rune 值：

s := "Hello, 世界"
 
// range 按 rune 遍历：i 是字节偏移，r 是 rune 值
for i, r := range s {
    fmt.Printf("byte offset %2d: %c (U+%04X)\n", i, r, r)
}
// 输出：
// byte offset  0: H (U+0048)
// byte offset  1: e (U+0065)
// byte offset  2: l (U+006C)
// byte offset  3: l (U+006C)
// byte offset  4: o (U+006F)
// byte offset  5: , (U+002C)
// byte offset  6:   (U+0020)
// byte offset  7: 世 (U+4E16)   ← 字节偏移 7（不是 index 7）
// byte offset 10: 界 (U+754C)   ← 字节偏移 10（跳过了 7,8,9 三个字节）

注意字节偏移从 7 跳到 10，因为”世”占 3 个字节（7、8、9），下一个字符”界”从字节 10 开始。

按字节遍历：用 for i := 0; i < len(s); i++ 或将 string 转换为 []byte：

// 按字节遍历（不解码 UTF-8）
for i := 0; i < len(s); i++ {
    fmt.Printf("byte %d: 0x%02X\n", i, s[i])
}
// 会打印出 13 行，包括"世""界"各 3 个字节的十六进制值

3.3 处理多字节字符的正确方式

对于需要按”字符”（rune）操作的场景，有两种路径：

路径一：转换为 []rune，按下标操作

s := "Hello, 世界"
runes := []rune(s)          // 转换：分配新内存，逐字节解码 UTF-8
fmt.Println(len(runes))     // 9（字符数）
fmt.Println(string(runes[7]))  // "世"（第 8 个字符，下标 7）
fmt.Println(string(runes[7:])) // "世界"

优点：下标操作直观（runes[i] 就是第 i 个字符）；缺点：每次转换都分配新内存，对大字符串有性能开销。

路径二：用 unicode/utf8 包直接操作 string

import "unicode/utf8"
 
s := "Hello, 世界"
 
// 统计字符数（不分配内存）
count := utf8.RuneCountInString(s)  // 9
 
// 解码第一个 rune
r, size := utf8.DecodeRuneInString(s)  // r = 'H', size = 1（字节数）
 
// 从后往前解码
r2, size2 := utf8.DecodeLastRuneInString(s)  // r2 = '界', size2 = 3
 
// 检查字节序列是否是合法 UTF-8
valid := utf8.ValidString(s)  // true

unicode/utf8 包的函数直接在 string 上操作，不需要转换，性能更好。

第 4 章 string 与 []byte 的转换开销

4.1 转换的代价

string 和 []byte 之间的转换，通常需要分配新内存并复制数据：

s := "hello"
b := []byte(s)  // 分配新的 []byte，复制 5 个字节
s2 := string(b) // 分配新的 string，复制 5 个字节

这是因为 string 是不可变的（底层字节不能修改），而 []byte 是可变的（可以修改字节）。如果允许 []byte 直接共享 string 的底层数组，那么修改 []byte 就会破坏 string 的不可变性。

编译器优化（零复制的场景）：Go 编译器会对部分转换场景进行优化，避免实际分配和复制：

string(b) 用于 map 查找：m[string(b)] 中，编译器知道 string(b) 只是临时用于查找，不会存储，因此直接在栈上构造临时 string header，不分配堆内存；
[]byte(s) 用于 for range 遍历：编译器可以识别这种模式并避免复制；
小字符串：对于极短的 []byte（如 1-32 字节），编译器可能将其栈分配，避免 GC 开销。

可以用 go build -gcflags="-m" 查看逃逸分析，判断转换是否产生堆分配。

4.2 unsafe 的零复制转换（高性能场景）

在性能极度敏感的场景（如每秒处理数百万次 string/[]byte 转换的网络框架），可以用 unsafe 包实现零复制转换，但必须极其谨慎：

// 警告：以下是高风险操作，仅用于理解底层机制
// 生产代码应优先使用 strings.Builder 等安全 API
 
import "unsafe"
 
// []byte → string 零复制（只读使用，绝不修改底层 []byte）
func bytesToString(b []byte) string {
    return *(*string)(unsafe.Pointer(&b))
    // 直接将 []byte header 的前两个字段（ptr, len）重新解释为 string header
    // 不分配内存，不复制数据
    // 危险：如果之后修改 b，会破坏 string 的不可变性！
}
 
// string → []byte 零复制（只读使用，绝不修改返回的 []byte）
func stringToBytes(s string) []byte {
    sp := (*[2]uintptr)(unsafe.Pointer(&s))
    bp := [3]uintptr{sp[0], sp[1], sp[1]}  // ptr, len, cap=len
    return *(*[]byte)(unsafe.Pointer(&bp))
}

生产避坑：unsafe 转换的使用原则

unsafe 的零复制转换只有在能 100% 保证转换后不修改底层数据时才安全。实际工程中，这种保证很难维护（代码演进、他人修改等）。更安全的做法是使用 strings.Builder 和 bytes.Buffer，它们的设计已经最大化减少不必要的内存分配。

第 5 章字符串拼接的五种方式与性能对比

字符串拼接是最常见的字符串操作，不同方式在性能上有数量级的差距。理解背后的原因，才能在正确的场景做出正确的选择。

5.1 方式一：`+` 运算符

s := "Hello" + ", " + "World" + "!"

机制：每次 + 都创建一个新的 string，将两个操作数复制到新分配的内存中。对于 n 次拼接，时间复杂度是 O(n²)（每次拼接都要复制前面所有内容）。

适用场景：字面量拼接（编译器可以在编译期计算，零运行时开销）；少量（2-3 次）拼接；代码可读性优先时。

不适用场景：循环中拼接，或拼接次数较多时。

// 反例：在循环中用 + 拼接 100 万次
result := ""
for i := 0; i < 1000000; i++ {
    result += strconv.Itoa(i)  // 每次都分配新内存，复制前面所有内容——O(n²)
}

5.2 方式二：`fmt.Sprintf`

s := fmt.Sprintf("Hello, %s! You are %d years old.", name, age)

机制：Sprintf 需要解析格式字符串、处理各种格式化动词（%s、%d、%v……），内部用 []byte buffer 构建结果，最后转为 string。

性能：比 + 更灵活，但有格式字符串解析的额外开销，比 strings.Builder 慢约 2-5 倍。

适用场景：需要格式化输出（混合类型、精确控制格式）时。

5.3 方式三：`strings.Builder`（推荐）

var sb strings.Builder
for i := 0; i < 1000000; i++ {
    sb.WriteString(strconv.Itoa(i))
    // 或：sb.WriteByte('x')
    // 或：fmt.Fprintf(&sb, "%d", i)
}
result := sb.String()  // 零拷贝（直接返回内部 []byte 转换的 string）

机制：内部维护一个 []byte 缓冲区，每次写入追加到缓冲区（类似 slice append）。缓冲区满时按指数增长扩容（类似 slice 扩容），而不是每次创建新 string。String() 方法直接用 unsafe 将内部 []byte 转为 string，避免一次复制。

时间复杂度：O(n)（摊还），因为扩容是指数级增长，总分配次数是 O(log n)。

适用场景：循环拼接、构建长字符串、高性能场景的首选。

预分配优化：如果预知最终大小，用 sb.Grow(n) 预分配，避免扩容：

var sb strings.Builder
sb.Grow(estimatedSize)  // 预分配，减少 realloc 次数
for _, part := range parts {
    sb.WriteString(part)
}

5.4 方式四：`bytes.Buffer`

var buf bytes.Buffer
buf.WriteString("Hello")
buf.WriteString(", ")
buf.WriteString("World")
result := buf.String()

机制：与 strings.Builder 类似，内部维护 []byte 缓冲区。但 bytes.Buffer 功能更丰富——支持 Read（实现了 io.Reader）、WriteTo、ReadFrom 等方法，可以直接作为 io.Reader/io.Writer 使用。

Buffer vs Builder 的选择：

纯字符串拼接：优先用 strings.Builder（API 更简洁，性能相当或略优）；
需要同时作为 io.Reader 使用（如构建 HTTP 请求 body）：用 bytes.Buffer。

5.5 方式五：`strings.Join`

parts := []string{"Hello", "World", "Go"}
result := strings.Join(parts, ", ")  // "Hello, World, Go"

机制：strings.Join 内部先计算所有 part 的总长度，一次性分配足够大的缓冲区，然后将所有部分复制进去——只有一次内存分配，性能最优。

适用场景：已有 []string，需要用固定分隔符拼接——这是最高效的方式。

性能对比总结：

方式	内存分配次数（n 次拼接）	时间复杂度	适用场景
`+` 运算符	O(n)	O(n²)	少量拼接、字面量
`fmt.Sprintf`	O(1)（每次调用）	O(n)（含格式解析）	格式化拼接
`strings.Builder`	O(log n)（摊还）	O(n)	循环拼接、构建长字符串
`bytes.Buffer`	O(log n)（摊还）	O(n)	需要 io.Reader 的场景
`strings.Join`	O(1)	O(n)	已有 `[]string` 的拼接

第 6 章国际化场景的字符串处理实践

6.1 正确截取含中文的字符串

s := "Hello, 世界！"
 
// 错误：按字节截取，可能截断多字节字符
fmt.Println(s[:10])  // 可能输出乱码（如果第 10 个字节在某个汉字的中间）
 
// 正确方式一：转为 []rune，按字符操作
runes := []rune(s)
fmt.Println(string(runes[:8]))  // "Hello, 世"（前 8 个字符）
 
// 正确方式二：用 utf8 包找到第 n 个字符的字节边界
func runeSubstring(s string, start, end int) string {
    byteStart := 0
    byteEnd := len(s)
    i := 0
    for j := range s {  // range 按 rune 遍历，j 是字节偏移
        if i == start {
            byteStart = j
        }
        if i == end {
            byteEnd = j
            break
        }
        i++
    }
    return s[byteStart:byteEnd]
}

6.2 strings 包的常用函数

import "strings"
 
s := "Hello, 世界！Hello!"
 
// 基本操作
strings.Contains(s, "世界")          // true
strings.HasPrefix(s, "Hello")        // true
strings.HasSuffix(s, "Hello!")       // true
strings.Count(s, "Hello")            // 2（子串出现次数，按字节匹配）
 
// 大小写（仅 ASCII）
strings.ToUpper("hello")             // "HELLO"
strings.ToLower("HELLO")             // "hello"
// 注意：ToUpper/ToLower 对 ASCII 有效，对某些 Unicode 字符（如 ß → SS）
// 需要用 golang.org/x/text/cases 包
 
// 分割与连接
parts := strings.Split("a,b,c", ",")  // ["a", "b", "c"]
strings.Join(parts, "-")               // "a-b-c"
 
// 替换
strings.Replace(s, "Hello", "Hi", 1)  // 替换第一个
strings.ReplaceAll(s, "Hello", "Hi")  // 替换所有
 
// 去除空白
strings.TrimSpace("  hello  ")       // "hello"
strings.Trim("***hello***", "*")     // "hello"（去除两端的指定字符）
 
// 字符串构建
strings.Repeat("ab", 3)              // "ababab"

6.3 正则表达式处理复杂模式

对于复杂的字符串匹配和提取，Go 的 regexp 包（基于 RE2 语法，线性时间保证，无回溯灾难）提供了完整支持：

import "regexp"
 
// 编译正则表达式（通常在包级别做一次，避免重复编译）
var emailRegexp = regexp.MustCompile(`^[a-zA-Z0-9._%+\-]+@[a-zA-Z0-9.\-]+\.[a-zA-Z]{2,}$`)
 
func isValidEmail(email string) bool {
    return emailRegexp.MatchString(email)
}
 
// 提取匹配的子组
var dateRegexp = regexp.MustCompile(`(\d{4})-(\d{2})-(\d{2})`)
matches := dateRegexp.FindStringSubmatch("今天是 2026-03-04，明天是 2026-03-05")
// matches[0] = "2026-03-04"（完整匹配）
// matches[1] = "2026"（第 1 个子组）
// matches[2] = "03"（第 2 个子组）
// matches[3] = "04"（第 3 个子组）

总结

本篇从字符编码的历史演进出发，系统梳理了 Go string 和 rune 的设计哲学与实现细节：

UTF-8 是正确的编码选择：向后兼容 ASCII、无空字节问题、自同步、二进制比较等于字典序——这些特性使 UTF-8 成为处理文本数据的最佳编码，也是 Go 将其内置为 string 标准编码的原因。

string 是只读字节序列，不是字符序列：len(s) 返回字节数；s[i] 访问第 i 个字节；range s 按 rune（字符）遍历。对于字符级操作（获取第 n 个字符、截取字符子串），需要转换为 []rune 或使用 unicode/utf8 包。

不可变性的工程价值：string 的不可变性使其可以安全地跨 Goroutine 共享（零同步开销）、可以作为 map key、可以放在只读内存段——这些特性是高并发程序中字符串高效使用的基础。

转换有代价：string ↔ []byte 通常需要分配内存和复制数据。高频转换场景应优先用 strings.Builder 避免大量中间 string 的创建，或在确保安全的前提下用 unsafe 实现零复制。

拼接方式的选择：strings.Join 对已有 []string 最优；strings.Builder 对循环拼接最优；+ 仅适合少量拼接和字面量；fmt.Sprintf 适合格式化场景。

下一篇深入 Go 函数、闭包与 defer 的实现机制：07 函数、闭包与 defer 的实现。

参考资料

Rob Pike & Ken Thompson,《Hello, World or Καλημέρα κόσμε or こんにちは世界》（UTF-8 的设计文章）

Go Blog,《Strings, bytes, runes and characters in Go》: https://go.dev/blog/strings

Go 语言规范：String types 章节

unicode/utf8 包文档

思考题

Go 的 string 底层是一个 {pointer, len} 结构，指向一段只读的 UTF-8 字节序列。s[i] 返回的是第 i 个字节（byte），而不是第 i 个字符（rune）。对于包含中文的字符串 s := "你好世界"，len(s) 的值是多少？如何正确地获取’字符数’？utf8.RuneCountInString 的时间复杂度是 O(1) 还是 O(n)？为什么？

字符串拼接 s = s + "suffix" 在循环中会导致大量内存分配（每次拼接都创建新的字符串）。strings.Builder 通过内部维护一个 []byte 来减少分配。但 strings.Builder 有一个约束：调用 String() 后不能再继续写入。这个约束的原因是什么？String() 方法内部做了什么优化来避免最后一次拷贝？

[]byte 和 string 之间的转换 string(b) 和 []byte(s) 在语义上都涉及内存拷贝。但 Go 编译器在某些场景下会优化掉这个拷贝（如 map[string(b)] 查找）。你知道哪些不拷贝的优化场景？在高性能场景下，使用 unsafe.String 或 unsafe.SliceData 进行零拷贝转换有什么风险？

汀的知识碎片

文章导航

06 string 与 rune——UTF-8 编码与不可变性

string 与 rune——UTF-8 编码与不可变性

摘要

第 1 章字符编码的历史：为什么 UTF-8 是正确的选择

1.1 ASCII 的时代：简单但局限

1.2 字符编码的混战时代：Latin-1、GBK、Big5

1.3 Unicode 的统一：一个字符一个码点

1.4 UTF-8 为什么比 UTF-16/UTF-32 更好

第 2 章 string 的内存结构：只读字节序列

2.1 string header：两字段结构

2.2 不可变性：设计决策与工程价值

2.3 len() 返回字节数，不是字符数

第 3 章 rune：Unicode 码点的 Go 表示

3.1 rune 是什么

3.2 range 遍历 string：按 rune 还是按 byte？

3.3 处理多字节字符的正确方式

第 4 章 string 与 []byte 的转换开销

4.1 转换的代价

4.2 unsafe 的零复制转换（高性能场景）

第 5 章字符串拼接的五种方式与性能对比

5.1 方式一：`+` 运算符

5.2 方式二：`fmt.Sprintf`

5.3 方式三：`strings.Builder`（推荐）

5.4 方式四：`bytes.Buffer`

5.5 方式五：`strings.Join`

第 6 章国际化场景的字符串处理实践

6.1 正确截取含中文的字符串

6.2 strings 包的常用函数

6.3 正则表达式处理复杂模式

总结

On this page

Backlinks

汀的知识碎片

文章导航

06 string 与 rune——UTF-8 编码与不可变性

string 与 rune——UTF-8 编码与不可变性

摘要

第 1 章 字符编码的历史：为什么 UTF-8 是正确的选择

1.1 ASCII 的时代：简单但局限

1.2 字符编码的混战时代：Latin-1、GBK、Big5

1.3 Unicode 的统一：一个字符一个码点

1.4 UTF-8 为什么比 UTF-16/UTF-32 更好

第 2 章 string 的内存结构：只读字节序列

2.1 string header：两字段结构

2.2 不可变性：设计决策与工程价值

2.3 len() 返回字节数，不是字符数

第 3 章 rune：Unicode 码点的 Go 表示

3.1 rune 是什么

3.2 range 遍历 string：按 rune 还是按 byte？

3.3 处理多字节字符的正确方式

第 4 章 string 与 []byte 的转换开销

4.1 转换的代价

4.2 unsafe 的零复制转换（高性能场景）

第 5 章 字符串拼接的五种方式与性能对比

5.1 方式一：+ 运算符

5.2 方式二：fmt.Sprintf

5.3 方式三：strings.Builder（推荐）

5.4 方式四：bytes.Buffer

5.5 方式五：strings.Join

第 6 章 国际化场景的字符串处理实践

6.1 正确截取含中文的字符串

6.2 strings 包的常用函数

6.3 正则表达式处理复杂模式

总结

On this page

Backlinks

第 1 章字符编码的历史：为什么 UTF-8 是正确的选择

第 5 章字符串拼接的五种方式与性能对比

5.1 方式一：`+` 运算符

5.2 方式二：`fmt.Sprintf`

5.3 方式三：`strings.Builder`（推荐）

5.4 方式四：`bytes.Buffer`

5.5 方式五：`strings.Join`

第 6 章国际化场景的字符串处理实践