【lisp】源码:汉字-->拼音

源码位置: https://tool.zml84.xyz/lisp/view/?uuid=ccf2c793-ec3d-477c-a825-797850918d16

该代码实现了一个功能：将包含中文字符的字符串转换为对应的拼音（小写），并提供了一个命令行交互测试命令。

整体功能概述

「输入」：任意字符串（可包含中文、英文、数字、符号）
「输出」：对应的拼音字符串（英文小写字母；非汉字字符尽量保留原样；未覆盖的汉字替换为 ?）
「原理」：利用 GBK 编码的内码（16 位）区间与拼音的映射表，通过二分查找快速定位每个汉字的拼音。

代码详解

1. 拼音映射字典（全局变量 `pinyin-dict`）

(or *pinyin-dict*    (setq *pinyin-dict*  '(        (-20319-20318"a") (-20317-20305"ai") ...    )))

「作用」：定义一个全局字典，保存 GBK 内码区间到拼音的对应关系。
「结构」：字典是一个列表，每个元素是一个三元组：(起始内码结束内码 "拼音")。例如：(-20319 -20318 "a") 表示内码在 [-20319, -20318] 范围内的汉字都读作 “a”。
「内码含义」：这里的内码是「有符号 16 位整数」（范围 -32768 ~ 32767），对应 GBK 编码的汉字内码（无符号范围 0x8140 ~ 0xFEFE）。为了便于比较，这里使用了有符号数表示。
「or 技巧」：如果变量 *pinyin-dict* 已经存在（比如之前加载过），则不重复赋值，避免重复初始化。

2. 二分查找拼音 `get-pinyin-by-code`

(defun get-pinyin-by-code (code / low high mid range result)    (setq low 0)    (setq high (1- (length *pinyin-dict*)))    (setq result nil)    (while (and (<= low high) (null result))        (setq mid (/ (+ low high) 2))        (setq range (nth mid *pinyin-dict*))        (cond            ((< code (car range)) (setq high (1- mid)))            ((> code (cadr range)) (setq low (1+ mid)))            (T (setq result (caddr range))) ; 找到，记录结果        )    )    result)

「功能」：给定一个汉字的「有符号内码」code，在有序的拼音字典中返回对应的拼音字符串。
「算法」：标准二分查找。

low, high 为查找区间的上下标。
每次取中间节点 range，比较 code 与区间的 car（区间起始）和 cadr（区间结束）。
如果 code 小于起始值，则向左半区搜索；若大于结束值，则向右半区搜索；否则落在区间内，取 caddr（拼音字符串）作为结果。

「前提条件」：字典列表已按起始内码升序排列（实际上给定的数据已排序）。

3. 字节列表转 GBK 内码 `bytes->gbk-code`

(defun bytes->gbk-code (byteList / code)    (if (= (length byteList) 1)        (car byteList)        (+ (* (car byteList) 256)           (cadr byteList)        )    ))

「输入」：byteList——由 vl-string->list 返回的字节列表（每个元素 0~255）。
「输出」：GBK 内码（16 位无符号整数）。
「逻辑」：

若列表长度为 1（即 ASCII 字符），直接返回该字节值。
若长度为 2（汉字 GBK 编码占两个字节），则按大端序拼接：高字节 * 256 + 低字节。

「注」：GBK 中英文字符用单字节（与 ASCII 兼容），汉字用双字节。

4. 无符号内码转有符号 `to-signed`

(defun to-signed (code)    (if (and (numberp code) (> code 32767))        (- code 65536)        code    ))

「功能」：将 0~65535 的无符号整数转换为 -32768~32767 的有符号整数。
「原理」：若 code > 32767，说明其最高位为 1（对应有符号负数），减去 65536 即得其补码表示。
「为什么需要转换」：拼音字典中存储的内码区间是有符号形式，便于直接比较。

5. 字符串拆分为单字 `str->list`

(defun str->list (str / i len result char)  (setq i 1        len (strlen str)        result '()  )  (while (<= i len)    (setq char (substr str i 1))    (if (> (ascii char) 127)      (progn        (setq char (substr str i 2))        (setq i (+ i 2))      )      (setq i (1+ i))    )    (setq result (cons char result))  )  (reverse result))

「目的」：兼容旧版 AutoCAD 的字符串处理函数（substr 按字节索引），将字符串正确拆分为单个字符（包括中文字符）。
「算法」：

若 >127，说明是汉字的第一字节，则再取一个字节（substr str i 2）组成一个完整汉字，然后 i 增加 2。
否则为单字节字符，直接取一个字节，i 增加 1。

strlen 返回字符串的字节长度（中文字符占 2 字节，ASCII 占 1 字节）。
遍历每个字节：取当前字节 substr str i 1，检测其 ASCII 码是否大于 127。
将每个得到的字符依次存入列表（逆序），最后反转得到正确顺序。

「输出」：字符串列表，如 ("测" "试" "5" "中" "国")。

6. 主转换函数 `getpy`

(defun getpy (string / bytes code result pinyin char)    (setq result "")    (foreach str (str->list string)        (setq bytes (vl-string->list str))        (setq code (bytes->gbk-code bytes))        (cond            ((and (>= code 65) (<= code 90))      ; A-Z             (setq result (strcat result (chr (+ code 32))))            )            ((and (>= code 97) (<= code 122))     ; a-z             (setq result (strcat result (chr code)))            )            ((<= code 255)                         ; 其他可打印 ASCII 符号             (setq result (strcat result (chr code)))            )            (T; 汉字             (if (setq pinyin (get-pinyin-by-code (to-signed code)))                 (setq result (strcat result pinyin))                 (setq result (strcat result "?"))             )            )        )    )    result)

「逐字处理流程」：

获取其字节列表 (vl-string->list str)。
计算其 GBK 内码 (bytes->gbk-code bytes)。
根据内码值分类处理：

「大写字母 (65~90)」：转为小写字母（结果统一小写）。
「小写字母 (97~122)」：直接保留。
「其他 ASCII 字符 (码 ≤255)」：直接作为字符拼接到结果（例如数字、标点）。
「汉字（内码 >255）」：先转为有符号数，再查字典。若查到拼音则添加，否则添加 ?。

将输入字符串拆成单字列表 (str->list string)。
对每个单字 str：
将所有结果拼接成字符串返回。

「注意」：英文大小写统一转成小写，符合日常拼音使用习惯。

7. 测试命令 `C:PY`

(defun C:PY (/ str)    (setq str (getstring T "\n请输入中文字符串: "))    (if (and str (/= str ""))        (princ (strcat"\n拼音结果: " (getpy str)))        (princ"\n未输入字符串")    )    (princ))

「定义 AutoCAD 命令 PY」：在命令行输入 PY 后回车，提示用户输入中文字符串，然后输出转换后的拼音。
getstring T 允许输入包含空格的字符串（T 表示允许空格）。

8. 加载提示（被注释）

;;;(progn;;;    (princ "\n拼音转换模块加载成功！");;;    ...;;;)

这部分代码被注释掉了，如果取消注释，则在加载时会输出成功信息和使用方法。

关键点总结

「GBK 编码处理」：利用 GBK 汉字内码的连续区间映射到拼音，基于二分查找实现快速检索。
「有符号/无符号转换」：AutoLISP 中整数是有符号的，而 vl-string->list 返回 0~255，需要转换为有符号才能与字典中的负数比较。
「字符拆分」：由于旧版 AutoCAD 的字符串函数按字节操作，必须手动识别双字节字符。
「兼容性」：同时处理 ASCII 和汉字，保留非汉字字符的基本面貌。
「效率」：拼音字典约 400 多个区间，二分查找最多 9 次比较，速度很快。

使用示例

在 CAD 中加载此 LISP 文件后：

命令: PY请输入中文字符串: 中国你好123拼音结果: zhong guo ni hao 123

或直接调用函数：

(getpy"测试ABC")   → "ce shi abc"

潜在局限

拼音字典仅覆盖 GBK 一级/二级汉字，生僻字可能返回 ?。
未处理多音字（每个汉字只对应一个固定拼音）。
标点符号等非汉字字符原样输出，某些符号（如 $、@）会被保留。

尽管如此，该代码对于常规的中文转拼音需求已经足够实用。

源码位置: https://tool.zml84.xyz/lisp/view/?uuid=ccf2c793-ec3d-477c-a825-797850918d16

整体功能概述

代码详解

1. 拼音映射字典（全局变量 *pinyin-dict*）

2. 二分查找拼音 get-pinyin-by-code

3. 字节列表转 GBK 内码 bytes->gbk-code

4. 无符号内码转有符号 to-signed

5. 字符串拆分为单字 str->list

6. 主转换函数 getpy

7. 测试命令 C:PY