源码位置: https://tool.zml84.xyz/lisp/view/?uuid=ccf2c793-ec3d-477c-a825-797850918d16
该代码实现了一个功能:将包含中文字符的字符串转换为对应的拼音(小写),并提供了一个命令行交互测试命令。

整体功能概述
「输入」:任意字符串(可包含中文、英文、数字、符号) 「输出」:对应的拼音字符串(英文小写字母;非汉字字符尽量保留原样;未覆盖的汉字替换为 ?)「原理」:利用 GBK 编码的内码(16 位)区间与拼音的映射表,通过二分查找快速定位每个汉字的拼音。
代码详解
1. 拼音映射字典(全局变量 *pinyin-dict*)
(or *pinyin-dict* (setq *pinyin-dict* '( (-20319-20318"a") (-20317-20305"ai") ... )))「作用」:定义一个全局字典,保存 GBK 内码区间到拼音的对应关系。 「结构」:字典是一个列表,每个元素是一个三元组: (起始内码 结束内码 "拼音")。例如:(-20319 -20318 "a")表示内码在[-20319, -20318]范围内的汉字都读作 “a”。「内码含义」:这里的内码是「有符号 16 位整数」(范围 -32768 ~ 32767),对应 GBK 编码的汉字内码(无符号范围 0x8140 ~ 0xFEFE)。为了便于比较,这里使用了有符号数表示。 「 or技巧」:如果变量*pinyin-dict*已经存在(比如之前加载过),则不重复赋值,避免重复初始化。
2. 二分查找拼音 get-pinyin-by-code
(defun get-pinyin-by-code (code / low high mid range result) (setq low 0) (setq high (1- (length *pinyin-dict*))) (setq result nil) (while (and (<= low high) (null result)) (setq mid (/ (+ low high) 2)) (setq range (nth mid *pinyin-dict*)) (cond ((< code (car range)) (setq high (1- mid))) ((> code (cadr range)) (setq low (1+ mid))) (T (setq result (caddr range))) ; 找到,记录结果 ) ) result)「功能」:给定一个汉字的「有符号内码」 code,在有序的拼音字典中返回对应的拼音字符串。「算法」:标准二分查找。 low,high为查找区间的上下标。每次取中间节点 range,比较code与区间的car(区间起始)和cadr(区间结束)。如果 code小于起始值,则向左半区搜索;若大于结束值,则向右半区搜索;否则落在区间内,取caddr(拼音字符串)作为结果。「前提条件」:字典列表已按起始内码升序排列(实际上给定的数据已排序)。
3. 字节列表转 GBK 内码 bytes->gbk-code
(defun bytes->gbk-code (byteList / code) (if (= (length byteList) 1) (car byteList) (+ (* (car byteList) 256) (cadr byteList) ) ))「输入」: byteList——由vl-string->list返回的字节列表(每个元素 0~255)。「输出」:GBK 内码(16 位无符号整数)。 「逻辑」: 若列表长度为 1(即 ASCII 字符),直接返回该字节值。 若长度为 2(汉字 GBK 编码占两个字节),则按大端序拼接: 高字节 * 256 + 低字节。「注」:GBK 中英文字符用单字节(与 ASCII 兼容),汉字用双字节。
4. 无符号内码转有符号 to-signed
(defun to-signed (code) (if (and (numberp code) (> code 32767)) (- code 65536) code ))「功能」:将 0~65535 的无符号整数转换为 -32768~32767 的有符号整数。 「原理」:若 code > 32767,说明其最高位为 1(对应有符号负数),减去 65536 即得其补码表示。「为什么需要转换」:拼音字典中存储的内码区间是有符号形式,便于直接比较。
5. 字符串拆分为单字 str->list
(defun str->list (str / i len result char) (setq i 1 len (strlen str) result '() ) (while (<= i len) (setq char (substr str i 1)) (if (> (ascii char) 127) (progn (setq char (substr str i 2)) (setq i (+ i 2)) ) (setq i (1+ i)) ) (setq result (cons char result)) ) (reverse result))「目的」:兼容旧版 AutoCAD 的字符串处理函数( substr按字节索引),将字符串正确拆分为单个字符(包括中文字符)。「算法」: 若 >127,说明是汉字的第一字节,则再取一个字节( substr str i 2)组成一个完整汉字,然后i增加 2。否则为单字节字符,直接取一个字节, i增加 1。strlen返回字符串的字节长度(中文字符占 2 字节,ASCII 占 1 字节)。遍历每个字节:取当前字节 substr str i 1,检测其 ASCII 码是否大于 127。将每个得到的字符依次存入列表(逆序),最后反转得到正确顺序。 「输出」:字符串列表,如 ("测" "试" "5" "中" "国")。
6. 主转换函数 getpy
(defun getpy (string / bytes code result pinyin char) (setq result "") (foreach str (str->list string) (setq bytes (vl-string->list str)) (setq code (bytes->gbk-code bytes)) (cond ((and (>= code 65) (<= code 90)) ; A-Z (setq result (strcat result (chr (+ code 32)))) ) ((and (>= code 97) (<= code 122)) ; a-z (setq result (strcat result (chr code))) ) ((<= code 255) ; 其他可打印 ASCII 符号 (setq result (strcat result (chr code))) ) (T; 汉字 (if (setq pinyin (get-pinyin-by-code (to-signed code))) (setq result (strcat result pinyin)) (setq result (strcat result "?")) ) ) ) ) result)「逐字处理流程」:
获取其字节列表 (vl-string->list str)。计算其 GBK 内码 (bytes->gbk-code bytes)。根据内码值分类处理: 「大写字母 (65~90)」:转为小写字母(结果统一小写)。 「小写字母 (97~122)」:直接保留。 「其他 ASCII 字符 (码 ≤255)」:直接作为字符拼接到结果(例如数字、标点)。 「汉字(内码 >255)」:先转为有符号数,再查字典。若查到拼音则添加,否则添加 ?。将输入字符串拆成单字列表 (str->list string)。对每个单字 str:将所有结果拼接成字符串返回。 「注意」:英文大小写统一转成小写,符合日常拼音使用习惯。
7. 测试命令 C:PY
(defun C:PY (/ str) (setq str (getstring T "\n请输入中文字符串: ")) (if (and str (/= str "")) (princ (strcat"\n拼音结果: " (getpy str))) (princ"\n未输入字符串") ) (princ))「定义 AutoCAD 命令 PY」:在命令行输入PY后回车,提示用户输入中文字符串,然后输出转换后的拼音。getstring T允许输入包含空格的字符串(T表示允许空格)。
8. 加载提示(被注释)
;;;(progn;;; (princ "\n拼音转换模块加载成功!");;; ...;;;)这部分代码被注释掉了,如果取消注释,则在加载时会输出成功信息和使用方法。
关键点总结
「GBK 编码处理」:利用 GBK 汉字内码的连续区间映射到拼音,基于二分查找实现快速检索。 「有符号/无符号转换」:AutoLISP 中整数是有符号的,而 vl-string->list返回 0~255,需要转换为有符号才能与字典中的负数比较。「字符拆分」:由于旧版 AutoCAD 的字符串函数按字节操作,必须手动识别双字节字符。 「兼容性」:同时处理 ASCII 和汉字,保留非汉字字符的基本面貌。 「效率」:拼音字典约 400 多个区间,二分查找最多 9 次比较,速度很快。
使用示例
在 CAD 中加载此 LISP 文件后:
命令: PY请输入中文字符串: 中国你好123拼音结果: zhong guo ni hao 123或直接调用函数:
(getpy"测试ABC") → "ce shi abc"潜在局限
拼音字典仅覆盖 GBK 一级/二级汉字,生僻字可能返回 ?。未处理多音字(每个汉字只对应一个固定拼音)。 标点符号等非汉字字符原样输出,某些符号(如 $、@)会被保留。
尽管如此,该代码对于常规的中文转拼音需求已经足够实用。
源码位置: https://tool.zml84.xyz/lisp/view/?uuid=ccf2c793-ec3d-477c-a825-797850918d16


夜雨聆风