[连载]AI Agent编程之旅:基于GLM和Qwen 构建智能体(5)

13. 正式项目，取个名字：EDAI 的诞生

既然决定了要从“读天书”开始，那就得像个真正的工程师一样，把这件事正式化。

在嵌入式开发里，给项目起名是一门玄学。太随意的名字，写着写着就烂尾了；太宏大的名字，做着做着就心虚了。我坐在电脑前，盯着空白的项目文件夹，脑子里闪过无数个念头：SpecMaster？DataSheetBot？EmbeddedGLM？

一个个否决。前者太像商业软件，中二气息太重；后者又太蹭热点，缺乏点极客的克制。

最终，我在纸上写下了四个字母：EDAI。

Embedded Development AI —— 嵌入式开发智能体。

名字朴实无华，甚至有点土气。但它精准地概括了我的期望：不是要做一个只会聊天的机器人，而是要打造一个真正能融入嵌入式开发工作流的 AI 伙伴。

就像当年给第一个自己画的 PCB 板起名一样，我在项目根目录下创建了 README.md，郑重地敲下了第一行字：

#EDAI - Embedded Development AI Agent

看着这行字，我仿佛看到了一个蹒跚学步的婴儿。它现在什么都不会，但我知道，只要方向对了，它会长大的。

14. 从 Logo 开始：当大模型遇上“文字渲染地狱”

项目有了名字，按照程序员的仪式感，接下来该干什么？当然是搞个 Logo 啊！

你看 opencode 启动时那个酷炫的终端logo，你看各种开源社区那些极具辨识度的图标。一个没有 Logo 的项目，就像个没穿盔甲的骑士，上战场都提不起气势。我决定，EDAI 启动时，也得在终端里打印出一个霸气的 ASCII Art Logo。

“这还不简单？”我心想。现在的 AI 画图能力那么强，生成个 Logo 还不是分分钟的事。

我打开 opencode，切换到 GLM，敲下 Prompt：

“请为 EDAI (Embedded Development AI) 设计一个极简风格的 Logo，包含芯片电路元素和字母 EDAI，并生成对应的 ASCII Art 版本。”

GLM 思考了几秒，开始输出。它先是描述了一通设计理念，什么“科技蓝”、“线条感”、“未来主义”，说得头头是道。然后，它给出了一个 ASCII Art。

我定睛一看，差点没把刚喝进去的咖啡喷出来。

它生成的字母是：EDHI。

“？？？”我揉了揉眼睛，重新看了一遍 Prompt。没错啊，我写的是 EDAI。

我不死心，心想可能是 GLM 的绘图模块对字母 A 的理解有偏差。我又试了一次，这次特意强调：“注意，字母是 E-D-A-I，不是 H。”

GLM 很听话，这次它生成的图里，字母变成了：EDHI……哦不，这次那个 A 稍微像样了一点，但横杠飞到了天上，看起来像个奇怪的符号。

“换 Qwen 试试！”我切换到 Qwen 的对话框，把同样的需求丢了过去。Qwen 作为“全栈极客”，画画应该更在行吧？

Qwen 很快给出了反馈。它的 ASCII Art 画得确实比 GLM 精细，电路板的纹理都画出来了。但是——

字母显示为：EBAI。

那个 D 被它画成了 B。

我盯着屏幕，突然意识到一个残酷的事实：大模型在图像生成领域，尤其是处理具体文字渲染时，简直就是个“文盲”。

这背后的技术原理其实很无奈：大模型是基于 Token 预测的，它“读”懂的是“EDAI”这个词的语义，但在“画”图的时候，它是在像素级别上预测下一个点的位置。对它来说，字母“A”不是一条横线加两条斜线，而是一堆复杂的像素分布模式。它很难像人类一样，先理解字形结构，再一笔一划地画出来。

于是，GLM 把 A 画成了 H，Qwen 把 D 画成了 B。它们都在“猜”字母长什么样，而不是在“写”字母。

“看来，术业有专攻。”我叹了口气，关掉了 GLM 和 Qwen 的绘图窗口。这两个在代码和规划上如此强大的模型，在 Logo 设计这个看似简单的任务上，居然双双翻车。

难道 EDAI 就要带着一个错别字 Logo 出生吗？

15. Gemini 绘制 Logo：流程匹配模型

就在我准备放弃，打算自己去网上找个 ASCII 生成器凑合一下的时候，我突然想起了 Google 的 Gemini。

虽然平时用得少，但听说它在多模态理解上有点东西。死马当活马医吧，我打开了 Gemini 的界面。

同样的 Prompt，我再次输入：

“请为 EDAI (Embedded Development AI) 设计一个 Logo，并生成 ASCII Art 版本。”

Gemini 的反应很有意思。它没有像 GLM 和 Qwen 那样直接硬着头皮去“画”字符。

它先是调用了内部的 Nano Banana，生成了一张彩色的、带芯片电路背景的 EDAI Logo 图片。

我点开图片一看，嘿！这次字母居然拼对了！E-D-A-I，一个都没少，虽然字体有点艺术化，但至少能认出来。

“有点意思。”我来了精神。

但我想要的不是图片，是终端里能打印的 ASCII 字符啊。我接着对 Gemini 说：

“很好，现在请把这张图片转换成高对比度的 ASCII Art，确保字母 EDAI 清晰可辨。”

这一次，Gemini 没有自己去“猜”像素。它似乎是先“看”懂了刚才生成的那张图片，然后输出了一段极其规整的 ASCII 字符画。

我复制到终端里，运行。

完美！没有错别字，没有奇怪的符号。那个“D”没有变成“B”，那个“A”也没有飞上天。

我盯着终端屏幕，突然意识到了一点比“Gemini 画图更强”更重要的事情。

GLM 和 Qwen 失败，是因为它们试图一步到位：直接从“文字描述”跳跃到“ASCII 字符排列”。这中间跨度太大，既要理解语义，又要控制像素级的字符布局，还要保证文字正确，难度系数简直是地狱级。

而 Gemini 做对了一件事：它把任务拆解了。

先生成图片，再生成 ASCII。这是一个“曲线救国”的流程，但却是最有效的路径。

那一刻，我仿佛被一道闪电击中。

这不仅仅是画图的问题。这揭示了一个关于 AI Agent 开发的深刻真理：在处理复杂任务时，设计一个合理的“处理流程（Workflow）”，往往比单纯依赖某个大模型的“智商（Capability）”更重要。

“原来如此……”我喃喃自语。

EDAI 的第一行代码还没写，但它的第一个 Logo 和第一条“架构原则”已经诞生了：流程匹配模型。