Karpathy 喊话:别让 AI 回答停在 Markdown!124 万人围观,输出革命要来了?

导读
Karpathy 公开建议：在 prompt 末尾加一句"structure your response as HTML"，让 AI 回答直接在浏览器里呈现。帖子浏览量超过 124 万。与之呼应的，是一个展示 20 个 HTML artifact 的实例站在 Hacker News 上引发了大量开发者争论。AI 输出层的格式之争，已经从个人偏好变成公开战场。

一个 prompt 技巧，背后是一整套判断

5 月 9 日，Karpathy 在 X 上发了一条长帖。

表面看，他在分享一个使用技巧——

"ask your LLM to 'structure your response as HTML', then view the generated file in your browser."

「在 query 末尾要求 LLM 按 HTML 结构输出，再在浏览器里查看生成文件。」

▲ Karpathy 原帖，浏览量超过 124 万

但这条帖子真正的重量，在后半段。他给 AI 输出层画了一条演进路线：

1.raw text：难读、费力； 2.markdown：有标题、粗体、表格，比纯文本好； 3.HTML：图形、布局和交互自由度大幅提升； 4.更远的终点：interactive neural videos / simulations。

然后他下了一个关键判断：

"markdown ... current default" / "HTML ... early but forming new good default"

「Markdown 还是当前默认，但 HTML 处在早期阶段，正在形成新的好默认。」

他还把这件事挂到了更大的框架上：视觉是"大脑的信息十车道高速公路"，AI 的理想输出会持续向更高视觉带宽演进。

看上去像技巧分享，实际上 Karpathy 在做一个方向性表态——AI 输出层该往哪走。

20 个 HTML 文件，比任何论证都有说服力

Karpathy 这条帖子不是凭空冒出来的。它直接连着一个已经在开发者社区发酵了几天的项目：Thariq Shihipar 的《The unreasonable effectiveness of HTML》。

站点没有长篇论述，开场直接写道：

"Twenty self-contained .html files an agent produced instead of a wall of markdown."

「20 个 agent 生成的、可直接打开的单文件 HTML，取代一面 Markdown 文字墙。」

▲ Thariq 的 HTML 实例站，覆盖规划、代码 review、设计系统、报告等场景

这 20 个文件覆盖的场景，远比"排版更好看"要宽：

探索与规划
：多方案并排对比，取代三段顺序长文；
代码 review
：diff、模块关系、热点路径做成空间化呈现；
设计系统
：直接显示 design token、组件变体和视觉方向；
研究与学习
：折叠区块、tab 切换、术语表、图示，让解释可以按需浏览；
报告
：时间线、图表、状态概览一目了然；
定制编辑器
：拖拽、切换、调参——人和 agent 在同一个界面上协作。

看完这 20 个文件，会发现 HTML artifact 的价值在于：把 agent 的交付物从"一段需要从头读到尾的文档"变成"一个可以跳转、对比、操作的工作台"。

Simon Willison 的冷评：为什么偏偏是现在

独立开发者 Simon Willison 在 5 月 8 日写了一篇技术评论，给这个趋势补了一层很关键的背景。

他认同 HTML 输出的价值，但同时指出：过去大家默认用 Markdown，有一个非常现实的原因——省 token。

"Asking Claude for an explanation in HTML means it can drop in SVG diagrams, interactive widgets, in-page navigation..."

「让 Claude 用 HTML 来解释内容，意味着它可以自然加入 SVG 图示、交互控件和页内导航。」

▲ Simon Willison 的技术评论，同时指出 HTML 输出的优势和过去 Markdown 的 token 效率

Simon 的判断帮忙解释了一个关键问题：为什么这件事偏偏在现在冒头？

答案至少有三层：

模型能力更强了
：能稳定生成结构完整的 HTML artifact，不再频繁崩版；
上下文窗口更大了
：额外的 HTML 标签和样式代码占用的 token，在更大的上下文里不再那么刺痛；
工具链和浏览器预览习惯更成熟了
：从 Claude Artifacts 到 ChatGPT Canvas，AI 产品本身已经在 UI 层做了浏览器渲染的铺垫。

过去"不值得"的额外结构复杂度，现在开始换来真实的可读性收益。

开发者社区的争论：Markdown 真的要退位了？

这个话题在 Hacker News 上同样引发了激烈争论，正反双方都站得住。

▲ Hacker News 线程，正反观点激烈碰撞

支持 HTML 的开发者认为：

复杂表格、层次导航、空间关系——这些内容用 Markdown 表达时，读者需要自己在脑子里重建结构；用 HTML 呈现则一眼看懂；
对于 agent 产出的 explainers、status pages、research pages，HTML 更接近最终消费形态；
视觉带宽更高，信息密度更大。

坚守 Markdown 的开发者则反击：

Markdown 天然适合人工共编——改字、改结构、补说明，随手就来；
版本控制、PR review、长期维护，Markdown 的 diff 优势无可替代；
如果每份文档都变成 HTML，token 成本会上升，人类"顺手改一行"的灵活性会下降。

最有意思的是折中路线——不少开发者提出：

Markdown 继续做源文件层
：编辑、协作、版本控制都在这一层完成；
HTML 作为浏览层和交付层
：面向阅读、展示、决策和交互的场景，用 HTML 呈现。

这个分工逻辑已经在很多团队的实践中成型。Markdown 和 HTML 的关系，更像是"源码"和"编译产物"的关系。

需要压住的一个误读

在所有讨论里，有一个误读需要特别留意：Karpathy 的帖子代表 Anthropic 官方要默认切到 HTML 输出了吗？

不代表。

Anthropic 的 Claude Code 文档里确实有一个Output Styles功能，允许用户配置输出格式、语气和角色。文档原话是：

"Output styles change how Claude responds, not what Claude knows."

「输出风格改变的是 Claude 的回应方式，和它掌握的知识无关。」

▲ Claude Code 官方文档的 Output Styles 页面

这说明"输出格式层"确实是一个正式可配置的对象。但文档里没有任何地方宣布"HTML 将成为默认输出格式"。

Karpathy 的帖子代表的是他个人的工作流偏好和方向判断，加上社区实践者（如 Thariq）的经验验证。这是一个正在凝聚的共识，但还没有变成厂商的产品公告。

真正值得关注的方向

把视角拉远一步看，Karpathy 这条帖子指向的问题，比"用 HTML 还是 Markdown"更大。

他实际上在问：AI 生成的信息，怎样才能以最高效率传进人的大脑？

他给出的框架是：人类偏好的 AI 输入更接近 audio（语音），偏好的 AI 输出更接近 vision（视觉）。视觉通道的带宽远高于文字阅读，因此 AI 输出会持续向更高视觉密度演进。

按这个逻辑，HTML 所处的位置就浮出来了——它是纯文本和未来更强多模态交互（比如交互式模拟、神经视频）之间的中间桥梁。

当前 agent 产出的东西，已经越来越像一个临时应用：它有布局，有导航，有可操作的控件，有可以继续回灌给模型的交互界面。Markdown 在这个方向上的天花板，已经越来越明显。

这场争论的终点，大概率不会是"HTML 全面取代 Markdown"。更可能的局面是：Markdown 继续守住编辑和协作层，而 HTML 成为 agent 面向人类交付的默认展示层。

谁先把这个分工理顺，谁就能在 AI 工具链上多走一步。

— END —