Karpathy 公开建议:在 prompt 末尾加一句"structure your response as HTML",让 AI 回答直接在浏览器里呈现。帖子浏览量超过 124 万。与之呼应的,是一个展示 20 个 HTML artifact 的实例站在 Hacker News 上引发了大量开发者争论。AI 输出层的格式之争,已经从个人偏好变成公开战场。
一个 prompt 技巧,背后是一整套判断
5 月 9 日,Karpathy 在 X 上发了一条长帖。
表面看,他在分享一个使用技巧——
"ask your LLM to 'structure your response as HTML', then view the generated file in your browser."
「在 query 末尾要求 LLM 按 HTML 结构输出,再在浏览器里查看生成文件。」


▲ Karpathy 原帖,浏览量超过 124 万
但这条帖子真正的重量,在后半段。他给 AI 输出层画了一条演进路线:
1.raw text:难读、费力; 2.markdown:有标题、粗体、表格,比纯文本好; 3.HTML:图形、布局和交互自由度大幅提升; 4.更远的终点:interactive neural videos / simulations。
然后他下了一个关键判断:
"markdown ... current default" / "HTML ... early but forming new good default"
「Markdown 还是当前默认,但 HTML 处在早期阶段,正在形成新的好默认。」
他还把这件事挂到了更大的框架上:视觉是"大脑的信息十车道高速公路",AI 的理想输出会持续向更高视觉带宽演进。
看上去像技巧分享,实际上 Karpathy 在做一个方向性表态——AI 输出层该往哪走。
20 个 HTML 文件,比任何论证都有说服力
Karpathy 这条帖子不是凭空冒出来的。它直接连着一个已经在开发者社区发酵了几天的项目:Thariq Shihipar 的《The unreasonable effectiveness of HTML》。
站点没有长篇论述,开场直接写道:
"Twenty self-contained .html files an agent produced instead of a wall of markdown."
「20 个 agent 生成的、可直接打开的单文件 HTML,取代一面 Markdown 文字墙。」

▲ Thariq 的 HTML 实例站,覆盖规划、代码 review、设计系统、报告等场景
这 20 个文件覆盖的场景,远比"排版更好看"要宽:
- 探索与规划
:多方案并排对比,取代三段顺序长文; - 代码 review
:diff、模块关系、热点路径做成空间化呈现; - 设计系统
:直接显示 design token、组件变体和视觉方向; - 研究与学习
:折叠区块、tab 切换、术语表、图示,让解释可以按需浏览; - 报告
:时间线、图表、状态概览一目了然; - 定制编辑器
:拖拽、切换、调参——人和 agent 在同一个界面上协作。
看完这 20 个文件,会发现 HTML artifact 的价值在于:把 agent 的交付物从"一段需要从头读到尾的文档"变成"一个可以跳转、对比、操作的工作台"。
Simon Willison 的冷评:为什么偏偏是现在
独立开发者 Simon Willison 在 5 月 8 日写了一篇技术评论,给这个趋势补了一层很关键的背景。
他认同 HTML 输出的价值,但同时指出:过去大家默认用 Markdown,有一个非常现实的原因——省 token。
"Asking Claude for an explanation in HTML means it can drop in SVG diagrams, interactive widgets, in-page navigation..."
「让 Claude 用 HTML 来解释内容,意味着它可以自然加入 SVG 图示、交互控件和页内导航。」

▲ Simon Willison 的技术评论,同时指出 HTML 输出的优势和过去 Markdown 的 token 效率
Simon 的判断帮忙解释了一个关键问题:为什么这件事偏偏在现在冒头?
答案至少有三层:
- 模型能力更强了
:能稳定生成结构完整的 HTML artifact,不再频繁崩版; - 上下文窗口更大了
:额外的 HTML 标签和样式代码占用的 token,在更大的上下文里不再那么刺痛; - 工具链和浏览器预览习惯更成熟了
:从 Claude Artifacts 到 ChatGPT Canvas,AI 产品本身已经在 UI 层做了浏览器渲染的铺垫。
过去"不值得"的额外结构复杂度,现在开始换来真实的可读性收益。
开发者社区的争论:Markdown 真的要退位了?
这个话题在 Hacker News 上同样引发了激烈争论,正反双方都站得住。

▲ Hacker News 线程,正反观点激烈碰撞
支持 HTML 的开发者认为:
复杂表格、层次导航、空间关系——这些内容用 Markdown 表达时,读者需要自己在脑子里重建结构;用 HTML 呈现则一眼看懂; 对于 agent 产出的 explainers、status pages、research pages,HTML 更接近最终消费形态; 视觉带宽更高,信息密度更大。
坚守 Markdown 的开发者则反击:
Markdown 天然适合人工共编——改字、改结构、补说明,随手就来; 版本控制、PR review、长期维护,Markdown 的 diff 优势无可替代; 如果每份文档都变成 HTML,token 成本会上升,人类"顺手改一行"的灵活性会下降。
最有意思的是折中路线——不少开发者提出:
- Markdown 继续做源文件层
:编辑、协作、版本控制都在这一层完成; - HTML 作为浏览层和交付层
:面向阅读、展示、决策和交互的场景,用 HTML 呈现。
这个分工逻辑已经在很多团队的实践中成型。Markdown 和 HTML 的关系,更像是"源码"和"编译产物"的关系。
需要压住的一个误读
在所有讨论里,有一个误读需要特别留意:Karpathy 的帖子代表 Anthropic 官方要默认切到 HTML 输出了吗?
不代表。
Anthropic 的 Claude Code 文档里确实有一个Output Styles功能,允许用户配置输出格式、语气和角色。文档原话是:
"Output styles change how Claude responds, not what Claude knows."
「输出风格改变的是 Claude 的回应方式,和它掌握的知识无关。」

▲ Claude Code 官方文档的 Output Styles 页面
这说明"输出格式层"确实是一个正式可配置的对象。但文档里没有任何地方宣布"HTML 将成为默认输出格式"。
Karpathy 的帖子代表的是他个人的工作流偏好和方向判断,加上社区实践者(如 Thariq)的经验验证。这是一个正在凝聚的共识,但还没有变成厂商的产品公告。
真正值得关注的方向
把视角拉远一步看,Karpathy 这条帖子指向的问题,比"用 HTML 还是 Markdown"更大。
他实际上在问:AI 生成的信息,怎样才能以最高效率传进人的大脑?
他给出的框架是:人类偏好的 AI 输入更接近 audio(语音),偏好的 AI 输出更接近 vision(视觉)。视觉通道的带宽远高于文字阅读,因此 AI 输出会持续向更高视觉密度演进。
按这个逻辑,HTML 所处的位置就浮出来了——它是纯文本和未来更强多模态交互(比如交互式模拟、神经视频)之间的中间桥梁。
当前 agent 产出的东西,已经越来越像一个临时应用:它有布局,有导航,有可操作的控件,有可以继续回灌给模型的交互界面。Markdown 在这个方向上的天花板,已经越来越明显。
这场争论的终点,大概率不会是"HTML 全面取代 Markdown"。更可能的局面是:Markdown 继续守住编辑和协作层,而 HTML 成为 agent 面向人类交付的默认展示层。
谁先把这个分工理顺,谁就能在 AI 工具链上多走一步。
— END —
夜雨聆风