大家好,欢迎来到高老三聊AI,我是高老三。
Andrej Karpathy 在 X 上发了一条很有意思的长推。
如果你长期关注 AI,应该对卡帕西不陌生:他是前 OpenAI 研究员、特斯拉前 AI 总监,也是过去几年最擅长把复杂 AI 概念讲清楚的人之一。
这次他没有聊模型参数,也没有聊 benchmark,而是给了一个非常具体的使用建议:
在你的问题最后加一句:
structure your response as HTML,然后把生成的文件放进浏览器里看。
原帖地址在这里:Karpathy 关于 HTML 输出的讨论[1]。
这句话翻译成人话就是:别只让 AI 给你 Markdown,让它直接给你一个 HTML 页面。
我刚看到这条的时候,第一反应是:这不就是让模型换个格式输出吗?
但卡帕西真正想说的不是「HTML 比 Markdown 高级」这么简单。他把这个小技巧放进了一个更大的判断里:AI 和人类之间的输入输出形态,正在重新洗牌。
仔细读完 Karpathy 的完整观点,再结合过去两年几个公开产品和研究线索——Anthropic 的 Claude Artifacts、OpenAI 的 ChatGPT Canvas、Google 的 Gemini Canvas,以及 Google Research 对 Generative UI 的讨论——我觉得这事不是「格式之争」,而是一个更大的方向:AI 的默认输出,正在从文本答案变成视觉界面。
• Karpathy 的核心观点不是「HTML 比 Markdown 高级」,而是 AI 输出正在从文本向视觉、交互、模拟演进。 • 输入端,人类更偏好语音;输出端,人类更偏好视觉。因为大脑有大量资源用于视觉处理,视觉是进入大脑的信息高速公路。 • Markdown 是当前 AI 输出的默认值,但它只解决了「更好读一点」的问题;HTML 进一步把答案变成了可布局、可交互、可运行的界面。 • Claude Artifacts、Canvas、Generative UI 这些产品,本质上都在做同一件事:让 AI 不再只「回复你」,而是直接「给你一个可操作的东西」。 • 现阶段最值得立刻尝试的动作很简单:在复杂问题后加一句 「请把结果组织成一个 HTML 页面」。
一、Karpathy 到底说了什么?
Karpathy 这条推文里,有一句话我觉得特别关键:
audio is the human-preferred input to AIs but vision is the preferred output from them.
翻译过来就是:音频是人类更喜欢给 AI 的输入方式,而视觉是人类更喜欢从 AI 那里接收的输出方式。
这个判断非常有意思。
过去我们讨论 AI 产品形态,最常见的说法是「自然语言交互」:你打字问,AI 打字答。后来语音模型成熟了,大家开始说「语音才是更自然的输入」。
但 Karpathy 往后多想了一步:输入可以是语音,但输出未必也应该是语音或文字。
原因很简单。人类的大脑不是为了读长文本优化的,而是为了看世界优化的。Karpathy 的说法是,大约三分之一的大脑资源都可以看作一个大规模并行的视觉处理器,视觉是进入大脑的「十车道高速公路」。
这也是为什么同样的信息:
• 写成 2000 字文档,你可能看不下去; • 做成一张图,你 10 秒就懂了; • 做成一个可交互页面,你不只是懂,还能自己探索。
所以他提出了一个输出形态的演进序列:
1. Raw text:纯文本,读起来最费劲。 2. Markdown:有标题、加粗、表格,已经比纯文本友好很多,这也是现在的默认值。 3. HTML:底层仍然是代码,但有更强的图形、布局和交互能力,正在成为新的默认方向。 4. 更往后:交互式神经视频、模拟器、由扩散模型直接生成的动态世界。
这不是在说 Markdown 明天就会消失,而是在说:Markdown 可能只是 AI 输出进化史里的一个中间站。
了解了 Karpathy 的核心判断,接下来我们看为什么 HTML 会在这个时间点突然变得重要。
二、为什么偏偏是 HTML?
如果放在十年前,说「以后大家都该用 HTML 写文档」,大概率没人理你。
因为 HTML 对人类来说太麻烦了。你要写标签、写 CSS、考虑布局,还要处理浏览器兼容。Markdown 之所以能火,本质上是因为它对人类友好:# 表示标题,** 表示加粗,几乎不需要学习成本。
但 AI 改变了这个前提。
以前的核心问题是:人写起来方不方便。
现在的核心问题变成了:AI 生成之后,人看起来、用起来方不方便。
这两个问题的答案完全不同。
Markdown 的优势是「易写」。但如果大部分内容都由 AI 写,易写就没那么重要了。HTML 的优势是「易呈现」:它可以做布局、配色、图表、动画、按钮、交互,浏览器还能直接打开。
举个简单例子。
你问 AI:「帮我分析一下这三个技术方案的优缺点」。
如果默认输出 Markdown,它通常会给你一个表格,再加几段解释。
但如果你最后加一句「请组织成 HTML」,它可以给你:
• 左右分栏的方案对比卡片; • 用颜色标出风险等级; • 用 SVG 画出架构流程; • 加一个筛选器,让你按成本、复杂度、收益切换排序; • 甚至加一个「复制最终决策 prompt」按钮,把你的选择重新变成下一轮输入。
这就不只是「答案更好看」了。
它变成了一个小工具。
Claude Artifacts 也是这个方向。Anthropic 在发布 Claude 3.5 Sonnet[2] 时,把 Artifacts 定义为一种新的使用 Claude 的方式:当用户要求生成代码片段、文档或网站设计时,这些内容会出现在对话旁边的独立窗口里,用户可以实时查看、编辑、继续构建。Anthropic 当时的说法很明确:这标志着 Claude 从「对话式 AI」走向「协作式工作环境」。
OpenAI 后来推出的 ChatGPT Canvas[3] 也沿着类似方向走:官方介绍里说,这是一个用于写作和编码项目的新界面,面向的是那些「超出简单聊天」的任务。
Google 在 2025 年 3 月推出 Gemini Canvas[4] 时,也把它定义为 Gemini 里的一个交互式空间:用户可以在里面创建、编辑、分享文档和代码,甚至生成并预览 HTML/React 原型。再往研究侧看,Google Research 对 Generative UI 的表述也很接近:AI 不只是返回一段文字,而是根据任务动态生成丰富、定制、可交互的用户体验。
所以 HTML 的价值,不在于它是一个老技术,而在于它刚好站在三个条件的交汇点上:
• 模型会写代码:LLM 现在已经能稳定生成可运行的 HTML/CSS/JS。 • 浏览器无处不在:HTML 生成之后,不需要安装专门软件就能打开。 • 人类偏好视觉:相比长文本,布局、图表和交互更符合大脑的信息处理方式。
这三个条件叠在一起,HTML 就从「网页开发语言」变成了 AI 输出容器。
了解了为什么是 HTML,接下来我们再往前走一步:它到底改变了人和 AI 的协作方式?
三、从「聊天」到「交付物」
过去我们使用 AI,默认心智是聊天。
你问一句,它答一句。即使它输出了很长的内容,本质上仍然是一段文本。你要自己读、自己判断、自己复制、自己整理。
但 HTML 输出会把这个过程往前推进一层:AI 不只是告诉你答案,而是把答案包装成一个可以直接使用的交付物。
这件事在很多场景里都非常明显。
3.1 学习一个复杂概念
比如你让 AI 解释 Transformer。
Markdown 版本通常是:注意力机制是什么、多头注意力是什么、位置编码是什么。
HTML 版本可以是:左边是概念地图,中间是 token 流动动画,右边是每一步的解释。你点击某个 token,页面高亮它和其他 token 的注意力关系。
这时候你不是在读一篇解释,而是在操作一个学习界面。
3.2 做技术方案评审
比如你让 AI 对比三种架构方案。
Markdown 版本是一张表。
HTML 版本可以是一组卡片,每个方案有成本、风险、交付周期、维护复杂度四个维度。你可以拖动权重滑块,页面实时重新计算推荐结果。
这时候 AI 输出的不再是「建议」,而是一个轻量决策系统。
3.3 做产品原型和演示
比如你想验证一个新功能的交互。
以前你可能要先写 PRD,再找设计师画图,再找前端做 demo。
现在你可以让 AI 先用 HTML 做一个可点的原型:按钮能点、状态能切换、流程能跑。它未必能直接上线,但足够用来讨论、评审、推翻或迭代。
这也是为什么 Claude Artifacts、v0、ChatGPT Canvas、Gemini Canvas 这类产品会越来越重要。它们不是单纯让 AI 「写代码」,而是让 AI 生成可被人感知和操作的中间态。
这中间态非常关键。
因为很多需求不是靠文字讨论清楚的,而是靠看见、点击、拖动之后才会暴露出来。
了解了 HTML 如何把答案变成交付物,接下来我们聊 Karpathy 提到的另一个方向:输入端也还远远没结束。
四、输入端也不只是语音
Karpathy 说,音频、文本、视频单独看都不够。
他提到一个很具体的体感:当他和 AI 协作时,会想指着屏幕上的某个地方、做一些手势,就像旁边真的坐着一个人一样。
这个细节特别真实。
我们和真人协作时,很少只靠语言。你会说:
• 「这里不对」——同时手指指向屏幕某个区域; • 「这个往上挪一点」——同时做一个向上的手势; • 「保留这个,删掉旁边那块」——同时框选某个区域; • 「你看这个趋势」——同时划过一条曲线。
这些动作本质上都是输入。
但现在的大多数 AI 产品,仍然把输入压缩成一个文本框。即使支持语音或截图,也经常是分离的:你上传截图,再用文字描述;你说一段话,但 AI 不知道你眼睛正在看哪里、手指正在指哪里。
真正自然的人机协作,可能需要把这些信号合在一起:
• 语音:表达意图最快; • 鼠标/手势:定位对象最准; • 屏幕上下文:提供当前任务环境; • 视觉反馈:让 AI 的结果能被快速验证; • 交互页面:把下一轮修改变成可操作的动作。
这就是 Karpathy 所说的 mind meld:人和 AI 的输入输出逐渐融合。
它还远没有到 Neuralink 那种脑机接口的阶段。更现实的路径,是先把我们已经有的设备用到极致:麦克风、屏幕、摄像头、鼠标、触控板、浏览器。
换句话说,真正的下一代 AI 交互,不一定先发生在脑机接口里,反而可能先发生在一个普通浏览器窗口里。
五、现阶段最值得试的 5 个 Prompt
说了这么多,回到今天最实用的部分:普通人现在怎么用?
你不需要等什么新产品,也不需要安装复杂工具。直接在复杂问题后面加一句「请用 HTML 组织输出」就可以。
我给你 5 个可以直接复制的版本。
5.1 复杂概念学习
请解释这个概念,并把结果组织成一个单文件 HTML 页面。要求包含:概念地图、关键术语卡片、一个流程图、三个常见误区,以及适合初学者的交互式小测验。
5.2 技术方案对比
请对比这几个方案,并输出为 HTML。要求用卡片展示每个方案的优缺点,用颜色标出风险等级,最后给一个可调整权重的决策矩阵:成本、复杂度、长期维护、上线速度四个维度。
5.3 代码理解
请阅读下面这段代码,并生成一个 HTML 讲解页面。要求包含调用链图、关键函数说明、状态变化流程、可能的 bug 点,以及适合新人 onboarding 的阅读顺序。
5.4 会议纪要转行动看板
请把这份会议纪要整理成一个 HTML 行动看板。按负责人、优先级、截止时间分组,提供筛选按钮,并在顶部给出本周最重要的 3 个风险。
5.5 产品原型探索
请基于这个需求生成一个单文件 HTML 原型。要求至少包含 3 个页面状态、可点击的主要流程、移动端宽度适配,以及每个交互背后的设计意图说明。
注意,这里有一个小技巧:不要只说「输出 HTML」。
你最好顺手告诉它这个 HTML 应该承担什么角色:学习页面、决策矩阵、代码讲解、行动看板、可点击原型。角色越明确,AI 越容易从「写文章」切换到「做界面」。
「我的一点看法」
Karpathy 这条推文让我感兴趣的地方,不只是他推荐了一个「让 LLM 输出 HTML」的小技巧,而是他把这个技巧放进了一个更大的判断里:AI 的输出不应该被默认锁死在文本里。
「structure your response as HTML」这个细节特别能说明问题——它不是让答案变得花哨,而是让答案从线性文本变成可布局、可导航、可交互的信息界面。这背后的假设是:当 AI 负责生产内容时,人类真正稀缺的不是写作能力,而是理解、判断和操作的带宽。
这和当前很多「聊天机器人」产品走的是完全不同的路:大多数产品还在优化回答本身,而 Karpathy 指向的是回答的载体。前者是在把文本写得更好,后者是在问:这个结果能不能直接变成一个工具、一个画布、一个模拟器?
另外,输入端的「指点和手势」也很值得关注。它提醒我们,所谓多模态不是简单把文字、语音、图片都接进来,而是要让这些信号围绕同一个任务上下文协同工作。这对于未来的 AI Agent 来说,是非常值得借鉴的交互模式。
最后,今天就可以试一下
如果你想立刻体验 Karpathy 说的这个方向,可以从最简单的一句话开始:
请把你的回答组织成一个单文件 HTML 页面,我会在浏览器里打开查看。
再进阶一点,可以补充:
1. 说明页面用途:学习、评审、决策、演示、原型。 2. 要求包含交互:筛选、展开、滑块、按钮、复制结果。 3. 要求单文件:HTML、CSS、JS 都内联,方便直接保存打开。 4. 让它输出下一轮 Prompt:把你在页面里的选择,整理成可以继续喂给 AI 的文本。
这可能是目前最便宜、最容易上手的一次 AI 交互升级。
不需要新硬件,不需要脑机接口,也不需要等什么终极产品。
你只需要在下一次提问最后,加一句:「请用 HTML 呈现。」
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个关注~谢谢你看我的文章,我们,下次再见。
引用链接
[1] Karpathy 关于 HTML 输出的讨论: https://x.com/karpathy/status/2053872850101285137[2] Claude 3.5 Sonnet: https://www.anthropic.com/news/claude-3-5-sonnet[3] ChatGPT Canvas: https://openai.com/index/introducing-canvas/[4] Gemini Canvas: https://blog.google/products-and-platforms/products/gemini/gemini-collaboration-features/
夜雨聆风