AI 改变的不是界面,是产品形态 —— OUI 的一次落地实践

这是「赤拔与 AI Space」的第七篇。上一篇讲 multi-agent 的协作原则，这篇回到产品形态。

OUI 从理论到落地，会发生什么。第一篇我提出了 OUI 的概念框架——用户持有目标，系统执行，界面负责透明与可控。那是理论。最近我做了一次实践，从 PRD 到可交互原型，完整走了一遍。

这篇文章会基于这次实践，聊聊 OUI 从理论走向产品之后，实际会发生什么。

全文分两部分，前半部分是产品形态设计，相对详细。后半部分是 Agent 体系的涉及一些底层方案，没办法全部展开，会做一定程度的模糊处理，还请各位产品同仁见谅。

AI 改变的不是界面，是产品形态

更准确地说，它缩短了「目的」到「办成」之间的方式。

传统 GUI 是多条线性通道。用户有目的，产品只提供「任务」的入口。用户得自己理解，找入口，按按钮，进流程，沿着产品设计好的约束边界，1、2、3、4 一步步走。所谓的体验好，就是这条通道设计得符合预期。用户心智理解准确，引导清晰，容错有效，用户的目的能快速命中任务入口。但前提条件是，用户必须先理解产品怎么用，才能用它办事。

AI 改变的是这条通道本身。

用户不再需要理解产品，直接表达目的，产品为目的服务，从 1、2、3、4 变成 1、2。不是「更智能的界面」。是一种新的产品形态——工具能理解你的目的，基于目的来组织场景。

在非托管或半托管的情况下，Agent 还不能完全替代你做决策。但它已经不是被动的工具了——它是电子员工或投资伙伴。它理解你的目的，基于目的去执行，在过程中与你协同。它尊重你的约束，但也会在关键时刻引入你没考虑到的视角。这不是顺从，是共建。

入口

意图表达是 AI 原生场景的唯一入口。有了这个判断，接下来的问题是：在一个真实产品里，AI 原生场景怎么进入？

第一篇我说 OUI 的用户是「监督者」。但在真实产品里，用户的意图是模糊的、渐进的。用户大部分情况下不会打开页面就说「帮我把投资组合夏普比率提到 1.5」——他们需要系统帮忙「校准目标」。

而且，人很多时候只是以为自己说清楚了。「给我一个大气的网站」——这不是意图，只是意愿。意愿表达的是愿望，意图需要边界和目标。

所以第一个设计决策是：入口不是输入框、按钮或菜单，而是「意图表达」本身。

文本、语音、点选、上下文触发，都是载体。输入框只是当前阶段的物理承载。

Live morph

意图表达即入口。具体怎么交互？落地的第一个行为叫 Live morph。

用户表达意图，场景实时生成。每多打一个字符，系统都在识别意图，反馈区随时重组。不用打完字，不用按回车，不用等结果。打字的过程中，界面已经在响应。

用户输入「NV」。系统识别出 ticker 意图，主区瞬间切到标的研究的结构化布局，感知层弹出深度分析 Agent。还没按回车，GUI 已经就位。按回车后，chat 列同步开始流式叙述分析。

GUI 响应在前，LUI 分析在后。

Live morph 本身就是一种生成式体验。只是它不是开放式生成，而是有限场景生成：先把场景抽象成有限的视图类型，再用意图识别做路由。用户感知到的就是「我说了一句话，界面就围绕我的意图展开了」。

那么，意图落在预设视图之外怎么办？

采用 Agent 同构兜底，命中预设的用精确视图，命中不了的用语义检索集合模块。用户看到的始终是同一套三层反馈：结构化信息、Agent 工作感知、富 chat 流分析。兜底视图的信息密度会有一些落差，但退化平滑，用户侧感知一致。

当前的意图识别是匹配 + Agent 同构兜底的组合。随着用户数据的增加，Agent 同构的比例会逐渐扩大。这是渐进式深入，不是开关切换。

混合共生

Live morph 解决了怎么进入。进入之后，界面怎么组织？

实践中最大的认知修正：OUI 不是消灭 GUI，是重新定义 GUI 的角色。

第一篇我说「GUI 正在从方向盘退化为仪表盘」。方向没错，但实践中发现 GUI 不只是「看」，它承担了 LUI 做不到的功能：高密度的结构化信息呈现。一个标的的研究信息，用对话框一条一条念，用户会疯。放在 13 行 Grid 布局里，30 秒扫完。

有人会说：这么复杂干嘛，直接 chat 不行吗？

场景不一样。ChatGPT、DeepSeek 这类通用模型覆盖最大公约数。投资是垂直场景，数据结构确定，用户场景可枚举，用户预期可控，ROI 不一样。用可承受的成本换一个重要东西：用户在平台产生数据，形成「越用越好用」的粘性。

最终架构是混合共生：

层	承载	给用户的价值
主区（GUI）	高密度结构化数据与操作	「看、干预」— 快速扫描、比较、定位、操作
富 chat 流（LUI）	叙述性推理与分析	「读」— 理解逻辑、获取建议、追问
Agent 感知层	任务状态与执行透明	「信任」— 知道系统在做什么，可中断

主区和 chat 不重复。主区给数据和精准操作，chat 给分析和批量操作，协同工作。

富 chat 流

混合共生是信息怎么呈现。接下来是：用户怎么参与和控制？

传统 chatbot 是一问一答的气泡。投资场景的 AI 回复需要结构化数据——风险卡、持仓图、策略卡、来源引用。

我设计的富 chat 流：topic chip → 思考折叠节 → 多段分析主体 → 人在环内交互+后续追问

最关键的是末端。

人在环内（Human-In-The-Loop）交互。不只是追问，是 Agent 提议与用户决策之间的参与边界，以及批量反向 GUI 操作。按用户参与深度递增，有四种形态：

形态	用户参与	典型场景
一键确认	Agent 决定，用户点一下	已设定的重复动作。仍在环内，不等于自动执行。
审阅	Agent 决定，用户审核	方案审批或打回。
选择	在 Agent 候选中挑一个	Agent 给出选项卡，用户选一个。
编写	用户主动填参数	手动调价、到期日、合约数。

参与形态随关系磨合而变，类似 Claude Code 的权限模型：同类操作连续审批通过几次，系统建议加入默认允许。初期偏重，熟悉后降级，用户永远能升级。

chat 末尾的追问按钮也是人在环内的一种形式。Agent 不只是响应当前意图，还在预判下一个意图。

视图流转

以上所有设计组合在一起，出现了一个意料之外的效果。视图之间开始自然流转，用户的模糊意图逐步趋近精确目的。这是这次实践最让我兴奋的发现。

举例来说：「分析持仓」→ 风险视图 & chat 建议策略 → 用户选一个 → 策略视图 & 审阅确认 → 执行 & 监控

用户一开始的意图是模糊的。「分析持仓风险」不是精确目的，是一种说不清的不安。通过每一步交互，系统把模糊意图变成明确的目的。看到风险评分后，目的从「看看风险」变成「降低 NVDA 集中度」。看到策略卡后，变成「对比部分止盈和再平衡」。每一步都在收窄，而且可以从一个目的自然衍生到下一个目的。

当然不是每次都这么顺利，用户可能在任何环节跳出。闭环不是强制的，是开放的。系统提供下一步的建议，但用户随时可以离开。

这个流转不是单独设计出来的，是意图识别 + 人在环内交互 + 视图路由三者组合后自然呈现的。

闭环 = 意图表达 + 意图识别 + 视图编排 + 人在环内

原型验证了什么

回到第一篇 OUI 的两个组成部分。原型给出了落地形态。

感知层 = GUI + LUI + Agent 三层共生。

可控干预 = 四层人在环内 + 随时退出。

视图流转的本质不是缩短决策路径，是通过交互把模糊意图变成精确目的。

以上每一条都有原型支撑。下面是是更加核心的底层方案。

Agent 体系与演进

有限场景生成式怎么往前走？「越用越好用」的核心驱动力是什么？

传统答案是用户行为数据——点了什么、停了多久。但这些信号太稀疏。一个一周只来两三次、每次停留几分钟的用户，点击数据几乎无法描绘出可靠的偏好画像。

我认为，真正的驱动力是用户在投资过程中主动产出的结构化认知资产，以及它们与 Agent 体系的协同。判断、方法论、计划、用户信息——这些不是被动行为数据，而是用户主动构建、属于自己的投资知识库。

举个例子。用户总结出「某只股票在财报周期内值得持有，如果季度营收增速降到 30% 以下就卖出」。这比「用户在财务评分模块停留了 8 秒」强一个数量级。系统知道你关心什么、依据什么判断，以及什么条件会改变你的判断。

认知资产不需要从零开始写。它可以从 AI 对话中沉淀、从机器分析中归纳、从交易完成后补充。产品提供引导，但不强制。这些资产之间存在引用关系，最终会织成一张持续演化的投资知识网络。

生成式体验的三步演进

阶段	形态	说明
当前	有限场景生成式	场景抽象 + 意图路由。已验证。
中期	个人定制生成式	认知资产驱动。同一意图不同用户看到不同布局。待验证。
终局	开放生成式	模型实时生成组件，预设视图退化为兜底。需要技术跳跃。

第一步到第二步靠数据积累。不需要技术突破。第二步到第三步才是技术跳跃。现在就能做第一步，同时为第二步积累数据。

感受

第一篇写 OUI 时，很多概念是推导出来的。

做完这次实践，最大的感受是：OUI 的核心挑战不在于理论对不对，在于当前技术条件下，理论实践。

「有限场景生成式」是一次尝试。它保留了 OUI 最核心的特征：用户表达意图，系统围绕意图重组界面，过程透明可控。

归根结底，所有产品设计都指向同一件事——

用户从来不想用产品，人只是想把事办成了。

这是「赤拔与 AI Space」的第七篇。接下来会持续输出 AI 产品方向的思考。欢迎关注。

术语表

OUI（Objective User Interface）目标用户界面。用户持有目标，系统执行，界面负责透明与可控。本文提出的新定义，尚无学术或行业标准定义。

GUI（Graphical User Interface）图形用户界面。用户通过窗口、按钮、菜单、图标等可视化元素与计算机交互，Xerox PARC 1970 年代首创，Apple Macintosh 1984 年普及。本文指结构化数据展示与操作区域。

LUI（Language User Interface）语言用户界面。用户通过自然语言与系统交互，随 LLM 成熟而成为主流交互范式。本文指富 chat 流：包含卡片、图表、CTA 等结构化元素的对话流。

Agent AI 领域指能自主感知环境、制定计划并执行行动的系统（Russell & Norvig, 2020）。本文指与用户协同共生的持久智能体：有结构化记忆、可推理、可主动、跨会话存在。

Chat 本文指用户与 AI 的对话流，包含文本、卡片、图表、CTA 按钮等多种形态。不同于传统纯文本气泡 chatbot。

CTA（Call to Action）引导用户执行特定操作的界面元素。

Human-In-The-Loop（HITL）AI 的决策或执行回路中保留人类参与与审批的设计模式（Monarch, 2021）。

Ticker 股票代码。唯一标识某只股票的缩写字母。NVDA 代表英伟达，AAPL 代表苹果。

文献索引

生成式 UI

Linus Lee (2024) Generative UI and Outcome-Oriented Design

https://thesephist.com/posts/outcomes/

Vercel (2024) Generative UI — AI SDK 生成式 UI 实践

https://sdk.vercel.ai/docs/ai-sdk-rsc/generative-ui

Agent 架构

Wang et al. (2023) A Survey on LLM-based Autonomous Agents

https://arxiv.org/abs/2308.11432

Xi et al. (2023) The Rise and Potential of Large Language Model Based Agents

https://arxiv.org/abs/2309.07864

Russell & Norvig (2020) Artificial Intelligence: A Modern Approach (4th ed.)

人在环内与自动化信任

Lee & See (2004) Trust in Automation — Human Factors 46(1): 50–80

https://doi.org/10.1518/hfes.46.1.50_30392

Parasuraman & Riley (1997) Humans and Automation — Human Factors 39(2): 230–253

https://doi.org/10.1518/001872097778543886

Shneiderman (2020) Human-Centered Artificial Intelligence — IJHCI 36(6): 495–504

https://doi.org/10.1080/10447318.2020.1741118

Monarch (2021) Human-in-the-Loop Machine Learning — Manning

用户认知与决策

Kahneman (2011) Thinking, Fast and Slow
Norman (2013) The Design of Everyday Things

这是「赤拔与 AI Space」系列文章之一。持续输出 AI 产品与 Agent 系统方向的思考。