AI 改变的不是界面,是产品形态 —— OUI 的一次落地实践这是「赤拔与 AI Space」的第七篇。上一篇讲 multi-agent 的协作原则,这篇回到产品形态。 OUI 从理论到落地,会发生什么。第一篇我提出了 OUI 的概念框架——用户持有目标,系统执行,界面负责透明与可控。那是理论。最近我做了一次实践,从 PRD 到可交互原型,完整走了一遍。 这篇文章会基于这次实践,聊聊 OUI 从理论走向产品之后,实际会发生什么。 全文分两部分,前半部分是产品形态设计,相对详细。后半部分是 Agent 体系的涉及一些底层方案,没办法全部展开,会做一定程度的模糊处理,还请各位产品同仁见谅。 AI 改变的不是界面,是产品形态 更准确地说,它缩短了「目的」到「办成」之间的方式。 传统 GUI 是多条线性通道。用户有目的,产品只提供「任务」的入口。用户得自己理解,找入口,按按钮,进流程,沿着产品设计好的约束边界,1、2、3、4 一步步走。所谓的体验好,就是这条通道设计得符合预期。用户心智理解准确,引导清晰,容错有效,用户的目的能快速命中任务入口。但前提条件是,用户必须先理解产品怎么用,才能用它办事。 用户不再需要理解产品,直接表达目的,产品为目的服务,从 1、2、3、4 变成 1、2。不是「更智能的界面」。是一种新的产品形态——工具能理解你的目的,基于目的来组织场景。 在非托管或半托管的情况下,Agent 还不能完全替代你做决策。但它已经不是被动的工具了——它是电子员工或投资伙伴。它理解你的目的,基于目的去执行,在过程中与你协同。它尊重你的约束,但也会在关键时刻引入你没考虑到的视角。这不是顺从,是共建。 入口 意图表达是 AI 原生场景的唯一入口。有了这个判断,接下来的问题是:在一个真实产品里,AI 原生场景怎么进入? 第一篇我说 OUI 的用户是「监督者」。但在真实产品里,用户的意图是模糊的、渐进的。用户大部分情况下不会打开页面就说「帮我把投资组合夏普比率提到 1.5」——他们需要系统帮忙「校准目标」。 而且,人很多时候只是以为自己说清楚了。「给我一个大气的网站」——这不是意图,只是意愿。意愿表达的是愿望,意图需要边界和目标。 所以第一个设计决策是:入口不是输入框、按钮或菜单,而是「意图表达」本身。 文本、语音、点选、上下文触发,都是载体。输入框只是当前阶段的物理承载。 Live morph 意图表达即入口。具体怎么交互?落地的第一个行为叫 Live morph。 用户表达意图,场景实时生成。每多打一个字符,系统都在识别意图,反馈区随时重组。不用打完字,不用按回车,不用等结果。打字的过程中,界面已经在响应。 用户输入「NV」。系统识别出 ticker 意图,主区瞬间切到标的研究的结构化布局,感知层弹出深度分析 Agent。还没按回车,GUI 已经就位。按回车后,chat 列同步开始流式叙述分析。 Live morph 本身就是一种生成式体验。只是它不是开放式生成,而是有限场景生成:先把场景抽象成有限的视图类型,再用意图识别做路由。用户感知到的就是「我说了一句话,界面就围绕我的意图展开了」。 采用 Agent 同构兜底,命中预设的用精确视图,命中不了的用语义检索集合模块。用户看到的始终是同一套三层反馈:结构化信息、Agent 工作感知、富 chat 流分析。兜底视图的信息密度会有一些落差,但退化平滑,用户侧感知一致。 当前的意图识别是匹配 + Agent 同构兜底的组合。随着用户数据的增加,Agent 同构的比例会逐渐扩大。这是渐进式深入,不是开关切换。 混合共生 Live morph 解决了怎么进入。进入之后,界面怎么组织? 实践中最大的认知修正:OUI 不是消灭 GUI,是重新定义 GUI 的角色。 第一篇我说「GUI 正在从方向盘退化为仪表盘」。方向没错,但实践中发现 GUI 不只是「看」,它承担了 LUI 做不到的功能:高密度的结构化信息呈现。一个标的的研究信息,用对话框一条一条念,用户会疯。放在 13 行 Grid 布局里,30 秒扫完。 场景不一样。ChatGPT、DeepSeek 这类通用模型覆盖最大公约数。投资是垂直场景,数据结构确定,用户场景可枚举,用户预期可控,ROI 不一样。用可承受的成本换一个重要东西:用户在平台产生数据,形成「越用越好用」的粘性。 主区和 chat 不重复。 主区给数据和精准操作,chat 给分析和批量操作,协同工作。 富 chat 流 混合共生是信息怎么呈现。接下来是:用户怎么参与和控制? 传统 chatbot 是一问一答的气泡。投资场景的 AI 回复需要结构化数据——风险卡、持仓图、策略卡、来源引用。 我设计的富 chat 流:topic chip → 思考折叠节 → 多段分析主体 → 人在环内交互+后续追问 人在环内(Human-In-The-Loop)交互。 不只是追问,是 Agent 提议与用户决策之间的参与边界,以及批量反向 GUI 操作。按用户参与深度递增,有四种形态: 参与形态随关系磨合而变,类似 Claude Code 的权限模型:同类操作连续审批通过几次,系统建议加入默认允许。初期偏重,熟悉后降级,用户永远能升级。 chat 末尾的追问按钮也是人在环内的一种形式。Agent 不只是响应当前意图,还在预判下一个意图。 视图流转 以上所有设计组合在一起,出现了一个意料之外的效果。视图之间开始自然流转,用户的模糊意图逐步趋近精确目的。这是这次实践最让我兴奋的发现。 举例来说:「分析持仓」→ 风险视图 & chat 建议策略 → 用户选一个 → 策略视图 & 审阅确认 → 执行 & 监控 用户一开始的意图是模糊的。「分析持仓风险」不是精确目的,是一种说不清的不安。通过每一步交互,系统把模糊意图变成明确的目的。 看到风险评分后,目的从「看看风险」变成「降低 NVDA 集中度」。看到策略卡后,变成「对比部分止盈和再平衡」。每一步都在收窄,而且可以从一个目的自然衍生到下一个目的。 当然不是每次都这么顺利,用户可能在任何环节跳出。闭环不是强制的,是开放的。系统提供下一步的建议,但用户随时可以离开。 这个流转不是单独设计出来的,是意图识别 + 人在环内交互 + 视图路由三者组合后自然呈现的。 闭环 = 意图表达 + 意图识别 + 视图编排 + 人在环内 原型验证了什么 回到第一篇 OUI 的两个组成部分。原型给出了落地形态。 感知层 = GUI + LUI + Agent 三层共生。 视图流转的本质不是缩短决策路径,是通过交互把模糊意图变成精确目的。 以上每一条都有原型支撑。下面是是更加核心的底层方案。 Agent 体系与演进 有限场景生成式怎么往前走?「越用越好用」的核心驱动力是什么? 传统答案是用户行为数据——点了什么、停了多久。但这些信号太稀疏。一个一周只来两三次、每次停留几分钟的用户,点击数据几乎无法描绘出可靠的偏好画像。 我认为,真正的驱动力是用户在投资过程中主动产出的结构化认知资产 ,以及它们与 Agent 体系的协同。判断、方法论、计划、用户信息——这些不是被动行为数据,而是用户主动构建、属于自己的投资知识库。 举个例子。用户总结出「某只股票在财报周期内值得持有,如果季度营收增速降到 30% 以下就卖出」。这比「用户在财务评分模块停留了 8 秒」强一个数量级。系统知道你关心什么、依据什么判断,以及什么条件会改变你的判断。 认知资产不需要从零开始写。它可以从 AI 对话中沉淀、从机器分析中归纳、从交易完成后补充。产品提供引导,但不强制。这些资产之间存在引用关系,最终会织成一张持续演化的投资知识网络。 生成式体验的三步演进 阶段 形态 说明 有限场景生成式 个人定制生成式 认知资产驱动。同一意图不同用户看到不同布局。待验证。 开放生成式 模型实时生成组件,预设视图退化为兜底。需要技术跳跃。
第一步到第二步靠数据积累。不需要技术突破。第二步到第三步才是技术跳跃。现在就能做第一步,同时为第二步积累数据。 感受 做完这次实践,最大的感受是:OUI 的核心挑战不在于理论对不对,在于当前技术条件下,理论实践。 「有限场景生成式」是一次尝试。它保留了 OUI 最核心的特征:用户表达意图,系统围绕意图重组界面,过程透明可控。 这是「赤拔与 AI Space」的第七篇。接下来会持续输出 AI 产品方向的思考。欢迎关注。 术语表 OUI(Objective User Interface) 目标用户界面。用户持有目标,系统执行,界面负责透明与可控。本文提出的新定义,尚无学术或行业标准定义。 GUI(Graphical User Interface) 图形用户界面。用户通过窗口、按钮、菜单、图标等可视化元素与计算机交互,Xerox PARC 1970 年代首创,Apple Macintosh 1984 年普及。本文指结构化数据展示与操作区域。 LUI(Language User Interface) 语言用户界面。用户通过自然语言与系统交互,随 LLM 成熟而成为主流交互范式。本文指富 chat 流:包含卡片、图表、CTA 等结构化元素的对话流。 Agent AI 领域指能自主感知环境、制定计划并执行行动的系统(Russell & Norvig, 2020)。本文指与用户协同共生的持久智能体:有结构化记忆、可推理、可主动、跨会话存在。 Chat 本文指用户与 AI 的对话流,包含文本、卡片、图表、CTA 按钮等多种形态。不同于传统纯文本气泡 chatbot。 CTA(Call to Action) 引导用户执行特定操作的界面元素。 Human-In-The-Loop(HITL) AI 的决策或执行回路中保留人类参与与审批的设计模式(Monarch, 2021)。 Ticker 股票代码。唯一标识某只股票的缩写字母。NVDA 代表英伟达,AAPL 代表苹果。 文献索引 生成式 UI
Linus Lee (2024) Generative UI and Outcome-Oriented Design https://thesephist.com/posts/outcomes/
Vercel (2024) Generative UI — AI SDK 生成式 UI 实践 https://sdk.vercel.ai/docs/ai-sdk-rsc/generative-ui
Agent 架构
Wang et al. (2023) A Survey on LLM-based Autonomous Agents https://arxiv.org/abs/2308.11432
Xi et al. (2023) The Rise and Potential of Large Language Model Based Agents https://arxiv.org/abs/2309.07864
Russell & Norvig (2020) Artificial Intelligence: A Modern Approach (4th ed.) 人在环内与自动化信任
Lee & See (2004) Trust in Automation — Human Factors 46(1): 50–80 https://doi.org/10.1518/hfes.46.1.50_30392
Parasuraman & Riley (1997) Humans and Automation — Human Factors 39(2): 230–253 https://doi.org/10.1518/001872097778543886
Shneiderman (2020) Human-Centered Artificial Intelligence — IJHCI 36(6): 495–504 https://doi.org/10.1080/10447318.2020.1741118
Monarch (2021) Human-in-the-Loop Machine Learning — Manning 用户认知与决策
Kahneman (2011) Thinking, Fast and Slow Norman (2013) The Design of Everyday Things 这是「赤拔与 AI Space」系列文章之一。持续输出 AI 产品与 Agent 系统方向的思考。