
撰文| 余知凝
编辑| 张 南
设计| 荆 芥
没有发布会,没有高管站台,一则平淡的新闻稿,藏着AI行业的关键拐点。
2026年5月27日,科罗拉多州布鲁姆菲尔德,DigitalOcean联合Hippocratic AI官宣:旗下Polaris系统依托NVIDIA HGX B300 GPU,完成1000万次真实临床患者通话,临床安全评分达99.9%。
这条消息并未在科技圈掀起热度。但对照三年前的AI行业就能发现:一场根本性转变已经发生——AI正从热议的科技概念,演变为无声运行的社会基础设施。
要理解这次转变,先要理解一个数字的含义:每百万Token(AI处理文字的基本计量单位),0.123美元。
这是SemiAnalysis的InferenceX基准测试在2026年4月公布的数字——NVIDIA GB300 NVL72系统的AI推理成本。对比上一代Hopper架构,这套系统每Token成本下降35倍,每兆瓦吞吐量提升50倍,属于量级式技术跃迁,不是改良。
类比一下:如果2023年AI推理的成本相当于乘坐头等舱,今天的价格已经接近地铁票。头等舱时代,只有少数人能经常飞;地铁时代,通勤变成了日常。
成本的断崖式下降,直接重写了产业逻辑。此前那些看起来有价值但“太贵”的AI应用场景,突然变得可行。慢性病随访、用药依从性管理、医疗排班——这些高频、长时、对话密集的场景,过去因为推理成本居高不下而停留在PPT里。今天,它们正在变成每天跑通1000万通电话的生产系统。
2026年AI总算力中,推理占比已升至约三分之二,2023年这一比例仅为三分之一。推理优化芯片的市场规模今年预计突破500亿美元。

Hippocratic AI联合创始人德巴约提·达塔(Debajyoti Datta)说了一句话,值得全文引用:
“Polaris是为临床护理的现实而生的:长时会话、真实的人类对话、零容错空间。”
Polaris系统在1000万次真实患者通话中维持了99.9%的临床安全评分,患者平均评分8.95分(满分10分),背后有超过7500名临床医护人员参与评估。迄今为止,Hippocratic AI已完成逾1.8亿次患者交互,覆盖慢性病管理、用药依从性跟踪、护理缺口闭合和临床排班等场景。

这里有一个细节需要解释:临床安全评分99.9%,意味着每1000次通话中,约有1次出现可识别的安全偏差。在医疗场景里,这个数字的含义和消费级AI完全不同——一次对话中断或延迟,不是用户体验问题,是临床干预事故。
技术层面,Polaris跑通这个数字依靠的是三层协同:硬件层使用NVIDIA HGX B300 GPU;DigitalOcean的推理平台针对长上下文临床会话实现了2倍首字符加速(即AI开口作答的响应时间)和约30%的单节点吞吐量提升;Hippocratic AI自身贡献了模型量化压缩、上下文缓存优化以及针对混合专家架构的定制推理内核。系统在生产规模下维持了400毫秒的首字符延迟。
400毫秒。患者说完一句话,AI在0.4秒内开始回答。这不是实验室指标,是正在接听1000万通电话的生产系统的实测数字。
医疗AI过去十年一直面临一个核心质疑:安全性与规模化能否同时实现?Polaris给出了一个暂时性的肯定回答。

但需要说明的是,99.9%的临床安全评分由Hippocratic AI和DigitalOcean联合公布,参与评估的7500名临床医护也由Hippocratic AI自行组织和选择,独立第三方审计的数据尚未见到——这是评估这一里程碑时必须保留的认知余地。
成本的断崖下跌,直接改写了企业使用AI的底层逻辑。
F5的2026年应用策略现状报告,调研了全球1100余名IT决策者,发现78%的企业目前自行运行AI推理,而非依赖公共AI服务。这个数字在两年前几乎是反直觉的——彼时企业AI的标准路径是调用OpenAI的API,按需付费,像买电一样买算力。
今天的逻辑反转了。AI推理已经重要到企业不愿意把它完全外包出去。把推理放在自己的基础设施上,意味着数据不出门、延迟可控、成本可预测。
智能体AI(Agentic AI)是2026年的真正加速剂。与过去“人类提问、AI作答”的对话模式不同,智能体可以自主读写文档、跨系统调用接口、循环迭代任务,全程在后台自动运行,无需人工触发——这也是推理需求呈指数级爆炸的核心原因。随着从人类提示模型转向机器与机器协调,延迟、成本、可靠性和地理分布从优化项变成了一阶约束。
这里有一个经济学上的反直觉:推理成本下降,并不意味着推理总支出下降。
事实恰恰相反。成本下降使更多场景变得可行,总用量因此爆炸。每个智能体工作流处理的Token量是单次对话的数百倍——它要读取文档、调用API、迭代结果、写回系统,而且持续在后台运行,不需要用户点击触发。一个持续监控的后台智能体,即使没有用户在产品中活跃,也在不停消耗算力。
这是“隐形AI”最准确的经济学画像:它从用户视野中消失,但在基础设施账单上越来越重。
企业自建推理的浪潮,也推动全球算力部署方向发生彻底转向。

微软、CoreWeave和甲骨文云基础设施正在大规模部署NVIDIA GB300 NVL72系统,用于低延迟和长上下文场景,例如智能体编程和编程助手。这三家的共同选择,标志着一件事:超大规模算力的部署方向,已经从训练转向推理。
2023年前后,数据中心里的GPU主要在跑模型训练——把海量数据压缩成权重参数。今天,越来越多的GPU在跑推理——把已有的权重参数用来回答真实问题。
来自OpenRouter的《推理现状》报告显示,AI编程相关查询在过去一年从占总量的11%飙升至约50%。智能体编程助手成为推理需求爆炸的主要驱动力——它需要低延迟保证实时响应,需要长上下文在整个代码库中推理,两者都是算力密集型需求。
硬件层面,Blackwell Ultra的设计哲学折射出这种转变。在MLPerf推理评测中,GB300 NVL72首次提交DeepSeek-R1基准,较GB200 NVL72在离线场景提升了45%的单GPU性能,较Hopper系统提升了约5倍吞吐量。硬件、软件、测试基准,三者方向一致指向同一个词:推理。
当AI成为基础设施,谁来审计这个基础设施?

Hippocratic AI的1000万通电话,用的是自己的临床安全评分框架,参与评估的7500名临床医护由Hippocratic AI组织和选择。这不意味着数据造假,但独立审计的缺席,让“99.9%”这个数字悬在一个尴尬的位置——它足够大以制造新闻,却不够透明以终结争议。
医疗AI监管在美国目前仍处于灰色地带。FDA对AI辅助诊断工具有明确的审批框架,但对AI进行患者随访通话,尚无统一的监管路径。Polaris目前的定位是“非诊断性”——它管理用药提醒、跟踪慢性病指标、协调排班,不做诊断。这条边界能否持续守住,也将成为未来数年医疗AI监管博弈的核心。
此外,推理成本35倍的降幅,是以“每Token成本”计算的。但智能体应用的Token消耗是单次对话的数百倍。降本和增量同时发生,最终的基础设施账单未必比从前轻。企业在决策“把AI推理拉进基础设施”时,需要计算的是总拥有成本,而不仅仅是每Token报价。
有一个判断值得慢慢消化:技术最成熟的标志,是它不再被当作一种“技术”来讨论。
1990年代,电子邮件是需要专门学习的技术。今天,没人说“我用了电子邮件技术”,只说“我发了封邮件”。
AI正在经历同样的相变。当它从用户需要主动打开的对话框,变成自动分析服务通话、主动推送客户流失预警的后台系统;当它从“调用API”变成跑在企业自己数据中心里的推理工作负载——这个相变,正在2026年的某个节点悄悄发生。
1000万通电话,0.123美元每百万Token,78%的企业选择自建推理——这些数字,描述的不是AI的未来,而是AI的现在。
只是它已经安静到不再需要宣布自己的存在,而这,正是每一个伟大基础设施的终极宿命。


夜雨聆风