乒乓球AI击败人类职业选手,Sony Ace:乒乓球界的AlphaGo?《nature》封面重磅新文解析
过去几年,我们见证了AI在国际象棋、围棋赛场上的摧枯拉朽 ,也曾看着人类顶尖棋手柯洁在AlphaGo面前的绝望。但棋盘上的博弈,终究是“你下一步,我下一步”的静态思考。
如果把战场换到乒乓球台呢?
这是一个完全没有时间让你“思考”的物理修罗场:0.5秒内的极速攻防 、20 m/s 的爆冲弧圈球 、高达 1000 rad/s 的致命自旋 。在这个要求感知延迟、物理敏捷性与空气动力学预测达到变态级别的场景里,传统的机器人往往只能靠发球机或者修改规则来“作弊”。
直到现在,Sony AI团队带着他们的“Ace”系统登上了最新一期《Nature》的封面 。这不仅是一场简单的“人机乒乓球大战”,更是人工智能首次在未妥协任何物理规则的动态对抗中,实现了对人类专业级选手的胜利。

在标准ITTF规则下、未对装备和场地做任何简化的物理对抗中,Sony AI的Ace机器人对五位精英级人类选手取得3胜2负的成绩——而它的取胜方式与人类截然相反:人类靠突然的爆发杀球得分,Ace靠近乎”无情绪”的击球一致性赢回合。


💡引言
在近十余年中,人工智能系统在国际象棋、围棋以及Gran Turismo等复杂虚拟游戏中展现出了超越人类的决策能力。然而,将这些数字域成果迁移至真实物理对抗环境,尤其是在高频竞技体育中,始终面临严峻的技术阻碍。以乒乓球为例:球速可超过20 m/s、单次击球间隔不足0.5秒、球体自转可达1000 rad/s,这对系统的感知延迟、空气动力学预测以及物理执行的敏捷性与安全性提出了苛刻要求。现有研究往往通过缩小运行空间、忽略旋转或使用发球机替代人类对抗来简化问题。本报告解析Sony AI团队发表于《Nature》的研究,探讨其如何通过异步多模态感知、无模型强化学习与毫秒级控制的融合,在不修改规则的前提下与人类专业选手正面对抗。


图3a:Ace vs 人类选手比分表
7场对抗的完整比分。粗体为Ace获胜局:对精英选手3胜2负、对两位T.League职业选手0胜2负。
发表机构与载体: 该研究由Sony AI主导,联合Sony Advanced Visual Sensing、Sony Global Manufacturing & Operations等多个技术部门,成果《Outplaying elite table tennis players with an autonomous robot》以Article形式发表于2026年4月23日的《Nature》第652卷。
核心战绩: 在完全遵循ITTF规则、奥运标准场地下,Ace在2025年4月对阵五位拥有十年以上训练经验的精英选手时取得3胜2负;对两位T.League现役职业选手(Minami Ando、Kakeru Sone)以0胜2负落败,但赢下了七局中的一局。论文同行评审之后系统又进行了进一步迭代,更新视频已发布于官方网站。
旋转处理与数据表现: Ace在0–450 rad/s的旋转区间内保持75%以上的回球率,最高生成回球速度16.4 m/s、最大反击自转600 rad/s,显著超过先前最佳系统报告的基线值。
底层架构: 系统结合全局快门相机(IMX273)与事件视觉传感器(IMX636)的混合高频感知网络,搭配非对称Soft Actor-Critic (SAC) 强化学习算法,在仿真中纯粹端到端训练后零样本迁移至真实硬件。
🛠️核心突破
Ace系统并非单一算法的胜利,而是从高频物理信息捕获、高保真仿真建模到极低延迟硬件执行的系统工程级融合。它突破了传统机器人控制中依赖启发式接触点和显式轨迹预测的局限,提供了一种通过强化学习与凸优化结合来解决动态对抗的新范式。
1. 高速异构感知:空间追踪与旋转测算的解耦
在专业级对抗中,感知延迟必须压缩至亚秒级别。传统帧级视觉传感器在捕捉高速且高自转的球体时,受限于运动模糊与带宽瓶颈。Ace的解决思路是将三维坐标追踪与角速度测算彻底解耦,由两套不同特性的传感器分别承担。

图2:Ace系统硬件布局与GCS模块特写
9台APS相机环绕标准球场外围;3台凝视控制系统(GCS)由事件相机、振镜、长焦可调镜头组成。
高频空间三角定位:系统在场地外围部署了9台搭载Sony IMX273传感器的全局快门相机,相机布局通过CMA-ES协方差矩阵自适应进化策略离线优化,确保覆盖体积与最小2D检测半径(5像素)。所有相机以200 Hz触发信号与机械臂硬件级时钟同步,每次捕获1440 × 1080分辨率图像后,由内置FPGA直接执行图像分割与2D球体检测,仅将压缩掩码而非原始图像流传送至中央服务器。该硬件加速架构使从拍摄到3D坐标输出的全链路平均延迟仅为10.2 ms,空间误差控制在3.0 mm内。
动态凝视控制系统(GCS):球体自转是乒乓球运动中最具对抗性的变量,极大影响其轨迹与碰撞反弹角度。Ace部署了3套独立的GCS,每套由三个核心组件构成:
-
搭载Sony IMX636的事件视觉传感器(EVS),异步记录像素亮度对数变化,从机制上消除运动模糊。 -
电控振镜(Galvanometer pan/tilt mirrors),实现毫秒级物理追踪。 -
长焦可调谐镜头,动态调焦确保球体表面商标被持续放大并清晰。
GCS接收APS网络的3D坐标,并利用马格努斯效应空气动力学模型预测未来轨迹,据此驱动振镜和镜头连续锁动。事件帧中球体轮廓由YOLOv6检测,随后通过两条并行链路异步处理角速度:低延迟估计由CNN处理15 ms时间窗口内的极性分离事件切片,输出带异方差不确定性的初步预估;高精度校准由对比度最大化(CMax)算法在后端异步运行,耗时较长但精度更高。实战中策略模块优先摄取CNN估计值,并在低不确定性的CMax数据可用时立刻切换,输出400–700 Hz可变频率的角速度数据,平均测算误差压制在24.8 rad/s。
|
|
|
|
|
|
|---|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2. 高保真物理仿真与域随机化建模
Ace的强化学习策略完全在仿真器中训练,因此Sim-to-Real迁移能力高度取决于物理引擎对真实力学特性的还原度。团队在流体力学建模、接触模型与传感器噪声模拟三个维度做了精细校准。
流体力学与马格努斯效应建模:球体飞行加速度由空气阻力(fd)、马格努斯力(fM)和重力(fg)共同决定。传统乒乓球机器人为简化计算常将马格努斯系数设为常数,但研究团队发现该近似在专业级转速下会导致严重的落点误差。仿真器使用动态方程:
mv̇
= fd + fM + fg = –1⁄2cdρairr2π||v||v – cMρair4⁄3r3π v × ω + mg
其中空气密度ρair = 1.204 kg/m³,球体质量m = 2.7 × 10⁻³ kg,半径r = 0.02 m,阻力系数cd = 0.55。马格努斯系数被建模为与即时线速度和角速度相关的动态标量:cM = 0.1·||v||/(r·||ω||) – 0.001。
接触模型与神经网络残差修正:对桌面接触,模型动态计算滑动速度与切向速度向量,区分滑动摩擦与纯滚动状态(动态摩擦系数μ = 0.25),碰撞恢复系数εtable拟合为垂直入射速度的衰减函数:εtable = 0.98 – 0.02vz。对球拍接触,团队在解析模型之外引入了一个小型多层感知机(MLP)作为残差校正神经网络,通过摄入真实比赛数据对线性模型的速度和角速度误差进行补偿,将平均预测误差降低了4%。
系统噪声注入:仿真环境刻意引入复杂噪声——APS相机模拟均匀延迟、零均值高斯噪声与固定丢帧概率;GCS事件相机额外加入球拍撞击瞬间上升的跟踪丢失概率;每次桌面接触后的球体状态注入独立高斯扰动。这些机制确保模型学会在非理想观测下进行动态调整。
3. 从抽象动作域到高频物理执行的非对称控制架构
[图片占位] 扩展图1:32 ms周期内的状态观测与动作计算时序
Ace放弃了人工设定的启发式击球点搜寻,采用端到端深度强化学习结合优化控制的混合体系。
非对称Soft Actor-Critic (SAC) 架构是该控制系统的核心。Critic在训练期接收物理引擎的完美真值用于精确计算价值函数;Actor仅能观测带噪声、延迟和丢帧的时序传感器数据。这一非对称设计让Actor学会在不完美感知下输出最佳动作,且训练目标中附加了一个隐层表征还原真值的辅助重建损失。
输入状态st由三部分组成:球体位置与自转的历史序列stball;机器人前一轨迹段终点处的前瞻运动学状态strobot;以及技能调节向量stskill,包含期望落点(ydesired)与奖励权重(wreward)。通过随机化这组权重,模型能够将落点意图与回球旋转属性融合。奖励函数分为三层:未触球受重罚(Rmiss);触球但未合法回击受中等惩罚(Rhit);成功回击则按落点距离计算正向密集奖励。
训练阶段的数据增强包括三种机制:沿场区中轴线的对称增强;事件重放表(Event tables)通过启发式规则标记”差之毫厘的未命中”、”高速回球”等关键节点进行分层采样;后见之明经验回放(Hindsight Experience Replay)将失败回合的实际落点假定为目标,生成正样本反馈,加速空间定位技能的收敛。
|
|
|
|
|
|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
安全约束与轨迹最优化:由于强化学习策略容易产生不可实现的奇异运动,Ace引入了映射算法结合MPC的底层执行机制。策略输出的动作at是抽象向量,映射算法将其平滑转换至32 ms后的关节速度-位置控制空间,并严格约束在”最大控制不变集”内——即从该点出发,机器人始终存在避免碰撞的可行解。映射结果作为终端约束节点提交给DAQP二次规划求解器,以1 kHz频率实时计算满足动力学边界且使加加速度(Jerk)最小化的三次样条轨迹段。
并发重置与极限避障:每帧推演正常动作的同时,一个并行的近时间最优MPC运动规划器会同步计算”重置轨迹”,将机械臂从终止点引导回高灵活度的预备姿态。一旦底层接口检测到即将执行的轨迹会与球台或自身碰撞,系统立即放弃强化学习指令,启动上一帧的安全重置轨迹。这种并行冗余确保了机器人在复杂对抗下的物理安全。系统还利用KD树搜索精英选手比赛数据集,根据当前球体轨迹与预测落点推算最优重置姿态。
4. 启发式发球模块与策略采样
为遵守ITTF规则,Ace通过末端执行器的球杯执行规范的单臂发球(规则允许有生理阻碍的球员单臂发球)。发球动作被拆解为两个离散环节:
重定向抛球:采集人类选手发球动作轨迹,利用逆向运动学重定向到机械臂关节约束中。当杯中球体的向下加速度达到重力加速度阈值时(tlift),定义为球体释放点。
遗传算法(GA)优化挥击:挥击动作在仿真器内通过GA离线搜索,最大化覆盖出球速度、落点深度与自旋的健身函数。仿真参数需在实体物理台上进行至少20次开环验证;失误率低于5%的发球进入”固定发球库”;略高于此线的尝试引入闭环MPC校正,合格后列入动态发球库。
比赛中,Ace预载了多个针对不同目标优化的策略网络。每回合开始前,系统通过监督学习训练的胜率预测模型或针对球风制定的启发式规则,动态从策略库中抽样调用最佳子策略。
5. 硬件设计与实战数据评估
定制硬件参数:团队设计了一套包含8个自由度(2个棱柱关节负责底盘横纵移动,6个旋转关节负责手臂挥击与姿态)的特种机械臂。连杆经拓扑优化剥离冗余质量,采用Scalmalloy高性能铝合金增材制造。底层执行器以1 ms间隔时间同步,极速运动下的位置跟踪延迟压缩至5 ms以下。球拍使用VICTAS ZX-GEAR OUT底板搭配Butterfly Dignics 05(2.1 mm海绵)套胶,符合商业级职业配置。


图3 b/c/d/e/f/g:得分球落点分布、回球率、出球速度与自转分布
论文图3的数据全景:左图人类靠强攻得分(红色密集区),右图Ace靠落点与旋转多样性得分;箱型图显示Ace的”得分球”与”过渡回球”分布几乎一致。
对抗设置:2025年4月,Ace与5位接受过10年以上训练(周训练≥20小时)的精英选手进行五局三胜制比赛,并与两位T.League现役职业选手进行七局四胜制较量。所有比赛均由JTTA执牌裁判临场执法。
超宽域旋转抗性:Ace显著超过先前最佳系统报告的基线值。在0–450 rad/s的旋转区间内(包括上旋、下旋与侧旋),其回球成功率稳定在75%以上,最高生成反击自转600 rad/s。
极限速度控制:系统可稳定回击14 m/s以下的来球,机器端最大出球速度16.4 m/s。人类选手的极限杀球速度可达19.6 m/s,但Ace的回球速度分布更均匀。
基于一致性的取胜方式(最值得关注的发现):缺口箱型图显示,人类选手的”得分球”速度与自转中位数显著高于其常规”过渡回球”(Welch’s t检验P < 0.001),即人类依赖突然的爆发与质量提升获取比分。相反,Ace生成的”得分球”与”过渡回球”在速度与自转分布上无统计学显著差异(P = 0.88)。系统赢分并非依靠突破物理极限的强攻,而是依赖极高的击球一致性——它将平均回合长度从人类比赛的3.9次拉长至5.0次,通过稳定的防御和多变的角度压迫消耗对手。
边缘情境的敏捷性:论文图4展示了一个罕见但极具说服力的场景——来球擦网导致轨迹突变,原本的预测失效,但系统在短短49 ms内重新生成了截然不同的安全回击关节轨迹。这类无法在仿真中大量覆盖的长尾场景被成功化解,证明了底层并发重置机制与高频重规划引擎在现实干扰下的可靠性。在发球得分上,Ace使用15种不同发球类型对精英选手斩获16个直接得分(”Aces”),而所有人类选手合计仅获8个。
🚀商业与落地猜想
Ace不止是受限规则下的实验室胜利。其解耦感知模块、压缩运算延迟以及Sim-to-Real训练管线的整套架构,在多个领域具有迁移价值。
1. 体育训练辅助与赛事转播数据化
传统陪练机器人仅能发射预设角度的固定球,缺乏动态博弈能力。Ace通过导入特定对手的历史比赛数据特征生成风格化策略权重,理论上可作为顶级俱乐部的”影子对抗系统”——例如配置一个偏好压制反手下旋的系统分身,进行高强度专项训练,弥补真人陪练资源稀缺且易疲劳的问题。
系统中的GCS(IMX636凝视模块)是一项独立性较强的技术资产,可剥离后授权给体育转播机构。当前赛事转播仅能提供粗糙的球速数据,而该系统能以400–700 Hz输出带极低误差(24.8 rad/s)的微观旋转参数与3D落点深度,实时转化为AR图层覆盖直播画面,能够直观呈现专业选手的旋转战术意图。
2. 泛机器人与工业制造的迁移价值
乒乓球对抗本质上是对不可预知性的极端实验。Sony AI在此过程中验证的”无模型强化学习+底层防碰撞最优化轨迹执行(MPC)”范式,对工业界”柔性智能制造”具有迁移价值。在此之前,传统工业机械臂只能在隔离笼内执行硬编码轨迹。若将Ace的技术迁移至高节拍物流分拣或动态人机协作(HRC)流水线,智能体能够在全速运行下实时捕捉意外入侵的肢体或异物,并如同处理”擦网变线球”一般,在毫秒级时间窗(49 ms)内动态规避并继续执行任务,为高速人机协作的安全性提供新的技术思路。这与Sony AI此前在Gran Turismo中验证的GT Sophy强化学习范式一脉相承——都指向跨界泛化能力对处理非分布物理干扰的核心作用。
💬延伸讨论
长久以来,机器人领域的人机交互边界往往建立在”物理隔离”与”速度降维”之上。机器人在面对带有摩擦力、空气阻尼和人类主动施加的对抗性干扰时,传统解析学派常因算力膨胀陷入规划停滞。
Ace的成功提供了一个具身智能(Embodied AI)的代表性锚点。通过非对称的训练环境(仿真器输入真值指导,现实端处理高不确定性噪声),以及系统级硬件兜底重置控制逻辑,研究证实了智能系统可以在保持算力效率的前提下,在物理世界的极限反应区安全运作并取得优势。该成果超越了一场”乒乓球人机大战”——其长期价值在于为构建未来能在复杂人类社会中自主行走、快速预判并安全共存的通用机器人提供了一组可参考的工程模板。
论文中引用了1992年奥运参赛选手中村钦次郎在观察Ace击球后的感想:“……没人能做到这种击球。我以前不认为这是可能的。但既然它做到了……那就意味着人类也有可能做到。” 当机器开始重新定义人类技艺的边界时,最有趣的或许并不是”AI是否会超越人类”,而是它将引导人类走向何种新的可能。
原文地址:https://www.nature.com/articles/s41586-026-10338-5

欢迎体育人共建AI Agent生态



夜雨聆风