从音视频通话到对话式 AI!声网:10 年积淀,赋能 20 余行业实时互动升级

FAIR plus 2026

声网

声网成立于2014年，是全球实时音视频云服务开创者，为人与人、人与 Agent、Agent 与 Agent 的多模态实时交互提供最佳体验。

声网成立于2014年，是全球实时音视频云服务开创者，为人与人、人与 Agent、Agent 与 Agent 的多模态实时交互提供最佳体验。开发者只需简单调用声网 API，即可在应用内构建诸如对话式 AI、音视频通话、直播等多种实时互动场景。声网 API 已赋能 AI、社交直播、教育、游戏、IoT、金融、医疗、企业协作等20余行业，共计200多种场景。

2020年6月26日，声网母公司 Agora Inc. 成功登陆纳斯达克，股票代码为“API”。截至2025年12月31日，声网全球注册应用数超过100万。2025年全年服务超1万亿分钟。

声网推出了全球首个对话式 AI 引擎，以赋能开发者基于任何大语言模型构建实时语音对话体验。创造了全球首个、迄今为止规模最大的实时音视频网络——软件定义实时网 SD-RTN™。

声网的技术服务覆盖全球 200 多个国家和地区，客户包括小米、陌陌、斗鱼、哔哩哔哩、小红书、Yalla等巨头、独角兽及创业企业；声网的技术同样被HTC VIVE 、The Meet Group、Bunch等遍布全球的知名企业采用。

声网

核心业务

1、声网平行操控解决方案

声网平行操控解决方案是面向无人驾驶、机器人远程操控等场景的实时音视频与信令传输解决方案。该方案基于声网自建的全球实时互联网SD-RTN™，提供从设备端到操控端的全链路超低延时传输能力，支持音视频实时回传与远程控制指令同步下发。

产品核心亮点包括：

● 自研流媒体传输协议AUT支持多网卡Multipath融合技术，有效应对公网移动网络不稳定导致的卡顿与延迟问题；

● QoS分级保障机制与智能路由调度算法，可针对同城及跨区传输场景实现差异化的超低延时传输策略；

● 设备端支持车规级GMSL摄像头硬件采集与H264/H265硬件编码，操控端支持多平台兼容适配。

主要应用行业涵盖自动驾驶（无人配送车、无人矿车、无人清扫车）、工业机器人远程操控、港口无人集卡、云赛车娱乐、无人机远程服务等。声网覆盖全球200多个国家和地区，服务47.5万以上注册应用，单月通话分钟数超900亿，是全球领先的RTE-PaaS实时互动平台。

性能特点：

端到端视频延时：实验室环境P95延时175ms，4G路测弱网环境延时低至100ms、P95为180ms

抗弱网能力：抗丢包边界达60%；20%丢包+50ms网络抖动下，100ms卡顿率<0.1%；无主动弱网时100ms卡顿率<0.01%

信令传输：基于RTM实时云信令，全球超低延迟消息送达，70%丢包情况下消息到达率100%

网络覆盖：全球200+国家和地区，全球端到端延时中位数76ms，优质传输率>99%

服务可用性：99.99%全球高可用，连续八年无全网事故，99.9%全年可用时间

编解码支持：设备端H264/H265硬编，操控端H265硬解，支持多路摄像头同时推流

多网卡融合：基于AUT-Multipath协议，支持动态切换模式和冗余模式，纯软件方案无需额外硬件

平台兼容：设备端支持Linux、Android（适配Nvidia Jetson Xavier/Orin系列）；操控端支持Linux、Android、Web、Windows、iOS、Mac

竞争优势：

与传统WebRTC方案相比：声网自研SD-RTN™全球实时网络替代公共互联网转发，具备智能路由调度和QoS分级保障机制，同城场景可通过同节点转发实现极致低延时，传统方案依赖STUN/TURN中继无法保证延时稳定性

与专线方案相比：声网方案基于公网部署，通过Multipath多网卡融合实现接近专线的可靠性，但成本远低于物理专线，且部署灵活不受地理限制，覆盖全球200+国家和地区

与竞品RTC厂商相比：声网针对平行操控场景做了深度端到端全链路优化，包括设备端采集编码优化、传输层Multipath和QoS保障、操控端Native深度渲染优化，并经过千小时实际4G/5G路测数据验证调优，非通用RTC方案可比

信令同步优势：声网同时提供RTC音视频通道和RTM信令通道，两者共享SD-RTN™网络和AUT-Multipath技术，确保操控指令与视频画面高度同步，避免传统方案中音视频和控制信令走不同链路造成的同步偏差

应用场景：

自动驾驶/无人车辆：无人配送车（末端物流最后一公里配送）、无人矿车（矿井远程脱困与调度监控）、港口无人集卡、机场无人接驳车、无人清扫车

工业作业：高空作业机器人远程操控、无人挖掘机远程操控、工业机器人远程协作

娱乐/消费：云赛车（远程实时操控赛车体验）、无人机远程飞行服务

智慧交通：远程驾驶应急接管、车辆远程调度监控

2. 声网 R2对话式AI机器人开发套件

R2对话式AI机器人开发套件是声网推出的面向桌面机器人和情感陪伴机器人的一体化解决方案。该套件在继承R1系列全双工对话、背景降噪、智能打断等实时AI语音交互能力的基础上，新增了本地视觉识别与多自由度运动控制功能，实现了从"能听会说"到"能看会动"的关键跨越。

产品介绍：R2套件，集成了强大的NPU与ISP，提供完整的端侧多模态AI解决方案。它能够实现声源定位、人脸跟踪、手势识别、物体跟随等复杂视觉功能，并结合多自由度运动控制，让机器人实现"走到用户面前打招呼"、"转头注视说话者"等富有生命感的情感化肢体交互。

产品亮点：

● 多模态交互：融合语音、视觉、运动控制三大能力

● 情感化设计：通过视觉注视和肢体动作建立情感连接

● 全场景适配：一套基座赋能教育陪伴、办公协作、家居交互、穿戴记录等多元场景

● 快速开发：提供一站式"交钥匙"方案，大幅缩短产品化路径

主要应用场景：桌面情感机器人、智能学习助手、会议助理、家庭视觉中控、轻量AI记录仪等。

核心性能：

●R2全场景AI机器人开发套件在技术性能上实现了多项突破。在语音交互方面，完整继承了R1系列的业界领先能力，包括全双工对话、背景降噪、流畅打断等实时AI语音交互技术，对话延迟最低可达650ms，打断响应低至340ms，拥有近乎真人般的对话响应速度与节奏。在复杂环境下能够屏蔽95%的环境人声及噪声干扰，实现对话人声的精准识别。

●在视觉能力方面，依托强大的集成NPU与ISP，R2新增本地视觉识别与处理能力，支持人脸跟踪、手势识别、物体跟随等功能。视觉处理延迟控制在毫秒级，能够实时识别并响应视觉指令。

●运动控制方面，支持多自由度精确控制，结合视觉与语音功能，实现"走到用户面前打招呼"、"转头注视说话者"等富有生命感的情感化肢体交互。

●套件采用低功耗设计方案，支持超长待机，有效解决设备续航焦虑。同时支持47种语言，通过调用海外部署的服务器实现低延时响应，实时完成多语言转换与内容输出。开发效率方面，仅需1小时即可跑通 Demo，1天完成产品原型送样，极大地缩短了产品开发周期。

竞争优势：

与同行相比，R2开发套件具有以下核心竞争优势：

技术完整性：业内首个将"语音+视觉+运动控制"三合一的桌面机器人全栈式解决方案，而多数竞争对手仅提供单一语音或视觉模块。

情感交互深度：通过"被看见"和"被注视"的体验设计，将人机交互从"命令-响应"的机械流程推进到"感知-共鸣"的情感层面，这在同类产品中具有独创性。

开发效率优势：提供一站式"交钥匙"方案，企业开发周期从数月缩短至数天，而传统方案需要整合多方技术供应商。

场景适应性：一套基座适配教育陪伴、办公协作、家居交互、穿戴记录等多元场景，而竞品多针对单一场景优化。

应用场景：

教育、陪伴场景、办公协作场景、家居交互场景、穿戴记录场景、情感陪伴设备、 AI玩具领域。

目前，声网已计划参展2026年4月22日在深圳福田启幕的“机器人全产业链接会FAIR plus 2026”。更多有关声网的技术、产品及参展消息，欢迎关注“机器人全产业链接会FAIR plus”公众号。

FAIR plus 2026

“FAIR plus 2026”亮点抢先看

01. 全产业链召集

面向多元应用场景，以机电模组、控制算法、整机集成等产业链关键环节为核心抓手，构建集开发与制造于一体的一站式综合服务平台，推动产业链各环节协同创新、赋能产业升级。

02. 产业链协同创新

以场景为牵引、企业为主导，20 +闭门对接会聚焦具身智能等前沿领域，联动各行业标杆企业，打通“技术突破 - 场景落地”快车道，让创新成果加速变身为新质生产力！

03. 技术社区共建

开源沙龙、生态召集会、标准研讨会轮番登场！技术大牛面对面拆解机器人开源方案，政企研共筑社区生态，用标准护航行业升级，是开发者不容错过的交流盛宴！

04. 国际合作新角色

树立中国在机器人产业全球市场中的新角色。

角色1：基于中国机器人上游产业链，为全球机器人新玩家提供硬件开发套件；

角色2：基于人形机器人等新品类整机产品，为全球人工智能新玩家提供验证平台。

参展咨询

吴老师 13714046516（微信同号）

唐老师 13691693966（微信同号）

吴老师 13691781022（微信同号）

观展咨询

康老师 15095374032（微信同号）

商务合作咨询

王老师 13066938014（微信同号）

媒体合作咨询

陈老师 15015804932（微信同号）

END

“码”上关注 FAIR plus

欢迎分享、点赞