AI 周报 · 本周最值得关注的 5 个 AI 大事件

🔥 本周最热

AI 周报 · 本周最值得关注的 5 个 AI 大事件

第 84 期 · 2026.04.23 · 深度解读

AI科技前线

每周精选 AI 领域深度报道

2026.04.23第 84 期

📊 本周 AI 行业数据速览

ChatGPT 全球周活

4.2 亿

↑ 12% 较上周

AI 领域融资总额

$14.3 亿

↑ 38% 环比

H100 GPU 均价

$28,500

↓ 5.2% 月降

AI 相关岗位增长

+186%

↑ 年同比

🤖 大模型🎬 AI视频🚗 自动驾驶💰 AI融资📱 AI应用

OpenAI 发布 GPT-5，多模态推理能力实现质的飞跃

北京时间4月22日凌晨，OpenAI 在旧金山总部举行发布会，正式推出新一代旗舰大语言模型 GPT-5。这距离 GPT-4 Turbo 的发布已过去超过一年半，也是 OpenAI 自成立至今最重要的一次模型更新。发布会现场，Sam Altman 用一句”这是我们做过的最难的事”开场，随后展示了 GPT-5 在多个维度的突破性表现。

据 OpenAI CEO Sam Altman 介绍，GPT-5 在训练架构上进行了根本性的重构，采用了全新的混合专家（MoE）框架，总参数量达到万亿级别，但单次推理激活参数仅为数百亿，这意味着 GPT-5 在保持强大能力的同时，推理成本并未出现指数级增长。模型训练数据覆盖了超过 15 万亿 token 的多模态语料，包含文本、图像、音频、视频和代码等多种数据类型。与前代模型不同，GPT-5 不再需要针对不同模态分别调用专门的模型，而是原生理解所有模态，可以在同一个对话中无缝切换文字、图片和视频分析。

在推理能力方面，GPT-5 展现出了令人印象深刻的”思维链”深度。OpenAI 研究主管 Mark Chen 现场演示了一个复杂的商业案例分析——给模型一份 200 页的上市公司财报、行业研报和宏观经济数据，GPT-5 在 47 秒内完成阅读、交叉比对分析，并输出了包含财务健康度评估、竞争格局研判和投资风险提示的完整报告。多位在场分析师评价其推理质量”已接近 junior 级别投资顾问的水平”。

基准测试GPT-4GPT-5提升

MMLU86.4%92.3%+5.9pp

HumanEval67.0%91.7%+24.7pp

MATH-50052.9%88.1%+35.2pp

MMLU-Pro63.7%82.4%+18.7pp

💡 值得关注的是，GPT-5 原生支持实时视频理解能力，可对长达 1 小时的视频进行精准分析、摘要和信息提取。在现场演示中，GPT-5 准确识别了一段 45 分钟医学手术视频中关键步骤，并标注了潜在风险点。这一能力被视为 AI 从”文本智能”向”全模态智能”跃迁的关键里程碑。

在行业影响层面，GPT-5 的发布已经引发连锁反应。Google 在发布会后 48 小时内宣布加速 Gemini Ultra 2.0 的发布计划；Anthropic 则表示 Claude 4 将在”数周内”面世。国内方面，百度、阿里、字节跳动等企业也纷纷表态将加快大模型迭代节奏。分析师普遍认为，GPT-5 树立了新的行业标杆，2026 年下半年将迎来全球大模型的密集竞赛期。

2020.06 — GPT-3 发布，1750 亿参数

2023.03 — GPT-4 发布，首次多模态

2024.04 — GPT-4 Turbo，128K 上下文

2026.04 — GPT-5，万亿参数全模态

❝

大模型的能力提升正在边际递减，真正的竞争焦点正在从”谁的模型更强”转向”谁的应用场景更落地”。

—— 某头部 AI 研究机构分析师

OpenAI 同时宣布了 API 定价调整策略。GPT-5 的输入价格为每百万 token 5 美元，输出价格为每百万 token 15 美元，与 GPT-4 Turbo 相比下降了约 60%。这一大幅降价被视为 OpenAI 扩大开发者生态的战略举措——更低的使用门槛将吸引更多企业级客户将核心业务迁移至 GPT-5 平台。目前 ChatGPT Plus 和 Team 用户已可使用 GPT-5，Enterprise 用户将于下周开放，免费用户则将在 5 月底逐步获得访问权限。

来源：OpenAI 官方博客 · Reuters · The Verge

Sora 2.0 正式上线，AI 视频生成进入”电影级”时代

继 GPT-5 发布仅两天后，OpenAI 又放出重磅炸弹——Sora 2.0 正式面向全球用户开放。这款 AI 视频生成模型自去年 2 月首次亮相以来，一直备受影视行业和内容创作者的关注。初代 Sora 虽然在概念上令人惊艳，但生成时长短、物理一致性差、分辨率有限等问题也招致了不少批评。Sora 2.0 可以说是 OpenAI 对这些质疑的全面回应。

Sora 2.0 支持最高 4K 分辨率、60fps 帧率，单次可生成最长 2 分钟的连贯视频。与初代版本相比，新版本在物理规律模拟方面有了巨大进步——水流的折射、光线的反射、布料的褶皱、角色的微表情等细节都更加符合真实世界的物理规则。OpenAI 技术负责人 Bill Peebles 在演示中展示了同一个场景用 Sora 1.0 和 2.0 生成的对比：一段城市雨景中，1.0 版本的水滴落地后出现了不自然的弹跳，而 2.0 版本则准确还原了水花飞溅后沿路面流淌的效果。

在内容创作层面，Sora 2.0 引入了「导演模式」——用户可以通过自然语言精确控制镜头运动（推、拉、摇、移）、角色动作、场景切换和灯光变化。例如输入”镜头从水面缓慢上升，航拍城市夜景，霓虹灯在雨中倒映，最后定格在一栋写字楼的天台上”，Sora 2.0 就能生成一段电影级质感的航拍镜头。这一功能直接对标了 Runway Gen-3 和 Pika 的专业模式，但在画面一致性和物理准确性上明显领先。

规格参数Sora 1.0Sora 2.0

最高分辨率1080p4K

帧率24fps60fps

单次最长时长60 秒2 分钟

导演模式✗✓

🎬 多位好莱坞导演已在私人测试中使用 Sora 2.0 完成分镜预览和概念短片制作。导演 Christopher Nolan 在接受采访时表示：”它不是来取代摄影机的，但它是最好的分镜工具。”预计到 2026 年底，全球将有超过 30% 的商业广告涉及 AI 辅助制作。

国内视频生成赛道也因此受到强烈震动。快手可灵、字节跳动 PixelDance 等国产模型团队迅速表态将在一个月内推出对标 4K 能力的版本。一位不愿具名的国内 AI 视频创业者表示：”Sora 2.0 的导演模式让我们之前的很多技术方案都变得落后了，需要重新评估技术路线。”但也有人指出，在中文内容理解和中国风审美方面，国产模型仍有一定本土优势。

❝

Sora 2.0 不是要取代电影创作者，而是给每个有故事的人一个摄影棚。

—— Sam Altman，OpenAI CEO

Sora 2.0 将采取分级付费策略：免费用户可生成 720p/15fps/10秒视频；Plus 用户（月费 20 美元）可生成 1080p/30fps/30秒视频；Pro 用户（月费 200 美元）可使用完整 4K/60fps/2分钟能力。OpenAI 还同步推出了「Sora Studio」协作平台，支持团队协同编辑、素材库管理和版本控制，目标直接瞄准专业影视制作团队。

来源：OpenAI · The Verge · Variety · 36氪

百度 Apollo 获准北京全无人驾驶出租车商业化运营

4月20日，北京市自动驾驶工作办公室正式向 百度 Apollo 颁发全无人驾驶出租车（Robotaxi）商业化运营牌照。百度成为国内首家在超大城市核心区域实现”去安全员”商业化运营的自动驾驶企业。这张牌照的含金量极高——它不是限定在封闭测试场或偏远郊区，而是覆盖了北京亦庄、中关村、顺义空港等真实城市核心区域，运营面积达到约 500 平方公里。

根据许可范围，百度 Apollo 的无人驾驶出租车目前可在北京亦庄、中关村、顺义空港共约 500 平方公里范围内提供 24 小时不间断运营服务。此次获批的商业化牌照允许车辆完全无安全员，真正实现车内零人类干预。这意味着乘客上车后，车辆从起点到终点全程由 AI 系统自主决策——包括变道、超车、避让行人、应对施工路段等复杂场景。

Apollo 的第六代无人车搭载了百度自研的Apollo RT6 平台，配备 38 个传感器（含 6 个激光雷达、12 个摄像头、6 个毫米波雷达和 14 个超声波雷达），算力平台使用 4 颗 NVIDIA Orin 芯片，总算力达到 1008 TOPS。百度自动驾驶事业群负责人王云鹏透露，过去一年 Apollo 在北京完成了超过 200 万公里的道路测试，处理了超过 5 万个”长尾场景”——这些是日常驾驶中最难应对的极端情况，如突然闯入的施工人员、暴雨中的信号灯识别、被大货车遮挡的行人横穿等。

运营指标数据

日均完单量5,000+ 单

平均接驾时间约 5 分钟

乘客满意度4.8 / 5.0

安全行驶里程2,000万+ km

📊 百度公布了激进的城市扩张计划：2026 年底扩展至北京五环内全域，覆盖约 1,500 平方公里；2027 年底覆盖全国 15 个以上主要城市，运营车辆规模达到 5 万台。按目前单车日均 15 单计算，届时日服务量将突破 75 万单。

这一进展也对全球自动驾驶竞赛格局产生了影响。Waymo 目前在旧金山、凤凰城和洛杉矶运营，日均约 2 万单；Cruise 仍在从去年事故中恢复。百度 Apollo 在北京的日均 5,000 单虽然体量尚小，但增长速度惊人——较半年前翻了 5 倍。更重要的是，中国复杂的城市交通环境（高密度人流、电动车混行、施工频繁）为自动驾驶系统提供了远比美国更严苛的训练场景。

❝

全无人驾驶不是未来的事，是今天的事。这是中国自动驾驶产业的一个历史性时刻。

—— 李彦宏，百度创始人兼CEO

然而挑战依然存在。乘客对无人车的信任度仍需时间建立，极端天气下的可靠性也有待验证。此外，无人驾驶出租车的大规模推广还将冲击传统出租车和网约车行业。据麦肯锡预测，到 2030 年全球自动驾驶出行服务市场规模将达到 2 万亿美元，中国将占据其中约 30% 的份额。

来源：百度官方 · 新华社 · 36氪

月之暗面 Kimi 完成 10 亿美元融资，估值突破 30 亿

国产大模型独角兽月之暗面（Moonshot AI）宣布完成 10 亿美元 B 轮融资，由阿里巴巴领投，腾讯、红杉中国、高瓴创投等跟投。本轮融资后投后估值达到 33 亿美元，一举成为中国估值最高的大模型创企。这笔融资也是 2026 年以来全球 AI 领域最大的一笔单轮融资。

月之暗面由前清华学霸杨植麟于 2023 年创立，核心团队来自清华大学、卡内基梅隆大学和 Google Brain 等顶尖机构。旗下核心产品 Kimi 智能助手自上线以来增长迅猛——累计注册用户超 8000 万，月活约 2500 万，日对话量峰值突破 1 亿次。Kimi 最大的差异化优势在于其超长上下文处理能力，最初支持 20 万字上下文窗口，现已扩展至 200 万字，远超 ChatGPT 的 128K。这意味着用户可以将整本书、大量论文或完整的代码库一次性喂给 Kimi 进行分析。

值得关注的是本轮融资的股东结构。阿里巴巴作为领投方投入约 4 亿美元，腾讯以 2 亿美元跟投——两大互联网巨头同时出现在同一家 AI 创企的股东名单中，在中国科技投资史上极为罕见。此前阿里和腾讯在多个赛道互为对手，极少联合投资。分析人士认为，这反映了在 AI 大模型这一战略级赛道上，巨头们选择了”不押单注”的策略——通过广泛布局来确保不踏空任何可能的技术路线。

融资轮次金额投资方

天使轮$5000万红杉中国

A 轮$2 亿阿里、美团

B 轮$10 亿阿里领投、腾讯等

💰 10 亿美元的资金将主要用于三个方向：一是训练下一代千亿参数模型 Kimi-3（预计年底发布）；二是扩展企业级应用市场，已与多家银行和律所达成合作；三是在香港和新加坡设立海外研发中心。杨植麟在内部信中表示，月之暗面的目标是”成为中国第一个实现正向盈利的大模型公司”。

但高昂的估值也引发了市场对商业化能力的质疑。Kimi 目前仍然免费使用，To C 端尚未实现规模收入。To B 端的企业级 API 服务虽有起色，但单客户客单价仍在万元级别，距离支撑 33 亿美元估值所需的营收规模还有很长距离。业内普遍认为，月之暗面需要在 12-18 个月内跑通可复制的商业化路径。

❝

大模型赛道还远未到确定赢家的时候，33 亿美元估值对应的预期很高，商业化落地才是真正的考验。

—— 某头部美元基金投资人

放眼全球 AI 融资格局，中国正在快速追赶美国。整个 2026 年一季度，国内 AI 领域融资总额已超过 50 亿美元，创下历史新高。其中月之暗面、智谱AI、Minimax、百川智能四家大模型创企合计贡献了超过 30 亿美元。而美国同期的 AI 融资约为 120 亿美元，差距正在缩小。

来源：36氪 · Bloomberg · 财经杂志

苹果发布 iOS 20，Siri 全面接入大模型智能

苹果公司正式推出 iOS 20 操作系统，其中最受瞩目的更新莫过于 Siri 的全面进化——从”语音遥控器”蜕变为真正的”AI 智能助理”。苹果软件工程高级副总裁 Craig Federighi 在发布会上直言不讳地承认：”过去几年 Siri 确实落后了，但今天我们重新定义了它。”这一表态在业内引发了广泛讨论——苹果终于不再回避 AI 领域的竞争劣势。

升级后的 Siri 基于 Apple 自研的 Apple Foundation Model（AFM），这是一个拥有约 300 亿参数的端侧大模型，专为移动设备优化。AFM 与云端的更大模型协同工作——简单任务在端侧完成以保证速度和隐私，复杂任务则调用云端模型处理。苹果特别强调了隐私优先的设计理念：所有端侧处理的数据不离开设备，云端处理采用”私密云计算”技术，确保连苹果自己也无法访问用户数据。

能力维度具体内容

🧠 语义理解理解复杂多轮指令

🔗 跨应用操作操控 2000+ App

👁️ 屏幕理解实时读取屏幕内容

🧩 多模态交互文字+语音+图片混合

📱 苹果展示了 Siri 最具杀伤力的独家能力——「屏幕理解」。在演示中，用户拍了一张餐厅菜单照片说”帮我推荐适合减肥吃的菜”，Siri 不仅识别了菜品名称和价格，还结合用户的 Apple Health 健康数据（每日卡路里摄入、过敏原记录），给出了三道菜的个性化推荐并说明了理由。另一个演示场景中，用户对着一份 PDF 合同说”帮我找找有没有霸王条款”，Siri 逐条分析了合同内容并高亮了三个潜在风险点。

在跨应用操作方面，新版 Siri 可以在不打开 App 的情况下直接完成任务。例如说”把昨天在上海拍的照片发给妈妈”，Siri 会自动打开相册筛选照片、打开微信找到联系人、完成发送——全程不需要用户手动操作任何界面。苹果表示目前已有超过 2000 个 App 接入了 Siri 的 App Intents API，覆盖社交、邮件、日历、地图、支付等主流场景。

❝

苹果可能不是大模型技术的引领者，但它拥有 20 亿台活跃 iOS 设备的生态优势。当 AI 能力成为操作系统的基础设施时，分发优势比技术优势更重要。

—— Toni Sacconaghi，Bernstein 高级分析师

iOS 20 支持 iPhone 14 及以上机型，部分高级功能需 iPhone 15 Pro 及以上。苹果强调所有 Apple Intelligence 处理均在端侧完成，充分保障隐私安全。正式版将于 5 月中旬推送，届时全球超过 10 亿台 iPhone 将获得 AI 升级——这可能是人类历史上最大规模的 AI 技术一次性部署。

来源：Apple 官方 · TechCrunch · The Verge