乐于分享
好东西不私藏

AI 编程助手 Factory 估值达 15 亿美元 / AI 或将颠覆好莱坞:用 1 亿拍 50 部电影 / Meta 因内存芯片涨价上调 Quest 3 系列售价

AI 编程助手 Factory 估值达 15 亿美元 / AI 或将颠覆好莱坞:用 1 亿拍 50 部电影 / Meta 因内存芯片涨价上调 Quest 3 系列售价

💻 AI 编程助手 Factory 估值达 15 亿美元

🎬 Luma 联手 Wonder Project 推出 AI 制片工作室

🚀 Upscale AI 拟以 20 亿美元估值融资

🤖 机器人学会举一反三,完成未训练任务

💳 青少年创立的金融科技 Slash 融资 1 亿美元,估值 14 亿

💻 OpenAI 升级 Codex,桌面端 AI 助手能力大增

💻 Anthropic CPO 退出 Figma 董事会,或推竞争产品

🛑 Bluesky 服务持续中断,疑遭 DDoS 攻击

💻 Google AI 模式新增网页并排浏览功能

🔍 InsightFinder 获 1500 万美元融资,助企业定位 AI 故障根源

🤖 Roblox AI 助手升级,可规划、构建并测试游戏

🤖 Gemini 个人智能新增个性化图像生成功能

🚀 Google 用 AI 精准拦截违规广告

🎬 AI 或将颠覆好莱坞:用 1 亿拍 50 部电影

💸 Meta 因内存芯片涨价上调 Quest 3 系列售价

🤖 Canva AI 助手升级,可调用工具自动设计

🤖 仿真初创公司 Antioch:要做物理 AI 的“Cursor”

🗣️ DeepL 推出实时语音翻译套件

💻 AI 编程助手 Factory 估值达 15 亿美元

生成式 AI 兴起已三年有余,AI 辅助编程至今仍是该技术最受欢迎且最具商业价值的应用场景。尽管 Anthropic、Cursor 和 Cognition 等多家公司已在这一领域展开激烈竞争,但投资者们认为市场仍有空间容纳新的参与者。本周三,专注于为企业工程团队开发 AI 智能体的初创公司 Factory 宣布完成 1.5 亿美元融资,估值达到 15 亿美元。此轮融资由 Khosla Ventures 领投,红杉资本、Insight Partners 和黑石集团参与投资。Khosla Ventures 的董事总经理 Keith Rabois 将加入 Factory 董事会。Factory 创始人 Matan Grinberg 向《华尔街日报》表示,公司的关键优势在于能够灵活切换不同的基础模型,例如 Anthropic 的 Claude 或中国 AI 初创公司深度求索。不过,像 Cursor 这样的初创公司也并非依赖单一模型来生成代码。Factory 的客户包括摩根士丹利、安永和 Palo Alto Networks 的工程团队。这家初创公司成立于 2023 年,源于当时还是加州大学伯克利分校博士生的 Grinberg 向红杉资本合伙人 Shaun Maguire 发送的一封自荐邮件。两人因共同的学术兴趣而结缘。Maguire 说服 Grinberg 辍学并创立 Factory,红杉资本在种子阶段就给予了支持。

🎬 Luma 联手 Wonder Project 推出 AI 制片工作室

AI 视频生成初创公司 Luma 近日宣布与专注于宗教内容的流媒体服务 Wonder Project 合作,成立了一家名为 Innovative Dreams 的制片公司。该公司的首个项目《古老的故事:摩西》将由英国演员本·金斯利主演,并于今年春季在 Prime Video 上线。Luma 表示,Innovative Dreams 旨在让经验丰富的电影制作人与 Luma 的创意技术专家合作,帮助各大工作室和创作者实现雄心勃勃的创意。Luma 设想创意团队能够实时与 Luma Agents 协作,对场景、道具和灯光进行调整,并融入真人演员的镜头。Luma Agents 是该公司近期推出的一套工具,旨在处理从文本、图像、视频到音频的端到端创意工作。公司指出,这比当前的虚拟制作和表演捕捉流程有显著改进,后者通常只能在后期制作中合成元素,而 AI 的杠杆作用不仅是更快或更便宜,还能实现比以往更好的效果。Luma 并非唯一一家从工具开发转向内容制作的初创公司。上周,AI 初创公司 Higgsfield 推出了原创剧集,首部作品为一集 10 分钟的科幻短片;伦敦的创意工作室 Wonder Studios 也正与 Campfire Studios 合作制作一部纪录片。与此同时,竞争对手 Runway 的联合创始人兼联合首席执行官克里斯托瓦尔·瓦伦苏埃拉近期建议,电影制片厂应将原本用于一部电影的 1 亿美元资金,转而利用 AI 制作 50 部电影,以增加打造爆款作品的机会。Luma 创始人兼首席执行官阿米特·贾恩持类似观点,他认为好莱坞不断飙升的制作成本限制了电影创作,而生成式 AI 可以在不牺牲质量的前提下,让电影制作更快、更便宜、更高效。这一理念正是 Luma 与 Wonder Project 新合作的基础。Wonder Project 由导演乔恩·欧文和前 Netflix 高管凯利·胡格斯特拉滕于 2023 年创立,旨在为全球信仰与价值观观众提供内容。在宣传合作关系的视频中,欧文表示 Innovative Dreams 将采用一种全新的“实时混合电影制作”流程,结合了《阿凡达》式的表演捕捉和《曼达洛人》式的虚拟制作技术,并借助 Luma 的工具实现实时、低成本的制作。表演捕捉技术让演员在绿幕环境中穿着动作捕捉服进行表演,其动作和表情被数字化捕获并转化为动画角色;虚拟制作则让演员在片场表演,通常面对巨大的 LED 屏幕而非绿幕,实时游戏引擎图形创造出周围环境,在拍摄时融合物理与数字世界。欧文指出,Luma 的工具允许他们在任何地方拍摄真人演员,然后将其置入逼真的场景中,甚至可以通过生成新面孔,让演员看起来像完全不同的人,同时仍映射其动作和面部表情。

🚀 Upscale AI 拟以 20 亿美元估值融资

据报道,AI 基础设施公司 Upscale AI 正在洽谈新一轮融资,这将是其成立仅七个月以来的第三轮融资。本轮融资目标为 1.8 亿至 2 亿美元,预计将使公司估值达到约 20 亿美元。该公司在今年 1 月宣布完成 2 亿美元 A 轮融资,去年 9 月成立时则获得了 1 亿美元种子轮融资,投资者包括 Tiger Global Management、Xora Innovation 和 Premji Invest。值得注意的是,Upscale AI 目前尚未发布任何产品。但其业务重点据称是开发定制芯片以及支持这些芯片高效通信的基础设施。公司押注于全栈解决方案和开放标准,认为这将是可扩展 AI 基础设施的未来。在当前 AI 热潮中,初创公司快速成长、估值增长更快的现象已成为常态,而市场对下一个重大突破的期待更是超越了这一切。此次传闻中的高估值和融资正是这一趋势的体现。

🤖 机器人学会举一反三,完成未训练任务

总部位于旧金山的机器人初创公司 Physical Intelligence 发布了一项新研究,其最新模型π0.7 能够指挥机器人完成从未被明确训练过的任务,这一能力甚至让公司内部的研究人员都感到意外。这项研究被视为迈向通用机器人“大脑”目标的重要一步,该模型能够理解自然语言指令,并在陌生环境中执行任务。如果这一发现经得起检验,可能意味着机器人 AI 正迎来一个类似大语言模型那样的能力拐点。该研究的核心主张是“组合泛化”能力,即模型能够将不同情境下学到的技能组合起来,解决从未遇到过的问题。这打破了以往机器人训练需要针对每个具体任务收集数据、训练专门模型的模式。联合创始人 Sergey Levine 指出,一旦模型跨越了从只会做训练数据内的事到能够以新方式重组技能的阈值,其能力增长将远超数据量的线性增长。最引人注目的演示涉及一个模型在训练中几乎从未见过的空气炸锅。研究人员发现,整个训练数据集中仅有两个相关片段,但模型却综合这些片段及更广泛的网络预训练数据,形成了对设备工作原理的功能性理解。研究人员 Lucy Shi 表示,即使没有任何指导,模型也能尝试用空气炸锅烹饪红薯;而通过逐步的语言指令,它就能成功完成任务。这种指导能力意味着机器人可以在新环境中部署,并通过实时指导改进,而无需额外收集数据或重新训练模型。研究人员也坦率承认模型的局限性。例如,它尚无法根据单一的高级指令自主执行复杂的多步骤任务,比如“去给我做些吐司”。此外,机器人领域缺乏标准化的基准测试,这使得外部验证其主张变得困难。不过,在与公司之前为特定任务训练的专用模型对比时,π0.7 在一系列复杂任务(如煮咖啡、叠衣服、组装盒子)上的表现与之相当。这项研究最值得注意的是结果令研究人员自身感到惊讶的程度。研究科学家 Ashwin Balakrishna 表示,过去几个月是他第一次真正感到惊讶,例如模型成功操作了一个随机购买的齿轮组。Levine 将此比作研究人员首次看到 GPT-2 生成关于安第斯山脉独角兽故事时的震撼。尽管批评者会指出语言模型有整个互联网可供学习,而机器人没有,但 Levine 认为,真正的泛化能力可能看起来不如精心编排的特技表演那么戏剧化,但却实用得多。公司对商业化时间表保持沉默,但已筹集超过 10 亿美元资金,估值据传正接近翻倍。

💳 青少年创立的金融科技 Slash 融资 1 亿美元,估值 14 亿

金融科技公司 Slash Financial 宣布完成 1 亿美元的 C 轮融资,估值达到 14 亿美元,本轮融资由多家知名投资机构领投。Slash 提供企业银行账户、公司信用卡、转账和加密货币服务。专注于金融科技领域的 Ribbit Capital、Khosla 和 Goodwater Capital 共同领投了此轮融资,现有投资者 NEA 和 Y Combinator 也参与了投资。据彭博社报道,Slash 大约在五年前由当时年仅 19 岁的 Victor Cardenas 和 Kevin Bai 创立,两人现已 24 岁。他们从大学辍学,最初创建了一家专注于运动鞋转卖商的金融科技公司。在其主要客户 Yeezy 因其创始人 Kanye West 的反犹太言论而陷入困境后,公司转型专注于几个特定垂直领域。如今,Slash 已发展成为一家综合性公司,不再针对单一行业。Cardenas 在关于此轮融资的博客文章中表示,公司目前拥有 5000 家企业客户,年化收入达 3 亿美元,并且已实现盈利。尽管增长迅速,Slash 仍面临激烈的市场竞争,其竞争对手包括估值 320 亿美元的 Ramp,以及最近被 Capital One 收购的 Brex。

💻 OpenAI 升级 Codex,桌面端 AI 助手能力大增

OpenAI 与 Anthropic 在 AI 编程工具领域的竞争正日趋激烈。目前,Anthropic 的 Claude Code 被许多企业视为首选工具,但 OpenAI 并未放弃追赶。本周,OpenAI 宣布对其自动化工具 Codex 进行重大升级,赋予其一系列显著增强的新能力。最引人注目的更新是,Codex 现在可以在用户电脑后台运行,直接操控桌面应用,通过模拟点击和键入的光标来执行操作。这意味着 Codex 可以部署多个代理,在用户的 Mac 上并行工作,且不会干扰用户在其他应用中的操作。它就像一个编码伙伴,在你处理核心项目时,帮你完成前端迭代、应用测试或在没有开放 API 的应用中工作等辅助任务。此次更新显示出 OpenAI 的雄心,不仅要将 Codex 打造成有竞争力的编程助手,更要使其成为一个能融入多种企业工作流程的多面手工具。值得注意的是,OpenAI 为 Codex 新增的某些能力,似乎与 Anthropic 此前为 Claude Code 发布的功能相似,例如远程控制用户电脑。除了代理工具,Codex 还新增了应用内浏览器功能,允许用户向代理工具发出指令,在特定的网页应用中执行任务。OpenAI 表示,这对前端和游戏开发很有用,并计划未来扩展该能力,让 Codex 能完全操控浏览器。其他更新还包括:预览功能“记忆”能让 Codex 回顾之前的工作会话;新增图像生成能力,可用于创建产品概念图、幻灯片视觉稿等;以及宣布了与 CodeRabbit、GitLab Issues 等 111 个应用的插件集成,让 Codex 能处理涉及这些工具的任务。通过这些插件,Codex 能完成一些整理工作生活的行政事务,例如查看 Slack 频道和 Google 日历,并为用户生成当天的待办事项列表。此外,OpenAI 还为 ChatGPT 企业和商业客户推出了新的 Codex 按量付费选项,旨在为用户提供更灵活的服务采购方式。

💻 Anthropic CPO 退出 Figma 董事会,或推竞争产品

Anthropic 首席产品官 Mike Krieger 已于 4 月 14 日辞去界面设计公司 Figma 的董事会职务。这一变动发生在有报道称 Anthropic 即将发布的新模型 Opus 4.7 将包含可能与 Figma 核心产品竞争的设计工具之后。Figma 是一家为网站和应用程序构建界面的用户体验设计师提供流行工具的公司,此前与 Anthropic 合作紧密,将后者的前沿 AI 模型集成到其产品中作为用户助手。Krieger 曾联合创立 Instagram 和 AI 驱动的新闻应用 Artifact,于 2024 年成为 Anthropic 的最高产品负责人,并在不到一年前加入 Figma 董事会。他的离职以及任何即将推出的设计工具,将成为投资者担忧“SaaS 末日”的另一个佐证——即担心大型 AI 实验室将主导软件业务,这一观点今年已多次冲击公开市场。与此同时,Anthropic 正在拒绝那些希望以 8000 亿美元估值投资该公司的投资者,这一估值是其今年初最新一轮融资估值的两倍多。然而,像 Anthropic 和 OpenAI 这样的公司仍需证明,其能力超强的模型能否真正复制成熟软件品牌的领域经验和客户关系。自 Krieger 离职的消息披露以来,Figma 的股价上涨了 5%,但下一版 Opus 模型发布后的市场反应仍有待观察。

🛑 Bluesky 服务持续中断,疑遭 DDoS 攻击

去中心化社交平台 Bluesky 的网站和应用程序在周四持续遭遇服务中断问题。公司首席运营官 Rose Wang 将此次故障归因于一次拒绝服务攻击。根据该社交网络的状态页面显示,问题始于美国东部时间周四凌晨 2 点 42 分左右,并一直持续。目前,Bluesky 的网站和应用程序时而能够缓慢加载,时而又会弹出错误信息。例如,在应用中切换到特定信息流时,会显示“此信息流当前流量过高,暂时不可用。请稍后再试。服务器消息:超出速率限制”的提示。像“发现”或官方 Bluesky 团队信息流等热门信息流都遇到了这个问题,不过用户自己的个人信息流可能仍能打开。在其他时候,比如尝试访问用户个人资料时,网站只会显示错误信息,迫使你刷新重试。Bluesky 协议工程师 Bryan Newbold 在美国东部时间凌晨 3 点 46 分左右评论道:“哎呀,我们的服务今晚受到了相当猛烈的攻击。”当被问及评论时,Bluesky 仅将我们指向其状态页面和账户以获取更新。该公司没有对故障原因或修复的预计时间发表评论。服务中断主要影响了 Bluesky 本身,但其他基于其底层去中心化协议运行自身基础设施的社区目前似乎仍在正常运作。问题一直持续到周四下午,Bluesky 的状态页面显示“正在调查我们其中一个区域的服务事件”。

💻 Google AI 模式新增网页并排浏览功能

Google 周四宣布,正在为 AI 模式推出一项新功能,允许用户在桌面版 Chrome 浏览器中并排浏览网页与 AI 对话界面。这项更新旨在让用户在保持搜索上下文的同时,更便捷地探索相关网站、对比细节并提出后续问题。例如,当你想购买一台新咖啡机时,可以在 AI 模式中描述需求并获得一系列选项。点击某个结果后,零售商的网站会与 AI 模式并排打开,此时你可以直接提问,例如“这台机器清洗起来方便吗?”AI 模式将结合当前页面及网络上的信息来回答你的问题。Google 在博客中表示,早期测试者非常喜欢这种无需频繁切换标签页就能获取帮助的体验,尤其是在浏览长篇文章或观看长视频时。他们发现,将搜索与网页并排展示有助于在探索有用网页时保持任务专注度。此外,Google 还宣布了一项新功能:允许用户在当前已打开的 Chrome 标签页中进行搜索。在桌面或移动端的 Chrome 浏览器中,点击“新标签页”或 AI 模式搜索框中的新增“+”菜单,即可选择近期标签页将其纳入搜索范围。这意味着你可以混合匹配多个标签页、图片或文件,并将这些上下文信息带入 AI 模式的搜索中。例如,如果你正在研究本地徒步路线,并且已经打开了几个相关标签页,可以将它们添加到搜索中,然后询问其他地点的类似路线。又或者,在为统计学考试复习时,你可以引入已打开的标签页、课堂笔记、讲义幻灯片等内容作为上下文,要求 AI 举例说明某个概念。这些 AI 模式的新功能目前已在美国上线,Google 计划未来将其扩展到更多地区。

🔍 InsightFinder 获 1500 万美元融资,助企业定位 AI 故障根源

随着企业快速引入和部署 AI 智能体,可观测性工具的角色再次演变。市场重心已从“追踪一切”转向“控制复杂性与成本”,而 AI 工作负载则带来了全新的监控需求。InsightFinder AI 这家基于 15 年学术研究的初创公司,正致力于解决这一新挑战。该公司自 2016 年起便利用机器学习监控、识别并主动修复 IT 基础设施问题。如今,它推出了一款 AI 智能体解决方案,旨在应对当前 AI 模型的可靠性问题,功能涵盖从问题检测、诊断到修复与预防的全流程。公司创始人兼 CEO Helen Gu 透露,近期已完成了由 Yu Galaxy 领投的 1500 万美元 B 轮融资。Gu 指出,当前行业面临的最大问题不仅是监控和诊断 AI 模型何处出错,更在于诊断整个技术栈在整合 AI 后的运行状况。她强调,要诊断 AI 模型问题,必须将数据、模型和基础设施三者结合起来监控分析,问题往往是复合性的,有时根源仅仅在于基础设施。她举例说明,其一家美国大型信用卡客户曾发现欺诈检测模型出现漂移。由于 InsightFinder 监控着客户的全部基础设施,系统成功定位到问题根源是某些服务器节点中的缓存过时。Gu 认为,最大的误解在于将 AI 可观测性局限于开发和测试阶段的 LLM 评估;相反,一个完善的平台应提供覆盖开发、评估和生产阶段的端到端反馈循环支持。InsightFinder 的最新产品“自主可靠性洞察”结合了无监督机器学习、专有大小语言模型、预测性 AI 和因果推断。该基础层与数据无关,可摄取和分析完整数据流,收集信号并进行关联与交叉验证,从而定位根本原因。尽管可观测性市场竞争激烈,涌现出 Grafana Labs、Datadog 等众多对手,但 Gu 表示并不担心。她认为,InsightFinder 的专业知识、经验和高度可定制性构成了足够的护城河。其客户名单包括 UBS、联想、戴尔、谷歌云等,成功归因于十年深耕理解大型企业客户需求。Gu 透露,公司收入流“强劲”,过去一年增长“超过三倍”。此次 B 轮融资并非主动寻求,而是在赢得一家财富 50 强客户的七位数订单后,投资者主动接洽。新资金将用于首次招聘销售和营销人员,以扩充目前不足 30 人的团队,并投资于市场推广。公司至今融资总额已达 3500 万美元。

🤖 Roblox AI 助手升级,可规划、构建并测试游戏

Roblox 正在为其平台上的开发者引入新的智能体功能,以帮助他们规划、构建和测试游戏。该公司对 Roblox Assistant 进行了全面升级,这款用于游戏开发的纯语言 AI 工具现在能辅助创作者完成整个开发流程。Roblox 认为,那些接收提示并一步输出解决方案的 AI 工具往往无法真正捕捉创作者的原始意图。因此,它推出了增强的“规划模式”,将 Assistant 转变为一个可以分析游戏代码和数据模型、提出澄清性问题、并将提示转化为可编辑行动计划的协作伙伴。规划模式帮助开发者制定游戏计划,获取反馈以完善细节,敲定方案,然后执行该计划。创作者可以在进行任何更改之前调整计划并添加上下文,以确保他们的意图被清晰体现。例如,如果创作者告诉 Assistant “创建一个有喷泉和植被、角色需要收集硬币的公园小游戏”,Assistant 可能会询问他们希望公园采用何种视觉风格,并提供卡通、写实、奇幻等选项。或者,它也可能询问创作者希望如何创建公园的资产(如喷泉和植被),提供从头构建、使用创作者商店中的模型或两者混合等选项。一旦计划制定完成,规划模式将在创建游戏时利用 Roblox 的其他 AI 工具。这些 AI 工具包括今天新发布的两项:网格生成和程序化模型生成,旨在加速开发进程。网格生成可以轻松地将完全贴图的网格或 3D 对象直接添加到游戏世界中。在开发早期,开发者通常需要创建占位符资产来理解玩家如何与世界互动。借助网格生成,创作者可以快速创建 3D 模型,而无需依赖低质量的占位符。例如,创作者可以要求 Assistant 生成一个篝火,然后添加光线使其更逼真,再将场景设置为夜晚。Roblox 也即将推出“程序化模型”,允许开发者通过代码和 Assistant 创建可编辑的 3D 模型。由于 Assistant 理解 3D 空间和物理关系,创作者可以使用提示来放置和缩放场景中基于其他对象的物体。像书架的层数或楼梯的高度等属性都可以动态调整,从而创建出可在其他地方优化和重用的可编辑构建模块。随着规划模式根据计划执行,它将使用游戏测试工具来读取输出日志、捕获屏幕截图、使用键盘和鼠标等输入设备来检查设计和游戏玩法,并识别错误、向 Assistant 提供反馈,以便它能自动修复这些问题。Roblox 表示,凭借在规划、构建和测试方面的新能力,Assistant 更擅长使用智能体循环来测试游戏的不同方面,提出建议的解决方案,然后将结果纳入未来的规划循环中,从而创建一个随时间推移变得更加准确的自我修正系统。Roblox 还宣布,它正在致力于让多个 AI 智能体能够并行协作,在云端运行长而复杂的工作流,并处理编码、测试和创建更逼真的游戏角色等任务。该公司还希望确保创作者能够无缝地将 Claude、Cursor、Codex 等第三方工具与 Roblox Studio 结合使用。

🤖 Gemini 个人智能新增个性化图像生成功能

谷歌周四宣布,将为 Gemini 的个人智能功能增加基于 Nano Banana 的图像生成能力,使其能够根据用户的个性化背景来创建图像。这意味着,AI 图像现在可以利用 Gemini 对你喜好和兴趣的理解来生成,而无需在提示词中明确说明这些信息。这项功能之所以能实现,是因为 Gemini 已经通过你的谷歌账户连接(如 Gmail 和 Google 相册)获得了你的数据背景。因此,你不再需要输入“生成一张我梦想家园的图片,我的兴趣是网球和音乐”,现在只需说“设计我的梦想家园”即可。更重要的是,基于 Nano Banana 的连接还可以利用你 Google 相册中的标签,从而理解描述某个群体的名称和词语,例如“家人”。举例来说,你可以通过说“生成一张我和我的家人进行我们最喜欢的活动的图片”来创建图像。谷歌表示,“来源”按钮将显示 Gemini 是如何推导出图像生成的背景信息的。与其它连接功能类似,Gemini 也可能误解背景,你可以提供反馈。此外,你还可以通过点击“+”图标来提供参考照片以辅助图像生成。这项图像生成功能将在未来几天内向美国地区的 Plus、Pro 和 Ultra 订阅用户开放。谷歌计划很快将该功能扩展到 Chrome 桌面版 Gemini 以及其他用户。

🚀 Google 用 AI 精准拦截违规广告

Google 周四表示,其在 2025 年全球范围内屏蔽了创纪录的 83 亿条广告,较前一年的 51 亿条大幅增加。然而,被暂停的广告主账户数量却远低于广告屏蔽量的激增幅度,这引发了外界对其平台治理方式的疑问。Google 将这种差异归因于其日益增长的人工智能应用,特别是其 Gemini 模型系列。公司表示,这些 AI 系统使其能够更早、更精确地检测和屏蔽违反政策的广告。据称,去年超过 99% 的此类广告在展示给用户之前就被其 AI 驱动系统捕获了。这些数据均来自 Google 的《2025 年广告安全报告》,共同反映了执法方式的一个更广泛转变:虽然更多有问题的广告被阻止,但被暂停的广告主账户却减少了,这表明 Google 正越来越侧重于拦截单个广告。Google 指出,被屏蔽广告数量的上升也反映了诈骗者越来越多地使用生成式 AI 来大规模制作欺骗性内容,而 Gemini 模型有助于检测大型广告活动中的模式并更早地予以拦截。这一转变也反映了 Google 更广泛地将 Gemini 模型更深地集成到其核心产品和基础设施(包括广告业务)中的努力。在该领域,公司正越来越多地利用 AI 来自动化广告活动创建、检测政策违规行为并实时应对新出现的威胁。在被屏蔽的广告和被暂停的账户中,有 6.02 亿条广告和 400 万个广告主账户与诈骗活动有关。2025 年,Google 在美国移除了超过 17 亿条广告并暂停了 330 万个广告主账户,最常见的违规行为包括广告网络滥用、虚假陈述和色情内容。在印度——Google 用户数量最大的市场,其屏蔽了 4.837 亿条广告(几乎是前一年的两倍),而账户暂停数量则从 290 万降至 170 万,商标、金融服务和版权问题是主要的违规类型。在一次虚拟简报会上,Google 广告隐私与安全副总裁兼总经理 Keerat Sharma 告诉记者,公司已转向更精准、AI 驱动的执法,其粒度更细,作用于广告创意层面,而非使用暂停广告主账户这种更‘钝’的工具。他补充说,这种方法帮助将错误暂停账户的数量同比减少了 80%。Sharma 表示,Google 的分层防御措施,包括广告主验证(要求企业在投放广告前确认其身份),旨在从一开始就防止不良行为者创建账户,这也有助于减少账户暂停数量。Sharma 指出,随着 Google 推出新的防御措施以及不良行为者不断适应,这些数字可能会随时间波动,公司的目标是尽可能早地在广告投放流程中阻止有害广告。

🎬 AI 或将颠覆好莱坞:用 1 亿拍 50 部电影

AI 视频生成初创公司 Runway 的联合创始人兼 CEO 克里斯托瓦尔·瓦伦苏埃拉近日提出,人工智能有望彻底改变好莱坞的电影制作模式。他认为,与其将 1 亿美元巨资押注在一部大片上,不如用同样的预算制作 50 部电影,从而大幅提升产出量和命中爆款的概率。瓦伦苏埃拉在 Semafor 世界经济论坛上表示,电影行业本质上是一个“数量问题”。如果制片厂能用 1 亿美元制作 50 部视觉质量相当、时长均为 90 分钟的电影,就能创造出更多内容,成功的机会也随之增加。这一观点挑战了传统观念,即电影是对艺术的精心投资,成功取决于找到对的创意团队。他承认,将 AI 引入影视创作领域存在争议,但形势正在快速变化。早期的许多怀疑源于恐惧和误解,如今大多数人已开始理解这些强大 AI 工具的能力。Runway 正在开发 AI 世界模型,旨在帮助创意工作者“更好、更快地完成更多工作”,并已与众多制片厂和创作者合作,有效降低了制作成本。这种转变已在发生。例如,即将上映、制作成本 7000 万美元的《比特币:杀死中本聪》将成为首部达到制片厂质量的 AI 故事长片,其利用 AI 将成本从预估的 3 亿美元大幅降低。亚马逊、印度制片厂以及索尼影业等也已开始利用 AI 控制影视制作成本,连詹姆斯·卡梅隆也支持用 AI 维持大片制作且避免裁员。瓦伦苏埃拉指出,AI 正在从前期制作、剧本创作、规划、执行到视觉特效等全环节降低成本,并已开始大规模部署。尽管批评者质疑仅靠 AI 扩大创作规模未必能催生更多伟大艺术,但 Runway 坚信其价值。他认为当前行业存在“创意危机”,而 AI 能让市场充满内容,即使只有一部分能成为爆款。瓦伦苏埃拉总结道,Runway 内部有一句格言:最好的电影尚未被制作出来,因为全球可能有数十亿人尚未有机会接触这项技术。AI 的普及或将让更多人的故事得以被讲述。

💸 Meta 因内存芯片涨价上调 Quest 3 系列售价

由于内存芯片成本上涨,Meta 宣布将提高其虚拟现实头显的价格。从 4 月 19 日开始,Meta Quest 3S (128GB) 和 Meta Quest 3S (256GB) 的价格将分别上涨 50 美元,至 349.99 美元和 449.99 美元。Meta Quest 3 的价格将上涨 100 美元,至 599.99 美元。Meta 在其博客文章中解释,做出这一调整是因为制造高性能 VR 硬件的成本已显著上升。全球关键组件(特别是内存芯片)的价格飙升,几乎影响了包括 VR 在内的所有消费电子产品类别。为了继续提供 Quest 平台所承诺的硬件、软件和支持质量,公司需要调整定价。该公司表示,更新的价格也将适用于 Meta Quest 翻新机,但所有 Meta Quest 配件将保持当前价格不变。Meta 是继三星、微软和索尼等同行之后,最新一家因内存短缺而提高硬件价格的科技公司。

🤖 Canva AI 助手升级,可调用工具自动设计

新一代 AI 平台的核心承诺是:用户只需向 AI 助手描述任务,它就能规划任务、调用相关工具,并记住你的偏好以便未来使用。这对于设计专业人士尤其重要,他们希望拥有可预测、自动化的内容与媒体素材创作流程。Canva 在其最新版 AI 助手中正深入这一模式,利用其 AI 模型让用户通过文本提示创建可编辑的设计。用户描述想要制作的内容,机器人就会调用所需工具并提供几个选项。助手使用图层来构建设计,让用户能够灵活调整成品的不同方面。

🤖 仿真初创公司 Antioch:要做物理 AI 的“Cursor”

物理 AI 的愿景是让工程师能像编写数字程序一样,为物理实体(如机器人)编程。然而,现实与理想仍有差距,机器人技术的发展仍受限于物理世界数据的匮乏。为了训练机器,公司往往需要搭建昂贵的实体测试场,或依赖对生产线和工人的监控来收集数据。另一种更具扩展性的方案是仿真技术——通过创建真实环境的虚拟复刻,为机器人开发者提供所需的数据和工作空间。初创公司 Antioch 正致力于解决行业内的“仿真到现实”鸿沟,即如何让虚拟环境足够逼真,以确保在其中训练的机器人能在现实世界中可靠运行。该公司联合创始人 Harry Mellsop 表示,他们的目标是“尽最大努力缩小这一差距,让仿真环境从自主系统的视角看,感觉就像真实世界一样”。为了推进这一目标,Antioch 近日宣布完成 850 万美元的种子轮融资,公司估值达到 6000 万美元。本轮融资由风投公司 A*和 Category Ventures 领投,MaC Venture Capital、Abstract 等机构跟投。该公司成立于去年 5 月,创始团队背景多元,涵盖安全情报、Meta Reality Labs 和 Google DeepMind 等领域。对更好仿真技术的需求,是许多大型自动驾驶公司的核心关切。例如,Waymo 就利用 Google DeepMind 的世界模型来测试其驾驶模型。然而,为机器人构建和使用测试模型,与开发自动驾驶汽车所需的技能集不同。Antioch 旨在为那些缺乏资本自建全套系统的新兴公司提供一个平台,让它们无需投入巨资建造实体测试场或进行数百万英里的路测。Antioch 将其产品比作在软件开发领域大受欢迎的 AI 工具 Cursor。它允许机器人开发者快速创建其硬件的多个数字实例,并连接模拟传感器,这些传感器能提供与真实世界相同的数据流。开发者可以在这些环境中测试边缘案例、进行强化学习或生成新的训练数据。关键在于仿真的保真度必须足够高,确保物理规律与真实世界匹配,以避免模型操控实体机器时出现问题。目前,Antioch 主要专注于传感器和感知系统,这是自动驾驶汽车、农用机械、建筑设备和无人机等领域的主要需求所在。其早期客户中甚至包括一些已在机器人领域重金投入的大型跨国公司。前 Cruise 高管、现 Foxglove 创始人 Adrian Macneil 作为天使投资人支持 Antioch,他认为仿真对于构建安全案例和处理高精度任务至关重要,因为在现实世界中积累足够里程数是不现实的。展望未来,Mellsop 预测,未来两到三年内,任何为现实世界构建自主系统的开发者都将主要依靠软件来完成。这将是首次实现自主智能体在物理自主系统上进行迭代,并真正形成反馈闭环。已有研究朝此方向探索,例如 MIT 的研究员正在使用 Antioch 的平台评估大语言模型,甚至让 AI 模型设计机器人并在仿真环境中测试它们。最终,如果能够成功弥合数字模型与现实世界之间的鸿沟,开发者将能够创建一种数据飞轮。正如 Macneil 所指出的,这正是像 Waymo 这样的行业领导者成功的关键——工程师们越来越有信心,下个月的模型一定会比上个月的更强大。对于其他想要复制这种成功的公司而言,它们要么自己构建这些工具,要么选择购买。

🗣️ DeepL 推出实时语音翻译套件

以文本翻译闻名的 DeepL 公司,今天发布了一套语音到语音的翻译套件,覆盖了会议、移动端与网页对话以及通过定制应用为一线员工提供的群组对话等多种使用场景。公司还同步推出了一个 API,允许外部开发者和企业在其技术基础上构建定制化解决方案,例如用于呼叫中心。DeepL 首席执行官 Jarek Kutylowski 表示,在文本翻译领域深耕多年后,进军语音翻译是顺理成章的下一步,他们发现市场上缺乏优秀的实时语音翻译产品。Kutylowski 指出,开发实时翻译产品的核心挑战在于,要在降低延迟(即从说话到播放翻译音频之间的时间差)与保持翻译准确性之间取得平衡。DeepL 正在为 Zoom 和 Microsoft Teams 等平台发布插件,听众可以在他人用母语发言时听到实时翻译,或在屏幕上看到实时翻译文本。该项目目前处于早期体验阶段,公司正在邀请机构加入等候名单。此外,DeepL 还提供适用于移动端和网页的对话产品,支持面对面或远程交流。DeepL 还允许用户在培训或研讨会等场景下参与群组对话,参与者可以通过扫描二维码加入。公司表示,其语音到语音技术能够学习并适应定制词汇,例如行业特定术语、公司名称和人名。Kutylowski 认为,人工智能正在重塑未来几年的客户服务形态,翻译层能帮助公司在合格员工稀缺且雇佣成本高昂的语言区域提供支持。DeepL 称其掌控着整个语音到语音的技术栈。不过,当前系统仍需先将语音转为文本,进行翻译,然后再转换回语音。DeepL 相信,凭借多年在文本翻译上的积累,他们在翻译质量上具有优势。展望未来,公司希望开发一个端到端的语音翻译模型,完全跳过文本转换步骤。DeepL 面临着来自该领域多个资金雄厚的初创公司的竞争。例如,去年从 Quadrille Capital 和 Teleperformance 融资 6500 万美元的 Sanas,利用 AI 实时改变说话者的口音,其工具主要面向呼叫中心坐席。总部位于迪拜的 Camb.AI 专注于为媒体和娱乐公司提供语音合成与翻译服务,帮助其大规模进行视频内容的配音和本地化。由 Reddit 联合创始人 Alexis Ohanian 旗下基金 Seven Seven Six 支持的 Palabra,正在构建一个旨在同时保留语义和说话者原声的实时语音翻译引擎,与 DeepL 当前开发的产品形成了更直接的竞争。