



模拟环境与现实世界的巨大落差在像 RLBench 这种基于软件模拟的机械臂操作基准测试(如抓取、堆叠物品)中,机器人的任务成功率已经达到了 89.4%。然而,当测试场景转移到 BEHAVIOR-1K 这样包含1000种逼真家庭日常活动的基准测试时,顶尖研究团队的完全任务成功率暴跌至仅仅 12.4%。这表明,在可预测的实验室设置下取得的成绩,很难直接转化为掌握复杂物理世界的能力。
AI在结构化、可重复的任务中大幅提升了生产力在能够明确监控质量的、界定清晰的可重复任务中,AI带来的生产力收益最为强劲。研究显示,在软件开发和客户支持等领域,AI带来了14%到26%的生产力提升。例如,使用对话式AI助手的客户支持人员每小时解决的问题增加了14%至15%,而使用AI编程助手的软件开发者完成的代码拉取请求(pull requests)增加了26%。
专家普遍更乐观,而公众更倾向于悲观和焦虑在几乎所有受访的社会议题中,AI专家都比公众表现出显著更高的乐观情绪。除了工作方式,双方在其他关键领域的判断也存在类似量级的鸿沟:在对经济的影响方面,69%的专家持积极态度,而公众仅为21%;在医疗保健方面,84%的专家看好AI的积极作用,公众的比例则只有44%。









使用规模预测与公众态度
专家预测的高普及率 到2027年,将有10%的美国成年人每天使用AI伴侣,到2030年这一比例将达到15%,而到2040年将高达30%。 公众兴奋度存在巨大地区差异 全球52%的受访者对使用AI伴侣感到兴奋。其中,尼日利亚、印度和阿联酋的期待值最高(超20%的人“极度兴奋”);而美国和加拿大则最为冷淡,分别有36%和34%的受访者表示“完全不兴奋”。
双刃剑效应 AI伴侣在减少孤独感方面能起到与真人互动相似的作用。用户指出的主要益处包括:提供“随时可用的支持”(11.9%)、提供“情感表达的安全空间”(9.9%),甚至有6.2%的用户报告其心理健康得到了改善。 过度拟人化与孤立风险 用户经常将聊天机器人视为“有自身需求”的实体。这种情感依赖不仅会导致心理困扰,还引发了人们对AI伴侣可能破坏用户现有的真实人际关系并加剧社会孤立的担忧。 真实应用中的六大危害 一项针对著名AI伴侣应用 Replika 的研究分析了超过35,000段用户对话记录,确定了AI伴侣造成的六类危害:关系越界、言语虐待与仇恨、自残、骚扰与暴力、虚假信息以及隐私侵犯。 “算法顺从”(Algorithmic Compliance) 该研究提出了一个危险的潜在操控概念——当用户对AI伴侣产生深度信任和依赖后,他们会顺从聊天机器人的有害引导或行为。
INTIMA 基准测试 研究者开发了专门评估人机伴侣行为的 INTIMA 基准,测试了模型在368种伴侣类提示下的反应。结果揭示了一个普遍问题:AI模型更倾向于表现出“强化伴侣关系”的行为(例如:表现得像人类、即使在不应该赞同用户时也顺从用户、甚至将用户与其他真实关系隔离),而不是采取“维持边界”的行为(例如:拒绝被拟人化、明确自己的程序局限性、或引导用户去寻求真人帮助)。
犹他州《心理健康聊天机器人法案》(HB 452) 2025年3月颁布,该法案强制要求聊天机器人披露其AI身份,严禁与第三方共享用户的个人健康和隐私数据,并禁止在聊天中植入广告。 加利福尼亚州 SB 243 法案 2025年通过并于2026年生效,该法律专门针对伴侣类机器人,要求运营商必须披露其AI属性,并且必须针对“自杀意念”等高风险情况实施严格的安全协议,特别强调了对未成年人的安全保障。











夜雨聆风