AI日报| 周末好~

今天推荐：“现在的AI，离真正的通用人工智能AGI，还差得很远。” 该观点来自AI领域资深专家Gary Marcus，是他时隔6年，复盘自己2020年的AGI预判得出的结论。👇

资深专家复盘6年AI发展：通往通用人工智能(AGI)的关键短板，实现了1个还差3个

AI Models

Krea 2 基础模型 API 正式发布

Krea 2 作为从零训练的基础模型，现已通过 @fal、@ComfyUI 及 @NousResearch 的 Hermes Agent 提供 API 服务，支持美学质量与精细控制平衡。

Qwen3.5 推理性能创纪录：单卡 580 tokens/秒

Qwen3.5 模型在 NVIDIA GPU 上的 TokenSpeed 推理引擎中达到 580 tokens/秒的峰值速度，得益于 FlashAttention-4 优化及 KV Cache 技术。

Hao AI Lab 开源实时视频生成技术

Hao AI Lab 开源 FastVideo Dreamverse 技术，使单张 NVIDIA B200 GPU 能在 4.2 秒内生成 5 秒视频，效率提升显著。

Runway 推出 MCP 协议支持多平台集成

Runway MCP 允许用户直接在 Claude、ChatGPT、Cursor 和 Replit 中调用 Gen-4.5、Seedance 2.0 等最新模型进行内容生成。

AI Research

Pareto AI 与 Thoughtful Lab 发布首个开放情感智能基准

@pareto_ai 与 @thoughtfullab 合作发布 AttuneBench，通过 50,000+ 条第一人称标注和 200 场真实对话，评估了 11 个主流模型在情感理解方面的表现。

📚 延伸阅读

大模型的情商（EQ）怎么样？最高54.3 分？

结合密码学与可信执行环境的新隐私分析方案

研究人员提出结合加密聚合与可信执行环境的隐私分析新方法，在不要求设备保持在线的情况下提供可证明的隐私和安全保障。

专家回顾 AGI 进展：神经符号 AI 取得突破但其他目标滞后

一位专家回顾其 2020 年文章，指出尽管在神经符号 AI（如 Claude Code）上取得进展，但在机器可解释知识库、可靠推理系统及世界模型构建方面仍缺乏实质性成果。

📚 延伸阅读

资深专家复盘6年AI发展：通往通用人工智能(AGI)的关键短板，实现了1个还差3个

AI Agents

Harvey 开源高难度法律智能体基准测试

Harvey 开源法律智能体基准测试 (LAB)，要求智能体在混乱文件系统中根据松散指令输出最终交付物，需通过 7.5 万项专家标准且任何一项失败即判定整体失败。

📚 延伸阅读

Harvey，法律智能体的SWE-bench基准测试来了，所有大模型得分个位数

开源工具 Pentest Agent Suite 实现自动化漏洞挖掘

开源工具 Pentest Agent Suite 上线，内置 50 个专注不同漏洞类型的智能体，覆盖 XSS、SQL 注入等 19 类常见漏洞，支持自动执行漏洞扫描和利用链构建并过滤无效报告。

📚 延伸阅读

开源项目介绍：工具 Pentest Agent Suite 实现自动化漏洞挖掘

GitHub 项目 AgentHub 打造虚拟开发团队工作流

GitHub 项目 AgentHub 上线，为 Claude Code 组建包含产品经理、技术主管等 46 个角色的虚拟开发团队，提供可视化桌面应用及代码未通过测试时的强制阻断机制。

💡 推荐理由

Agent编排最近遇到好多，昨天有Alook 主打个人助理场景的，今天这个是开发OPC助手：）

AI Infrastructure

Jerry Liu 推出 Rust 重写的最快 PDF 解析器 LiteParse v2

Jerry Liu 发布基于 Rust 重写的 LiteParse v2 解析器，支持 50 多种文档类型，宣称在速度和准确性上超越现有开源方案。

AI Applications

a16z 合伙人指出 AI 应用层机会在垂直工作流而非通用智能体

a16z 合伙人 Joe Schmidt 指出，AI 应用层的真正机会在于涉及跨系统上下文、遗留系统整合及合规审批的垂直复杂工作流，而非与实验室正面竞争通用浅层编排。

AI Engineering

开源社区推出全栈 AI 工程免费课程，强调手动实现核心组件

Alvaro Cintas 在 GitHub 发布包含 435 课时、20 个阶段的免费 AI 工程课程，要求学员手写反向传播与注意力机制等核心模块以构建全栈能力。

📚 延伸阅读

• 大模型的情商（EQ）怎么样？最高54.3 分？

• Harvey，法律智能体的SWE-bench基准测试来了，所有大模型得分个位数

• 开源项目介绍：工具 Pentest Agent Suite 实现自动化漏洞挖掘

• 资深专家复盘6年AI发展：通往通用人工智能(AGI)的关键短板，实现了1个还差3个

#AI日报 #每日AI资讯 #人工智能 #大模型 #Agent #AI智能体 #Harness