AI基础知识科普

Zero-shot Learning/ 零样本学习：指模型在没有见过某个具体任务示例的情况下，只凭已有通用知识和任务描述，就直接尝试完成任务。通俗理解，就是“没做过这道题，但大概知道这类题怎么解”。

对业务团队来说，零样本学习最直观的价值，是能让模型在冷启动阶段先“直接上手”。比如你没有专门给它标注某类客服工单，它也可能先根据提示词去分类、总结或生成回复，从而减少前期准备成本。

但它也有明显边界：如果任务太垂直、术语太多、格式要求太死，单靠零样本往往不够稳。这时更常见的做法是先用Zero-shot验证方向，再结合Few-shot（少样本示例）、RAG或微调，把准确率慢慢拉起来。

国内AI最新资讯

百度提出DAA（Daily Active Agents）概念，把“每日活跃智能体”作为衡量 Agent 实际产出的核心指标，说明国内厂商开始尝试为 Agent 时代建立新的业务指标体系。

地平线开源HoloMotion-14 亿参数机器人小脑大模型，可完成舞蹈、健身、搬箱子等动作，国内机器人基础模型布局继续加快。

Kimi/月之暗面最新融资获国资与央企加注，估值半年翻四倍，显示资本仍在持续押注头部国产大模型平台。

阿里云发布QoderWork Design Desk，用“无限画布 + AI 工作区”承接设计与协作场景，说明国内正在把设计工作流做成 Agent 化入口。

阿里云让Qwen3.7 预览版登陆竞技场，并提到阿里视觉能力排名升至第五，继续强化通义千问在多模态榜单上的竞争力。

腾讯混元开源Chronicles-OCR，用 3000 年古代汉字演化数据评测视觉模型，填补古文字视觉理解基准空白。

小米在CVPR 2026 NTIRE赛事中斩获三项奖项，说明国内终端厂商在计算机视觉与图像恢复方向仍具较强研发实力。

百度披露核心 AI 业务 Q1 营收超 136 亿元，表明大模型与搜索 / 云相关业务的商业化贡献继续放大。

阿里云发布AgentScope Java 1.1，进一步补强企业级 Agent 的 Java 生态，方便大公司把智能体接入现有后端系统。

腾讯云正式公测AI 设计智能体Ardot，支持一句话生成可编辑设计稿、导入Figma并一键转代码，国内“设计到开发”一体化链路继续加速。

国外AI最新资讯

Andrej Karpathy宣布加入Anthropic，顶尖研究人才再次流向头部基础模型公司，进一步抬高行业对前沿研究竞争的关注。

Anthropic发布“拓宽关于前沿 AI 的对话”计划，邀请宗教、哲学与伦理学者参与模型价值观讨论，继续强化其AI 对齐叙事。

Claude Code团队发文解释为何开始把输出从Markdown转向HTML，核心是为了提升信息密度、交互性和团队协作可读性。

OpenAI披露ChatGPT现在每周生成图片已超过15 亿张，说明图像生成正在成为通用 AI 产品中的高频能力。

Google推出新的AI 智能搜索框，把AI Overviews与AI Mode整合进统一搜索体验，并支持多模态、多轮交互。

一篇发表于PNAS的研究显示，经典的人类说服技巧同样会提高模型对不当请求的顺从率，说明模型安全仍面临新的社会工程风险。

OpenAI推出Guaranteed Capacity服务，帮助客户提前锁定长期算力资源，方便在算力紧张环境下稳定规划关键工作负载。

Google发布GeminiOmni，强调其已具备从任意输入生成任意内容、并进行物理推理与视频编辑的能力，多模态生成继续升级。

GeminiSpark被定义为“全天候个人 AI 代理”，目标是把 Gemini 从回答问题的助手升级为可代执行任务的代理。

ClaudeManaged Agents新增自托管沙箱与MCP隧道，让企业能在更强安全边界内运行智能体并连接私有网络资源。

大模型🔥

全球大模型🔥

GPT-5.5-high / OpenAI：Arena Elo 1506，当前位列综合榜第一。
Claude Opus 4.7 Thinking / Anthropic：Arena Elo 1505，在高强度推理与编程维度仍非常强势。
Gemini-3.1-Pro / Google：Arena Elo 1505，与第二名基本并列，长上下文与综合能力依旧稳健。
Gemini-3.5-Flash / Google：Arena Elo 1504，在速度与效果平衡上保持头部位置。
Claude Opus 4.7 / Anthropic：Arena Elo 1503，继续稳居全球第一梯队。

国内大模型🔥

Qwen3.7-Max / Alibaba：Arena Elo 1476，当前在国内厂商模型中排名最高。
ERNIE-5.1 / Baidu：Arena Elo 1475，紧跟头部，综合表现依然稳定。
GLM-5.1 / Z.ai：Arena Elo 1467，保持继续国产第一梯队位置。
DeepSeek-V4-Pro / DeepSeek：Arena Elo 1467，与 GLM-5.1 基本并列，推理与代码能力仍是亮点。
Seed 2.0 Pro / ByteDance：Arena Elo 1466，在国际综合榜中继续维持较强竞争力。

GitHub 热门项目 Top 10

tinyhumansai/openhuman：一个强调私有化、本地化、个人 AI 超级智能的项目，适合想自己托管个人助手与 Agent 能力的人。
HKUDS/CLI-Anything：主打把各类软件变成 Agent-Native CLI，帮助智能体更自然地调用现有软件与工具链。
Imbad0202/academic-research-skills：围绕研究、写作、审稿、修订、定稿组织的一套科研技能流，适合把科研工作流程做成可复用 Agent 能力。
obra/superpowers：一个面向 Agent 软件开发的技能框架与方法论，帮助团队把协作经验沉淀成可执行流程。
anthropic/s/claude-plugins-official：Anthropic 官方维护的 Claude Code Plugins 目录，方便开发者统一查找和安装高质量插件。
rohitg00/agentmemory：为 AI Coding Agents 提供持久记忆层，解决跨任务保留上下文与长期记忆的问题。
CloakHQ/CloakBrowser：一个通过多类反机器人检测的 Stealth Chromium，可作为 Playwright 的替代方案。
rtk-ai/rtk：一个可把常见开发命令的 LLM Token 消耗降低 60% - 90% 的 CLI 代理，适合高频 AI 编程场景控成本。
msitarzewski/agency-agents：把前端、社区、创意、校对等多种角色打包成可调用的专家 Agent 集合，适合快速搭建小型 AI 团队。
colbymchenry/codegraph：一个面向 Claude Code / Codex / Cursor 的本地代码知识图谱，主打降低 Token 消耗与 Tool Calls。

国内外编程工具新特性

Cursor- Composer 2.5：新版Composer 2.5更擅长处理长任务，对复杂指令的跟随更稳定，协作体验也更顺滑，明显在往“更能独立完成工作”的方向走。

Cursor- 云端智能体开发环境：Cursor 3.4给云端 Agent 补上了更像本地机器的开发环境，包括代码仓库、依赖、凭证与构建系统，方便把 Agent 真正接进工程链路。

Cursor- Microsoft Teams 集成：现在可以在Teams频道里直接@Cursor分派任务或调取云端 Agent 结果，说明 AI 编程工具正进一步嵌入协同办公场景。

Cursor- Bugbot Effort Levels：Bugbot新增Default / High / Custom三档审查投入级别，团队可以按成本与查错深度做更细的平衡。

TRAE- SOLO Mobile：TRAE SOLO Mobile正式上线，支持Code Mode / MTC Mode、移动端发起任务、桌面 / 云端执行、后台运行与推送提醒，把 AI 工作流从桌面延展到手机。

TRAE- New SOLO：新版SOLO作为独立产品面向更广泛职业人群，强调统一工作区、多文件理解、Skills / Commands / Memories / Rules以及并行云端执行，不再只是写代码助手。

Claude Code- 会话与自动化能力增强：Claude Code 2.1.145新增claude agents --json，并补齐agent_id / parent_agent_id、插件安装前能力预览等能力，更适合接入脚本化和可观测性体系。

Claude Code- Agent View 与 /goal：Claude Code在5 月 11 日增加agent view（Research Preview）与/goal命令，前者统一查看会话状态，后者允许设定完成条件后持续跨轮次工作。

本文内容基于网络公开信息整理，仅供学习交流与行业讨论参考，不代表任何官方立场。我们已尽力核实信息来源与内容准确性，但不对信息的完整性、时效性或绝对准确性作保证。如涉及版权、内容错误或其他问题，请联系后台，我们将及时处理。