Anthropic的Mythos模型(代号Capybara)是目前公认的地表最强通用大模型,其核心优点集中在代码、推理、网络安全三大领域,并实现了效率与能力的双重突破。
1. 代码与软件工程:碾压级领先
• SWE-bench Verified(真实漏洞修复):93.9%(Opus 4.6为80.8%),当前公开模型最高分。
• SWE-bench Pro(复杂工程):77.8%(Opus 4.6为53.4%),提升近25个百分点。
• SWE-bench Multimodal(多模态代码):59.0%(Opus 4.6为27.1%),翻倍提升。
• 能力:可独立拆解大型项目、设计部署方案、自动生成测试用例,接近资深架构师水平。
2. 学术与复杂推理:超级大脑
• USAMO 2026(美国数学奥赛):97.6%(Opus 4.6为42.3%),近乎翻倍。
• GPQA Diamond(复杂知识问答):94.6%(Opus 4.6为91.3%)。
• 长上下文:可处理256K-1M tokens,精度达80%。
• Humanity’s Last Exam(博士级推理):56.8%,首个突破50%的AI。
3. 网络安全:攻防一体,超越人类
• 漏洞挖掘(CyberGym):83.1%(Opus 4.6为66.6%)。
• 零日漏洞:自主发现数千个潜伏10-27年的高危漏洞(如OpenBSD 27年、FFmpeg 16年)。
• 攻击链构建:无需人工干预,可在Linux内核中自主串联漏洞、完成权限提升。
• 浏览器利用:Firefox测试中,Opus 4.6成功2次,Mythos成功181次。
4. 效率与成本:更强更省
• Token效率:复杂搜索任务中,Token消耗仅为Opus 4.6的1/5,速度更快、成本更低。
• 扫描效率:代码漏洞扫描效率是传统工具的8倍以上,高危漏洞识别率92%(行业平均约46%)。
5. 通用全能:真正的“六边形战士”
• 全新层级:独立于Haiku、Sonnet、Opus之外的第四档顶级模型,能力阶跃式提升。
• 全面超越:在软件工程、推理、计算机使用、知识研究等所有领域,均碾压前代所有模型。

夜雨聆风