今日AI快讯|胜率直逼人类大师!这套Agent揭开中国AI「玄学真相」;Ilya发神图「思考者」!芯片海洋上在想啥?...
【胜率直逼人类大师!这套Agent揭开中国AI「玄学真相」】 Tianfu Agent在术数测试中准确率达50%,接近人类Top20选手水平,而Claude、GPT等模型仅23%-40%。该系统通过200+工具分级管理、多Sub-Agent协作及不确定性量化机制,实现专业术数推理。研究显示,垂直领域AI需工具化范式、动态工具管理及置信度评估,而非依赖通用模型。 http://weixin.sogou.com/weixin?type=2&query=%E6%96%B0%E6%99%BA%E5%85%83+%E8%83%9C%E7%8E%87%E7%9B%B4%E9%80%BC%E4%BA%BA%E7%B1%BB%E5%A4%A7%E5%B8%88%EF%BC%81%E8%BF%99%E5%A5%97Agent%E6%8F%AD%E5%BC%80%E4%B8%AD%E5%9B%BDAI%E3%80%8C%E7%8E%84%E5%AD%A6%E7%9C%9F%E7%9B%B8%E3%80%8D 【Ilya发神图「思考者」!AI芯片海洋上在想啥?】 AI圈神秘人物Ilya在Instagram发布《思考者》画作,画面中罗丹雕塑踩在芯片显微剖面图(Die Shot)上,暗喻AI与硅基世界的边界模糊。同期OpenAI宣布数学突破、Codex功能升级及IPO计划,暗示AGI正从理论走向现实。画作与技术进展被解读为对‘堆算力即智能’范式的无声质疑,引发硅谷对AGI时代的热议。 http://weixin.sogou.com/weixin?type=2&query=%E6%96%B0%E6%99%BA%E5%85%83+%E5%88%9A%E5%88%9A%EF%BC%8CIlya%E5%8F%88%E5%8F%91%E7%A5%9E%E5%9B%BE%E3%80%8C%E6%80%9D%E8%80%83%E8%80%85%E3%80%8D%EF%BC%81AI%E8%8A%AF%E7%89%87%E6%B5%B7%E6%B4%8B%E4%B8%8A%E5%9C%A8%E6%83%B3%E5%95%A5%EF%BC%9F 【Claude不到4%,全军覆没!一场大考撕碎Agent「全自动办公」幻想】 SaaS-Bench测试显示,现有Agent在真实办公任务中表现不佳,Claude Opus 4.7仅完成4个任务,其他模型完全未通过。测试涉及23个真实SaaS系统,任务需跨应用、长流程操作,验证严格。结果显示Agent存在步骤错误、无法自我检查、执行不稳定等问题,暴露当前技术在长流程任务中的局限,需重新设计软件以适应Agent需求。 http://weixin.sogou.com/weixin?type=2&query=%E6%96%B0%E6%99%BA%E5%85%83+Claude%E4%B8%8D%E5%88%B04%25%EF%BC%8C%E5%85%A8%E5%86%9B%E8%A6%86%E6%B2%A1%EF%BC%81%E4%B8%80%E5%9C%BA%E5%A4%A7%E8%80%83%E6%92%95%E7%A2%8EAgent%E3%80%8C%E5%85%A8%E8%87%AA%E5%8A%A8%E5%8A%9E%E5%85%AC%E3%80%8D%E5%B9%BB%E6%83%B3 【30天烧掉60万亿,扎克伯格没进前250:大厂AI沦为KPI游戏】 亚马逊、Meta等科技巨头员工为刷AI token用量,导致资源浪费。Meta内部30天消耗60万亿token,扎克伯格未进前250;亚马逊员工通过MeshClaw工具进行无效任务刷量。Jellyfish数据显示,高token使用组产出仅是低组的2.8倍,成本却高200倍。这种现象引发对AI使用效率的质疑,揭示tokenmaxxing已演变为企业文化,反而扭曲了真实生产力。Goodhart定律指出,当指标成为目标时,其可靠性丧失。 http://weixin.sogou.com/weixin?type=2&query=%E6%96%B0%E6%99%BA%E5%85%83+30%E5%A4%A9%E7%83%A7%E6%8E%8960%E4%B8%87%E4%BA%BF%EF%BC%8C%E6%89%8E%E5%85%8B%E4%BC%AF%E6%A0%BC%E6%B2%A1%E8%BF%9B%E5%89%8D250%EF%BC%9A%E5%A4%A7%E5%8E%82AI%E6%B2%A6%E4%B8%BAKPI%E6%B8%B8%E6%88%8F 【Token必须死?】 大语言模型面临token范式结构性天花板,连续空间建模或成新方向。MIT何恺明团队与字节跳动提出语言生成可脱离token空间,连续流模型在效率与生成质量上表现更优。科技巨头如Google、OpenAI、字节跳动等正转向统一连续表征,而Anthropic则专注文本推理。若token范式衰退,视频处理、多模态能力将重构,AI商业价值定价体系待定。 http://weixin.sogou.com/weixin?type=2&query=%E8%85%BE%E8%AE%AF%E7%A7%91%E6%8A%80+%E2%80%9CToken%E2%80%9D%E5%BF%85%E9%A1%BB%E6%AD%BB%EF%BC%9F 【中国芯片的‘华为定律’:6年研发381款芯片、2031年等效1.4nm】 华为半导体业务总裁何庭波提出‘韬(τ)定律’,通过器件、电路、芯片、系统四层技术优化,实现晶体管密度受限下的性能提升。过去6年研发381款芯片,2031年目标达1.4nm制程水平。该定律与摩尔定律形成对比,凸显华为在断供背景下技术突破,如麒麟芯片、昇腾芯片等,推动国产算力发展。 http://weixin.sogou.com/weixin?type=2&query=%E8%85%BE%E8%AE%AF%E7%A7%91%E6%8A%80+%E4%B8%AD%E5%9B%BD%E8%8A%AF%E7%89%87%E7%9A%84%E2%80%9C%E5%8D%8E%E4%B8%BA%E5%AE%9A%E5%BE%8B%E2%80%9D%EF%BC%9A6%E5%B9%B4%E7%A0%94%E5%8F%91381%E6%AC%BE%E8%8A%AF%E7%89%87%E3%80%812031%E5%B9%B4%E7%AD%89%E6%95%881.4nm