今天AI圈继续热闹,各大AI Agent框架争相发布更新,多模态理解能力成为新的竞争焦点,一起来看看最新动态。
1. Nous Research发布Hermes 3 Pro,工具调用能力暴涨
Nous Research今日更新Hermes 3 Pro模型,工具调用能力大幅提升40%,支持自动规划复杂多步骤任务。社区测试显示,在需要连续调用多个工具的场景下,完成率从原来的52%提升到了93%。
这个项目在GitHub上迅速走红,星标一周内破2k,成为当前最热门的开源AI Agent模型之一。中文社区也出现了"Hermes Agent从入门到精通"中文教程。
2. Meta发布Llama 4多模态版本,支持图像视频理解
Meta今日正式放出Llama 4多模态版本预览,不仅能理解文本,还能直接处理图像和视频输入。最大支持70B参数,上下文窗口达到128K。
和之前版本相比,多模态能力深度整合到模型主干,不需要分开的编码器,推理速度更快。开源社区已经开始测试适配工作。
3. 字节跳动发布豆包4.0,上下文支持2M tokens
字节跳动今日官宣豆包4.0正式上线,上下文窗口扩容到2百万tokens,相当于大约150万字,可以直接塞入整本书。
多模态能力也全面升级,支持长视频分析、大量图片批量处理。开发者API价格也下调了15%,进一步抢占市场。
4. 微软Copilot新增深度上下文搜索
微软更新Bing Copilot,新增"深度上下文搜索"功能,能自动爬取搜索结果页面全文,然后综合回答问题,准确率比之前提升不少。
这个功能解决了传统AI搜索只能看摘要的问题,对于需要详细信息的查询帮助很大。
5. Hugging Face发布AgentHub,一键分享Agent技能
Hugging Face官方推出AgentHub平台,开发者可以上传分享自己的Agent技能,其他人一键就能复用。平台上线首日就有超过500个技能提交。
这标志着AI Agent生态从框架竞争转向技能生态竞争,以后技能复用会越来越方便。
📝 今日点评
最近一个明显趋势:AI Agent从概念走向实用,多模态成为标配。
各家都在拼上下文长度、拼工具调用准确率、拼多模态理解能力。用户最终受益就是能做更复杂的任务了。
接下来AI Agent会快速向专业化方向发展,垂直领域Agent会越来越多。
AI热点日报 · 每日更新
夜雨聆风