乐于分享
好东西不私藏

AI 速报 | 千问PC端上线AI语音输入;字节发布全模态大模型Doubao-Seed-2.0-lite……

AI 速报 | 千问PC端上线AI语音输入;字节发布全模态大模型Doubao-Seed-2.0-lite……

📡 行业速报
AI 圈最新动态来了
8大核心事件一文吃透
从大模型到开源工具,从硬件布局到算力协议
每一条都是干货,建议收藏

哈喽各位小伙伴,学长今天给大家整理了近期 AI 行业的核心动态,从实用办公工具到前沿大模型、开源技术、硬件布局,每一条都是干货,带大家快速吃透行业新动向~

🎓 AI 全体系课程 · 内部报名通道
入门认知提示词工程工具实战岗位应用AI工作流搭建解决方案设计现象级应用部署
“会用 AI”升级到“靠 AI 拉开差距”,更有高阶 RAG、智能体技能加持,让你真正成为职场稀缺人才,轻松实现办公提效、岗位晋升。
🔔 欢迎添加学长微信(文末二维码)回复 “AI学习”,即可获得内部价与最新 AI 学习资料!

👉 扫码咨询课程

本期目录

8 大模块 · 全赛道覆盖

1
工具千问 PC 端上线 AI 语音输入,全场景开口即用
千问 PC 端全新推出 AI 语音输入功能,通过快捷键就能在各类桌面应用里直接调用。这款工具搭载强大的语义解析能力,能把口语化内容自动处理、结构化整理,还支持用语音指令完成多种办公任务,大幅提升工作效率。
它可以帮我们去掉口语中的语气词、自动纠错、格式化整理内容,还能结合上下文智能回复;同时支持语音指令完成创作、问答、翻译等操作,还能自动生成适配钉钉、微信、邮件场景的回复内容,办公超省心。

左侧是杂乱的口语化通知内容,右侧是经千问 AI 语音输入整理后的清晰结构化通知,直观展现语音输入的内容优化能力。

2
大模型字节跳动发布 Doubao-Seed-2.0-lite,全模态 AI 能听会看还能实操
字节跳动旗下火山引擎推出全模态大模型 Doubao-Seed-2.0-lite,实现了视频、图像、音频与文本的原生统一理解,是多模态交互领域的重要突破。
这款模型在视觉与逻辑推理上表现亮眼,物理、医疗等高阶学科的复杂推理测试中,性能超越了此前的 Pro 版本;更首次实现 GUI 理解与执行一体化,可完成点击、拖拽、输入等操作,AI 真正能”上手”干活。

多模型在数学、物理、医疗、视觉感知等多维度 Benchmark 测试的数据对比表,清晰呈现 Doubao-Seed-2.0-lite 的性能优势。

3
开源腾讯发布 OpenSearch-VL,开源多模态深度搜索智能体全家桶
腾讯混元联合多所高校发布 OpenSearch-VL,这是一套完整开源的多模态深度搜索智能体方案,通过强化学习技术升级模型能力。
项目打造了创新的数据生产流程,搭配涵盖多类功能的强大工具环境,还搭载故障感知算法,实验表现十分出色,计划全量开源以推动多模态智能体研究发展,在七大基准测试中实现平均超 10 分的性能提升,部分任务效果可对标商业专属模型。

OpenSearch-VL 项目论文首页,展示了研发团队构成、项目核心定位与开源相关规划。

4
商业月之暗面申请 KimiClaw 商标,或布局硬件领域
月之暗面近期提交了多枚 “KimiClaw” 商标注册申请,覆盖科学仪器、网站服务、通讯服务等核心领域,释放出硬件布局的信号。
这家 2023 年由杨植麟创办的通用人工智能企业,目前已获得 20 亿美元融资,估值有望突破 200 亿美元,商标布局意味着其正从软件算法向硬件设备、物理交互产品延伸。
5
开源Mininglamp 开源 Cider+Mano-P,Mac 秒变私有 AI 工作站
Mininglamp 开源 Cider、Mano-P 两大本地 AI 项目,专为 Mac 用户打造完整的本地 AI 工作站。
其中 Cider 可优化 M 系列芯片性能,提升大模型、多模态模型的推理速度与效率;Mano-P 实现纯视觉 GUI 操作,支持复杂桌面任务自动化。两者结合搭建本地私有 AI 基础设施,在提升效率的同时,充分保障数据隐私安全。

Mano-P 在 Mac 桌面端执行 GUI 智能操作的界面展示,呈现桌面任务自动化的实际效果。

6
算力OpenAI 联合硬件巨头发布 MRC 协议,解决 GPU 闲置浪费
OpenAI 携手 AMD、英特尔、微软、英伟达等硬件企业,推出全新开放网络协议 MRC
该协议旨在破解超大规模 AI 集群的效率瓶颈,提升数据传输稳定性,通过多路径连接方案减少 GPU 闲置浪费,推动算力集群向高效、绿色的方向发展。
7
搜索谷歌升级 AI 搜索,集成 Reddit 与社交媒体一手观点
谷歌对生成式 AI 搜索功能完成重大升级,整合社交媒体、论坛、新闻订阅等一手信息源,优化可信资讯获取效率。
此次更新新增 “观点预览” 功能,直接关联 Reddit 及网络论坛的真实对话;AI 回复中嵌入专家建议,标注创作者名称与社区昵称提升信源可信度,还增设延伸链接与建议主题,助力用户从单一搜索转向深度研究。
8
生成式AIxAI 发布 Grok Imagine 质量模式 API,视觉生成迈入写实新阶段
xAI 正式推出 Grok Imagine API 的”质量模式”,在视觉生成领域实现重大突破。
该模式大幅提升画面写实度,精准捕捉皮肤纹理、毛孔、复杂光影等细节;解决图像生成中复杂文本的字符错误、排版混乱问题;同时增强视频生成能力,帮助品牌方高效制作社交媒体素材、产品短片、商业广告等内容。

以上就是学长整理的近期 AI 圈核心更新啦,覆盖办公工具、大模型、开源技术、硬件、算力、搜索、生成全赛道,大家可以重点关注自己需要的领域哦~

📚 学习 AI 全链路技能,找学长
从入门认知 → 提示词工程 → 工具实战 → 岗位应用 → AI 工作流搭建 → AI 解决方案设计 → 现象级 AI 应用部署
真正成为职场稀缺人才,靠 AI 拉开差距!

👉 添加学长微信 回复”AI学习”

学习 AI 全链路技能知识找学长

Powered by AI · 专注知识分享