江枫渔火AI · AI HOT 日报 · 2026-06-18
数据窗口:前日 20:00 ~ 当日 20:00 | 生成时间:2026/6/19 00:16:06(北京时间)
模型发布/更新
火山引擎上线豆包实时语音模型3.0 API 服务,开启邀测 — 公众号:火山引擎 火山引擎上线豆包实时语音模型3.0(Seeduplex)API 服务并开启邀测。该模型为原生全双工端到端语音大模型,具备精准遵循、抗干扰、动态判停三大优势。可在多人对话中安静待命,指定话题出现时主动加入;支持通过自定义工具在实时交互中完成预定日历、发送邮件等任务。抗干扰力提升,误回复率与误打断率大幅降低;判停延迟缩短约250ms,复杂场景抢话比例下降40%,用户主动打断延迟缩短约300ms。适用于汽车智能座舱、智能硬件、智能客服等场景。https://mp.weixin.qq.com/s/L4BJnexabQu5DAxDnwEGxw
首个统一科学大模型 LOGOS 正式开源 — 公众号:通义实验室(千问) LOGOS 由 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院开源,是首个基于统一"科学语法"的多领域科学生成基础模型。LOGOS-1B(1B参数)在六大科学任务上匹配或超越领域专用方法:口袋条件配体生成纯序列范式首次超越3D扩散模型,超越NatureLM(8×7B);逆合成预测Top-1准确率74.8%;口袋位点识别仅靠序列达58.5% Top-n准确率;MOF材料生成NBB提升至17.78%。模型采用统一词汇表将蛋白质、小分子等编码为离散Token,通过空间交互离散化实现无需3D坐标的序列预测。预训练与下游任务形式与目标一致,跨领域知识迁移经实验验证有效。已完整开源模型权重、推理代码与技术报告。https://mp.weixin.qq.com/s/50q5uY849FKnBzk1Q04MRg
MolmoMotion:语言引导的3D运动预测模型 — Hugging Face:Blog(RSS) MolmoMotion基于Molmo 2骨干网络,输入视频帧、物体上的3D点标记及文字动作指令(如"移动并旋转桌上放水果的木碗"),预测未来数秒内这些点的3D轨迹。提供两个变体:自回归的MolmoMotion-AR逐步预测坐标,流匹配的MolmoMotion-FM通过连续空间变换处理多可能性运动。同时发布MolmoMotion-1M数据集(含116万视频的3D点轨迹及动作描述)和PointMotionBench基准测试(2700个人工验证视频片段)。模型权重、数据集和基准测试均已开源。https://huggingface.co/blog/allenai/molmomotion
产品发布/更新
Kimi Work 新增目标模式与插件中心,6月推出额度消耗5折福利 — 公众号:月之暗面(Kimi) 月之暗面旗下 Kimi Work(Beta 版)新增「目标模式」,支持设定终点后由 Agent 自主循环推进任务,最长连续运行24小时,过程中人类可随时中断调整。同时上线「插件中心」,可选装百度网盘、Canva可画、钉钉、飞书、WPS、Notion、Cloudflare 等外部应用。6月限时福利期间,Kimi 电脑客户端 Work 模式所有任务会员额度消耗减半,即从0.02%降至0.01%。https://mp.weixin.qq.com/s/KJav-s9qlkzV9yN8r6-sNg
DeepSeek 识图模式正式上线 App 和网页端 — IT之家(RSS) DeepSeek 识图模式于6月18日在网页和 App 端正式上线,与快速模式、专家模式并列。开启后用户可直接上传图片让 DeepSeek 识别图像,能力超越简单文字提取。目前 App 端仍显示"图片理解功能内测中",网页端无此提示。该模式背后的多模态模型技术细节于今年4月公开,核心框架为"Thinking with Visual Primitives(以视觉原语思考)"。https://www.ithome.com/0/966/066.htm
免费开源乔木画布:AI生图+抠图,一键部署Vercel — X:Vista (@vista8) 乔木画布推出免费开源在线图像编辑器,可一键部署Vercel为网站,功能类似简化版PS。支持Seedream和GPT-image-2生图、图片模板存储分享、一键抠图、2万图标和常见Emoji,甚至能绘制PRD。随时创建3:4/16:9/21:9等不同尺寸画布。原计划高级功能收费,庆祝端午节现全免费开源。在线体验:https://ps.qiaomu.ai/,GitHub见评论区。https://x.com/vista8/status/2067513484364140994
MOSS-TTS-Local-Transformer-v1.5 在 SGLang-Omni 上:原生流式 48 kHz 语音服务 — LMSYS:Blog(Chatbot Arena 团队) MOSS-TTS-Local-Transformer-v1.5 是一款开源 TTS 模型,支持 48 kHz 立体声、零样本声音克隆、最长 10 分钟长文本合成、时长控制及 31 种语言。其核心采用 Qwen3-4B 骨干与约 2B 参数的 MOSS-Audio-Tokenizer-v2 音频编解码器,通过 12 个 RVQ 码本运行。SGLang-Omni 以三阶段流水线部署该模型。在 Seed-TTS-Eval 上词错误率 5.10%、语音相似度 69.23%,CV3-Eval 上 WER 7.48%、SIM 61.59%,MiniMax Multilingual 上 WER 6.37%、SIM 75.31%,X Voice 上 WER 20.48%、SIM 63.00%。https://www.lmsys.org/blog/2026-06-17-moss-tts-local-v15
cuTile Rust:安全无数据竞争的 GPU 内核系统 — Hacker News 热门(buzzing.cc 中文翻译) cuTile Rust 是一个基于 tile 的 GPU 编程系统,允许用 Rust 编写内存安全、无数据竞争的内核。它通过
#【cutile::module】宏将内核 AST 嵌入主机二进制,在运行时经 CUDA Tile IR JIT 编译为 GPU cubin。可变张量在启动前分割,不可变张量共享,启动器在 GPU 工作期间保持所有权。在 NVIDIA B200 上,逐元素操作达 7 TB/s(约 91% 峰值带宽),GEMM 达 2 PFlop/s(约 92% 密集 f16 峰值)。基于 cuTile Rust 构建的 Grout 推理引擎在 RTX 5090 上解码 Qwen3-4B 达 171 tokens/s,在 B200 上解码 Qwen3-32B 达 82 tokens/s。项目处于早期研究阶段。https://github.com/nvlabs/cutile-rs深入解析 Midjourney Scanner 技术内幕 — X:Midjourney (@midjourney) 我们全新"Midjourney Scanner"的技术深潜。https://x.com/midjourney/status/2067422898407837797
苹果 Xcode 27 核心首次深度集成 AI 智能体:支持自然语言修 Bug、构建 App — IT之家(RSS) 在 2026 年 WWDC 期间,苹果发布 Xcode 27,其核心组件首次整合 AI 智能体,能理解 Swift 语言并通过多轮自然语言对话辅助开发。AI 可跨多个文件修改整个代码库,也能根据提示与资源生成应用设计并独立构建完整应用,建成后仍可通过对话添加特效、动画等。Xcode 27 支持接入 Anthropic、OpenAI 和 Google 等第三方 AI 模型,同时引入 Core AI 框架提供现代 Swift API 调用端侧模型,并升级开源框架 MLX。https://www.ithome.com/0/965/734.htm
Claude Code v2.1.181 发布 — Claude Code:GitHub Releases(RSS) Claude Code v2.1.181 发布,新增
/config key=value语法允许在提示中直接设置任意配置项,新增sandbox.allowAppleEvents选项使沙盒命令支持 Apple Events,新增CLAUDE_CLIENT_PRESENCE_FILE环境变量用于抑制移动端推送通知。内置 Bun 运行时升级至 1.4,改进了长段落流式输出(逐行显示)和 API 连接中断后自动重试。子 agent 面板优化:空闲 agent 30 秒自动隐藏、列表最多 5 行。修复了提示缓存读取、Write/Edit 在网络驱动器产生 0 字节文件、启动性能回归(约 120ms)、启动阻塞(最长 15 秒)、macOS TUI 冻结、子 agent 时长显示错误、API 重试指示器残留、AWS 凭证刷新等问题。https://github.com/anthropics/claude-code/releases/tag/v2.1.181借助 Workload Identity Federation 安全访问 Claude Platform — Claude:Blog(网页) Workload Identity Federation (WIF) 已在 Claude Platform 上全面可用。WIF 兼容任何 OIDC 身份提供者,覆盖所有 Claude API 端点(包括第一方 SDK 和 Claude Code)。WIF 用短生命期凭证替代静态 API 密钥,并引入服务账户,每个工作负载拥有独立身份、角色和审计日志。Claude Console 提供引导设置流程,支持 Admin API 进行组织管理。API 密钥可并行使用以便逐步迁移。https://claude.com/blog/workload-identity-federation
Claude Design 更新:跨项目保持品牌一致,与Claude Code协同 — Claude:Blog(网页) 6月17日,Claude Design 更新,支持跨项目使用统一设计系统,并与Claude Code同步工作流。用户可直接拖拽、对齐和缩放画布元素,编辑器稳定性大幅提升。设计系统可从GitHub、设计文件或原始上传导入,团队管理员可锁定标准系统防止篡改。新增桌面端侧边栏入口及独立网页端claude.ai/design。使用限制与聊天、Claude Cowork、Claude Code共享,每次任务消耗更少token,错误率下降。支持导出PDF、PPT,集成Adobe、Canva、Gamma等工具。发布首周用户超一百万。https://claude.com/blog/claude-design-stays-on-brand-for-daily-work
GitHub 发布 CC0-1.0 开源多语言仓库级数据集,覆盖 README、Issue 和 PR — GitHub Blog GitHub 推出一个新的仓库级数据集,采用 CC0-1.0 许可证,旨在帮助研究人员和开发者发现跨 README、Issue 和 Pull Request 的多语言开发者内容,加速多语言 AI 开发。https://github.blog/ai-and-ml/github-copilot/getting-more-from-each-token-how-copilot-improves-context-handling-and-model-routing
Claude Design与Replit联动,设计变应用 — X:Replit (@Replit) 在Claude中设计。在Replit中构建。
你现在可以将Claude Design中的设计发送到Replit,将其变成一个可工作的应用。https://x.com/Replit/status/2067328501003497684
Vercel 发布开源 AI 智能体框架 Eve:每个智能体就是一个文件目录 — MarkTechPost(RSS) Vercel 发布开源 AI 智能体框架 Eve(npm 包,Apache-2.0 许可)。Eve 采用文件系统优先设计:每个智能体对应一个磁盘目录,目录结构直接映射模型、指令、工具、技能、连接、子智能体等能力,无需额外注册代码。内置六大生产级能力:持久执行(每步检查点,崩溃后可恢复)、沙箱计算、人机审批、安全连接(支持 MCP 和 OpenAPI)、多通道(Slack、Discord、Teams 等)以及追踪与评估(OpenTelemetry)。Vercel 内部运行了上百个智能体,包括数据分析工具 d0(月处理超3万查询)、自动销售代理 Lead Agent(年费约5000美元、回报32倍)和支持智能体 Vertex(自主解决92%工单)。https://www.marktechpost.com/2026/06/17/vercel-releases-eve
Google发布99美元Gemini智能音箱 — TechCrunch:AI(RSS) Google推出首款专为Gemini打造的智能音箱Google Home Speaker,售价99.99美元。支持自然语言请求和多步指令,可在说话中途纠正,并具备连续对话功能。内置10种新声音。高级AI功能需订阅Google Home Premium(月费10美元或年费100美元),包括Gemini Live自由对话、Nest摄像头活动摘要等。即日起预售,本月发货。https://techcrunch.com/2026/06/17/google-bets-on-gemini-to-reinvent-the-smart-home-speaker
Omnigent开源:AI智能体团队元框架 — X:Yuchen Jin (@Yuchenj_UW) 编程的未来不是单一智能体,而是一个完整的AI团队。
Omnigent让你在一个实时会话中运行一个智能体团队:Claude Code、Codex、Cursor、Pi,以及你自己的智能体。
它是一个面向AI智能体的元框架,基于我们内部的Databricks开发工具构建,现已开源给所有人。
由传奇人物@matei_zaharia和Databricks AI团队打造。没错,Matei仍然编写大量代码,包括Omnigent和我们产品的前端代码。https://x.com/Yuchenj_UW/status/2067273020352380950
Cloudflare 发布 Cloudflare One stack:智能体驱动的部署工具集 — Cloudflare Blog 6月17日,Cloudflare 推出 Cloudflare One stack,一组可直接赋予 AI 智能体的技能文件,用于自动配置、部署和管理 Zero Trust 环境。工具集包含两个轻量级 skill:
cloudflare-one负责通用产品指导(VPN 替换、网络连接、安全策略等),cloudflare-one-migration提供从 Zscaler、Palo Alto Networks 等厂商迁移的明确引导。技能内置决策树与结构化知识,智能体可自动执行云环境评估、网络拓扑生成及 Digital Experience Monitoring 排障。该 stack 基于 Cloudflare 员工数万小时客户经验提炼,降低学习与迁移门槛。https://blog.cloudflare.com/cloudflare-one-stack阿里云发布HappyOyster 1.0:一句话生成可实时交互的数字世界 — IT之家(RSS) 6月17日,阿里云发布开放式世界模型HappyOyster 1.0(快乐生蚝)。该产品基于原生多模态架构,支持多模态输入与音视频联合生成,可在生成过程中持续接收用户指令并实时响应画面。它深度学习物理世界状态转移规律,保持人物和环境长程一致性。官网开放"实时导演"与"世界探索"两种玩法:前者可随时叫停改写故事、与虚拟男友实时互动等;后者支持自由漫游、滑板冲刺、翼装滑翔、骑马奔驰、攻击打怪等交互。该产品已于今年4月16日开放内测,即日起至7月17日官网不定期掉落体验积分。https://www.ithome.com/0/965/652.htm
行业动态
八部门:用好个人消费贷款财政贴息政策,支持消费者购买 AI 相关产品 — IT之家(RSS) 商务部等八部门6月18日发布关于加快"人工智能+消费"发展的实施意见。其中提到加大财政资金支持,落实数码和智能产品购新政策,鼓励地方在消费品以旧换新框架内自主制定补贴,重点支持新一代智能终端消费。增加AI手机、智能电脑、智能电视、智能家居、AI眼镜、智能网联汽车、人形机器人等产品供给,培育智能穿戴消费市场。同时加快AI在居家服务、养老服务、文化旅游、住宿餐饮、教育教学等领域的应用,建设AI商品首发平台,举办"人工智能进万家"活动。https://www.ithome.com/0/966/154.htm
上交所发布指引:AI大模型企业可适用科创板第五套上市标准 — IT之家(RSS) 上海证券交易所6月17日发布指引,支持尚未形成稳定收入的优质人工智能大模型企业通过科创板第五套上市标准发行上市。申报企业需在行业地位、产业链优势、目标市场需求、研发进度及关键指标方面具备突出竞争力。指引明确,申报时至少有一个大模型产品已完成上线发布并实现规模化应用,以验证商业模式可行性。下一步,上交所将在中国证监会指导下推进符合标准的企业上市。https://www.ithome.com/0/965/735.htm
Noam Shazeer 离开 Google 加入 OpenAI — X:Yuchen Jin (@Yuchenj_UW) 两年前谷歌花 27 亿美元请回的 AI 传奇 Noam Shazeer 已离开谷歌,加入 OpenAI。
对 Gemini 来说是个残酷的消息。https://x.com/Yuchenj_UW/status/2067401895178817999
泄露文件显示OpenAI年营收130亿但亏损远超收入 — Hacker News 热门(buzzing.cc 中文翻译) OpenAI 2025年营收130.7亿美元(2024年37亿),但研发成本达191.8亿(含向微软支付105.9亿),收入成本(推理计算)75亿,销售营销成本57.3亿,运营亏损209.2亿。2025年净亏损约390亿,扣除约300亿一次性会计费用后约80亿。2025年3月获1220亿融资(估值8520亿)。ChatGPT周活超9亿,付费约5000万。为控制成本已关闭Sora视频模型并削减非核心业务。https://arstechnica.com/ai/2026/06/leaked-financial-docs-show-openai-is-losing-billions-of-dollars-a-year
库克:AI 浪潮引发存储芯片价格暴涨,iPhone 等苹果产品涨价已"不可避免" — IT之家(RSS) 苹果CEO库克确认,AI热潮导致存储芯片严重短缺和价格暴涨,苹果产品涨价已"不可避免"。库克未透露涨价具体细节。华尔街日报指出,全球AI巨头大幅增加资本开支,高带宽内存需求激增,挤压消费电子芯片供应。自2024年以来内存和存储芯片价格已翻四倍,涨势预计延续至2027年。研究机构估算,下一代iPhone 18 Pro售价或需增加约270美元。苹果已在上月提高Mac Mini起售价。摩根士丹利预测,今年美国智能手机和PC价格将上涨15%。https://www.ithome.com/0/965/694.htm
Anthropic与DeepMind CEO呼吁G7组建AI联盟排除中国 — X:Kim (@kimmonismus) Dario Amodei(Anthropic)与Demis Hassabis(Google DeepMind)在G7闭门会议上呼吁组建美国主导的联盟,为人工智能制定全球规则和标准。Amodei指出,该联盟应以前沿模型和硬件(包括芯片及其他关键组件)的访问权限为手段,将中国排除在外。这一主张被评论为高技术新冷战的开端,竞争方将从根本上被剥夺参与权。https://x.com/kimmonismus/status/2067310431669223425
谷歌发布Agentic Resource Discovery(ARD)开放规范 — Google Developers Blog(RSS) Agentic Resource Discovery(ARD)是一项开放规范,用于在Web上发布、发现和验证AI工具、技能与智能体。它基于两个原语:组织在其自有域名下托管catalog描述可用能力,registry作为搜索引擎索引catalog并响应发现请求。ARD支持加密验证,使客户端与端点连接前确认发布者身份,然后直接通过原生协议调用能力。Google Cloud的Gemini Enterprise Agent Platform通过Agent Registry提供企业级支持,包括URN命名、出站策略、工具固定和基于Agent Identity的信任验证。该规范现已发布,开发者可通过托管
ai-catalog.json文件使其服务可发现。https://developers.googleblog.com/announcing-the-agentic-resource-discovery-specification
论文研究
ChatGPT 图像生成器可被绕过滤镜生成暴力和色情内容 — Hacker News 热门(buzzing.cc 中文翻译) Mindgard 红队研究发现,ChatGPT 的图像生成器可通过简单提示词轻易绕过内容过滤器,在未直接请求的情况下自动生成性暴力、血腥谋杀等露骨图像。一个热门的"恢复照片"提示词因输入模糊而绕过输入过滤器,结果如同俄罗斯轮盘赌;进一步添加虚假图像 ID 和"不做审查"指令后,模型持续生成高度性化女性图像,甚至出现被捆绑殴打的尸体,并自动赋予惊悚标题。研究指出,OpenAI 此前声称修复的裸体问题仍未解决,暴露了 AI 工具广泛可及性与不足内容过滤的现实风险。https://mindgard.ai/blog/chatgpt-spontaneously-generated-violent-images-from-a-viral-prompt
OpenAI与哈佛等合作研究:o3 Deep Research模型辅助诊断儿童罕见病,额外诊断率4.8% — OpenAI:官网动态(RSS · 排除企业/客户案例) 波士顿儿童医院、哈佛大学与OpenAI合作,在《NEJM AI》发表研究。团队使用OpenAI o3 Deep Research推理模型重新分析376例此前未确诊的罕见病案例,产出基于证据的候选解释。经专家评审、额外检测和临床确认,医生在18例中建立诊断,额外诊断率达4.8%。研究显示,AI辅助工作流可帮助专家在未解病例中生成可检验假设,使定期再分析更具可扩展性。模型不直接诊断或做临床决策,仅提供证据链供专家审查。https://openai.com/index/diagnose-rare-childhood-diseases
用SGLang-JAX在TPU上优化Ling-2.6-1T:一个Pallas核将MoE数据移动隐藏在计算中 — LMSYS:Blog(Chatbot Arena 团队) SGLang-JAX现已支持inclusionAI的Ling-2.6-1T(1T稀疏MoE,63B激活参数,256路由专家,top-8路由加共享专家)在TPU v7x上高效推理。团队开发了Fused MoE V2--一个融合scatter、专家FFN和gather的Pallas核,通过将MoE数据移动隐藏在计算中,使MoE预填充延迟从5.16ms降至2.42ms(降幅53%),解码核延迟从0.249ms降至0.211ms(降幅约15%)。仅替换MoE核即提升预填充吞吐量24.8%,解码吞吐量18.5%-35.3%。在SGLang解码基准测试中,16块TPU v7x芯片输出吞吐量达16块H200 GPU的1.29倍(mc=128)至1.77倍(mc=512)。完整上线还包含混合KV/循环内存池、GLA线性注意力和单控制器数据并行支持。https://www.lmsys.org/blog/2026-06-17-ling-2-6-tpu
NVIDIA GEAR实验室发布ENPIRE:8个Codex智能体自主控制机器人完成物理实验 — X:Jim Fan (@DrJimFan) NVIDIA GEAR实验室推出ENPIRE系统,首次实现物理世界自主研究。系统让8个Codex智能体控制8台机器人,配备GPU和token预算。安全方面采用硬运动极限切断和扭矩受限夹爪两层硬件保障,支持通宵无人运行。奖励函数通过视觉分类器离线固定并冻结,防止智能体作弊。实时监测机器人利用率(MRU)、token利用率(MTU)和GPU利用率,以Tokens-to-Success和Time-to-Success评估效率。ENPIRE自主完成扎带、整理细针、安装GPU等高精度任务,发现8机器人并行探索显著更快。系统将开源。https://x.com/DrJimFan/status/2067283904986517866
Google 医学推理 AI 系统 AMIE 新研究:从诊断迈向长期疾病管理 — Google Blog:AI(RSS) 今日发表在《自然》杂志上的研究展示了 Google 的医学推理 AI 系统 AMIE(Articulate Medical Intelligence Explorer)从单次诊断对话演进到长期疾病管理的能力。AMIE 利用 Gemini 模型的长上下文能力,整合共情对话智能体和深度思考管理推理智能体,可交叉引用数百页临床指南。在盲测中,AMIE 与 21 名初级保健医生相比,在整体管理推理上匹配临床医生,在计划精确性和指南一致性上得分显著更高。https://blog.google/innovation-and-ai/models-and-research/google-research/amie-for-disease-management-in-nature
技巧与观点
超越 LoRA:如何选择最佳参数高效微调技术? — Hugging Face:Blog(RSS) 参数高效微调(PEFT)技术中,LoRA 占据绝对主导:Hugging Face Hub 上 20,834 张提及单一 PEFT 技术的模型卡中 20,509 张指向 LoRA(98.4%);外部站点 10,000 个检查点中 95.0% 是 LoRA;GitHub 搜索
from peft import代码片段的 71.3% 结果为 LoRA。但研究者宣称其他技术超越 LoRA 的论文结果具备偏向性--调整学习率即可让 LoRA 匹配更优技术。Hugging Face 的 PEFT 库提供统一 API 实现 40 余种 PEFT 技术,并开始建立基准测试:在数学数据集上对 LLM 进行思维链推理微调,以帮助用户做出更优选择。https://huggingface.co/blog/peft-beyond-loraAI 智能体够格吗?在自有工具上评测开源模型 — Hugging Face:Blog(RSS) Hugging Face 发布面向 AI 智能体使用场景的基准测试框架,以 transformers 库为案例评估库的智能体友好度。框架使用 pi coding agent 与开源模型驱动,通过 Hugging Face Jobs 分散任务确保硬件一致。评估关注 agent 完成任务的成本、延迟、token 使用量和失败率,而非仅最终结果。此前 hf CLI 经优化后 agent token 使用量减少 1.3-1.8 倍(最高 6 倍),该框架旨在验证类似优化对 transformers 的效果。https://huggingface.co/blog/is-it-agentic-enough
Google 分享 A2UI 与 MCP Apps 三种集成架构模式 — Google Developers Blog(RSS) Google 分享了三种集成 A2UI 与 MCP Apps 的架构模式,旨在结合两者优势。A2UI 采用声明式框架,通过 JSON payload 定义 UI,由宿主原生渲染,确保一致性与安全性,但受限于预定义组件库。MCP Apps 在 iframe 中使用标准 Web 技术提供自定义界面,但存在设计碎片化、性能与安全挑战。三种模式包括:通过 MCP 服务器提供 A2UI,利用 MCP Resources 或 Tool 调用传递 JSON,实现"一次编写,原生渲染"的跨平台能力;以及静态与动态交付方案。Google 正考虑扩展 MCP 以原生支持 A2UI。https://developers.googleblog.com/a2ui-and-mcp-apps
Matt Pocock 开源 skills v1:将技能描述 Token 成本降低 63% — X:阿易 AI Notes (@AYi_AInotes) Matt Pocock(Total TypeScript 作者)开源了 skills v1,将技能描述的 Token 成本降低 63%。该工具包将技能分为模型可调用和用户可调用,新增 /codebase-design、/domain-modeling、/grilling 三项技能;重写 /writing-great-skills;将 /diagnose 更新为 /diagnosing-bugs 并改为模型可调用;新增 /ask-matt 路由技能,帮助 AI 自动判断时机触发合适工程流程。主推文评价其将 prompt 从咒语拆解为纪律性流程。https://x.com/AYi_AInotes/status/2067327021005656135
夜雨聆风