Anthropic凭借11插件引发全球股市震荡 AI日报 20260206
开源音乐生成模型ACE-Step 1.5 :商业级音质,支持ComfyUI,消费级硬件生成完整歌曲仅需不到10秒
ACE-Step 1.5 采用创新混合架构,从根本上改变了AI生成音乐的方式。其核心是一个全能语言模型,可将简单的用户指令转化为完整的歌曲蓝图,支持从短片段循环到10分钟长曲的各类创作需求。
-
商业级音质表现:在标准评估指标中,ACE-Step 1.5 的音质超越多数商业音乐模型,音乐连贯性评分达4.72。
-
极速生成效率:在RTX 5090显卡上,生成一首4分钟完整歌曲仅需约1秒;即使是RTX 3090,也能控制在10秒以内。
-
适配消费级硬件:仅需不到4GB显存即可运行。
-
支持50+种语言:严格遵循50多种语言的指令,其中英语、中文、日语、韩语、西班牙语、德语、法语、葡萄牙语、意大利语及俄语的支持效果尤为出色。
-
思维链规划:模型通过思维链推理整合元数据、歌词与描述信息,引导扩散生成过程,最终产出连贯性更强的长篇音乐作品。
ACE-Step 1.5 现已在 ComfyUI 中获得首日支持
PaperBanana:多智能体协作,谷歌x北大联手打造学术版Nano Banana
Nano Banana之后,谷歌又发布了PaperBanana,旨在把科研人员从耗时的论文插图绘制工作中解放出来。
学术插图是信息承载的核心,也是传播过程的关键瓶颈:既要准确呈现方法细节,又要符合版式、标注与可编辑规范。因此,高质量学术插图的产出长期被视为研究中的劳动密集环节。Nano Banana虽提升了图像质量与指令遵从,但单一生成模型仍难满足学术出版要求。
模拟研究人员制造论文图表从找顶会过往参考图,规划自己如何作图,到画图并根据参考图进行精调的过程,PaperBanana背后就是规划了5个分工明确的智能体协同工作:
-
Retriever Agent(检索智能体):从顶会论文库中,找到与你要画的图领域、结构最相似的参考案例。
-
Planner Agent(规划智能体):把论文文字描述,转化为包含所有模块、逻辑的详细绘图说明书。
-
Stylist Agent(风格智能体):总结学术审美规范,给说明书加上配色、排版等“美颜”标准。
-
Visualizer Agent(可视化智能体):根据说明书,直接画图或写代码出图,产出初稿。
-
Critic Agent(批判智能体):检查图的对错与美观度,提出修改意见,循环迭代3轮优化。
采用了“VLM-as-a-Judge”(大模型当裁判)的评估范式——让强大的视觉语言模型如Gemini-3-Pro作评判,将PaperBanana生成的图与测试集标准答案进行逐项对比。主要从:忠实性、简洁性、可读性、美观性,四个维度进行对比,其结果为:
-
在匿名的人类盲测中,研究员有72.7%的情况认为PaperBanana生成的图比基线模型更好。
-
在需要高精度的统计图表任务中,PaperBanana的“代码生成模式”在数值忠实性上与人类水平相当,而简洁性和美观性甚至略胜一筹。
a16z掌门人谈AI投资:我们正迎来史无前例的多重赢家时代
本文编译自a16z2026年1月13日的访谈,由Jen Kha对话Ben Horowitz,探讨了顶级风投机构的管理哲学与AI时代投资趋势:
-
科技企业很少能一开始就掌握所有信息。
-
如今我们正身处人工智能浪潮的初期阶段,但平庸公司与卓越公司的关键差异,往往在于是否允许员工进行创造性冒险,同时又是否过度追究责任。
-
我们最大的误区在于,总把目光聚焦在企业的某些短板上,而非关注其核心竞争力和卓越表现。要知道,虽然人人都能自诩擅长某项领域,但真正需要验证的是:他们是否真正在该领域独步天下?这才是值得投资的核心价值所在,而非盲目追捧那些“多面手”。
-
我们始终关注关键节点:他们如何展现能力?把握机会的敏锐度如何?赢得机会的效率怎样?整体表现如何?我们如何评估当前质量?毕竟有些项目能成功,有些则失败,但并非所有事情都完美无缺。
-
说到底,决策能力是关键在于什么让你擅长这个。这其实是智慧与判断力的结合,而判断力本身又是智慧和知识的融合。所以问题在于:你掌握了多少知识?又有多聪明?如何将这些知识转化为正确的判断?在组织中,知识往往与实际干活的人紧密相连。
-
人们通常并不是在找你,他们真正需要的是清晰。就像很多组织需要的,往往不是正确性,而是清晰度。有了清晰,你就能行动。
-
如果回溯到三四年前,当时人们普遍认为,大型基础模型就像超级智能大脑,能比任何其他技术都更胜一筹。但现实发展却并非如此。如今的实际情况是,这些大型模型确实提供了至关重要的基础设施,所有企业都在不同程度上依赖其发展。但值得注意的是,对于任何特定应用场景而言,不仅需要模拟人类行为的长尾效应,更需要深入理解这种行为模式的复杂性。
喝点VC|a16z掌门人谈AI投资:我们正迎来史无前例的多重赢家时代
夜雨聆风
