Highlight
「creative coding是把代码当做一种表现形式来进行创作和表达,在Web coding出现之前就已存在,现在借助AI和Web coding,让更多人拥有了创作能力」
「我们要让agent自由,也要让人类自由,先写高级语言,验证通过后再转换为如C、汇编等语言,这是一个正确的路径」

本次会议围绕创意编程、模型分析、未来工作模式、产品技术发展及安全问题等多个主题展开交流,分享了最新的行业动态和研究成果,探讨了相关领域的发展趋势和应对策略,内容如下:
创意编程与生成式艺术分享
思考方法:创作时要从硬件设备的传感器出发,探索 UIUX 的变化和互动方式,如利用摄像头、加速度计、指南针等,可应用于数据可视化等领域。
调试方法:创意编程过程是视觉调试过程,可使用 tweak paint、dat.GUI 等工具,让大语言模型做出可调试的体验,方便调整视觉效果。
创意提示词:提出开放式提示词(open ended prompts)的概念,在写提示词时要更有创意,可像写诗一样描述,同时加入 pipeline 限制,让大语言模型产生更有创意的内容。
代码翻译实践:以 ASCII art 为例,展示了从浏览器代码到物理世界代码的翻译过程,建议先看到视觉效果,再进行代码翻译。


浏览器优势:栾老师表示浏览器是适合创意编程、AI 和生成式艺术的媒介和平台,具有实时渲染等特性。如为线下品牌做的沉浸式墙、实时座舱模拟等都可在浏览器中运行。
二维渲染工具:介绍了 canvas2D,可在浏览器中绘图;P5.js 由 Processing 演变而来,Processing 是让艺术生学会写代码的工具,P5.js 能让 AI 写出具有创意编程味道的代码,相关创作可在 openProcessing.org 查看。
三维渲染工具:three.js 在 Flash 时代就存在,用于代替 Flash 的 3D 渲染,多数 Web coding 作品用其制作,可访问 threejs.org 查看例子。Dr Drei 是在 R3F 生态中让作品变好看的库,用它和 three.js 结合能写出有高级感的代码。
互动工具:推荐用摄像头进行互动,介绍了 Google 的 media pipe 框架,支持体感和手势模型,可在浏览器中运行;Transformer.js 可在前端调用 Transformer 模型,实现离线推理。
创意编程定义:栾老师提出创意编程(Creative Coding)是把代码当作表现形式进行创作和表达的领域,存在已久。在 Web Coding 出现前就有大师用代码创作,如 Jim Munk 用代码为电影生成设计,Rafik Anadol 开创裸眼 3D 风格设计,用代码实时讲故事。
大师作品展示:Jim Munk 的作品可在 gmonk.com 查看,其中包含影视作品里的界面等;Rafik Anadol 的作品 ARCHIVE dream 用代码将历史文物可视化,是八年前的作品。


核心概念与大师介绍
创作媒介与工具介绍
创作思考与实践方法
模型分析与行业动态

全球算力分布:Google 掌握世界上最大的算力,约为第二名微软的 1.5 倍,Google 的 TPU 占 2/3 左右,微软主要是 n 卡和部分 AMD,Meta 主要是 n 卡且 AMD 算力更多,Amazon 有自己的 GPU 且部分为英伟达。
苹果生态推理能力:苹果生态下的设备如 MacBook、Mac mini、Mac studio 以及手机、iPad 等在推理能力上有优化,Gemma 4 等模型在苹果设备上能有不错的推理表现,且苹果生态下的 MLX 类似于 CUDA 生态,逐渐成熟。
TOP100GEN AI 排名:HUZ 每季度发布的 TOP100GEN AI 排名显示,部分应用排名普遍变高,但程序员常用的工具如 Claude code 未在排名中,说明该评测可能在新的 AI native 用户中过时。
剪映数据:剪映移动端月活达 7 亿,排名第二,显示出其在视频工具领域的强大影响力。
Model Diff 研究:冯小平介绍 Anthropic 开展模型差异分析(model diff),通过分析模型向量值来研究两个异构模型的差别。发现中国模型有 CCP alignment 特征,美国模型有美国例外论特征,且该研究有负面引导倾向。
模型合并理论:提到以前有 model merge 的概念,即把两个擅长不同领域的模型向量值相加,使新模型在两方面都更出色。
Anthropic 模型研究
行业应用排名与评测
算力分布与苹果生态
模型新进展与应用案例
Harness 工程应用:有人用带有视觉能力的大语言模型牵着生成模型反复对抗,提升小模型能力,使其接近 Banana 一半的水平,说明 Harness 工程可实现多模态,模型整合是未来趋势。
推理生成模型整合:通过一个根据故事描述生成一系列图像的例子,展示了模型在复杂逻辑下的推理和生成能力,说明推理模型和生成模型的整合是必然趋势。
电磁学模型创新:冯小平介绍了一个电磁学模型项目,做了正向和反向两个模型。正向模型是从电路到电磁行为特征的仿真,反向模型则是根据想要的电磁行为特征生成可能符合的电路 geometry,改变了工程师的做事方式,可能是 AI for science 领域的新范式。

鲁玛 Uni one 模型:鲁玛的 Uni one 是有很强推理能力的视觉生成模型,能根据输入的图片如金门大桥图,经过推理生成相关的信息图,实现图与文字的交叉编码,既有推理能力又有视觉生成能力。
模型整合趋势案例
未来工作模式探讨

工作方式变化:假设拥有能以 50% 准确率完成人类 200 小时工作的 AI,人们会尝试在 TOKEN 廉价的情况下将工作横向扩展,探索工作的极限。未来工作方式将分为分钟级、小时级、周级的反馈循环,人类造成的瓶颈可能使工作总时间变长。
工作建议:虽然研究未给出实际缩短瓶颈的建议,但为探索下一代工作方式提供了参考,同时指出 junior 同学在驾驭 agent 实现商业价值方面存在差距。
长程任务定义:冯小平解释智谱 5.1 模型主打的长程任务,不是让 agent 持续工作,而是能完成人类持续工作一定时长的任务,如在 medium benchmark 里,50% 成功率下能完成人类 10 个小时的活,80% 成功率下能完成 1 个小时的活。
任务难度可视化:展示了一个任务难度可视化图表,每个点代表一种任务,随着时间推移,agent 能完成更难的任务,但仍有很多深色点代表的难任务待解决。
智谱 5.1 模型长程任务
未来工作模拟研究
产品与技术发展动态
LLM wiki 概念:capacity 推出的 LLM wiki 用于企业内知识管理,可将会议记录等内容整合到知识体系中,避免现用现查 RAG 系统效率低下的问题。
QMD 项目:QMD 项目可对 Markdown 文件进行索引,方便高效查询本地知识。
产品 CLI 化趋势:所有产品都在向 CLI 化发展,但产品面向 agent 构建时,需添加 skills 以避免 agent 趟坑,如飞书 CLI 在权限设置上存在问题,而 Gemini 的 API 除文档外还提供 skills 指导。
Cursor 产品优势:cursor 产品在管理各种 agent 的形态上比 Claude 做得更好,能清晰展示不同 project 下 agent 的工作情况。

mine context 项目衍生:mine context 项目创始人之一创业推出 air Jelly,通过记录用户桌面操作数据,将其转换为任务抽象,实现半主动的 agent 功能,主动猜测用户可能要做的事。
公司协同研究:everyday 公司研究人跟 agent 在公司协同工作的表现,发现员工对 agent 的接受程度差异大,探索下一代组织内的配合方式。
AI scientist 项目:Sakana 的 AI scientist 项目去年发出 ICLR 级别的论文,最近增加了 agentic tree search 能力,让模型参与研究方向的选择。
Marlin Beta 产品:Sakana 推出的首款商业化产品 Marlin Beta,用于金融分析和研报分析,能根据话题生成行业研究报告。
AI 科学家与商业化产品
上下文管理与主动 agent
大模型厂商与创业方向:冯小平指出大模型厂商如 Anthropic 会做 agent、memory context tool 管理、tool search 等,创业公司要么往上走接近业务价值,要么往下走等待被大模型厂商收购。
X402 协议与 WEB3:X402 是 agent payment 协议,最初由 Coinbase 提出,后被纳入 Linux 基金会接管,可看作下一代 Infra 的标准组件,但不推荐大部分同学参与 WEB3。
产品 CLI 化与技能添加
LLM wiki 与知识管理
安全问题与思考
供应链攻击新方式:Hsu 文章指出,现在有人利用 AI 抓取热门 AI 项目,在用户未注册相关包名时制作包推到 GitHub 上,诱导用户安装,实现供应链攻击自动化,且模型产生的幻觉可能导致用户安装含后门的包。
认知黑暗森林思考:冯小平提出认知黑暗森林的概念,认为在 LLM 时代,人们分享想法可能被 agent 捕捉并利用,引发对是否分享以及如何分享的思考。
夜雨聆风