OpenAI最近的举动,即弃用其微调API,成为了AI社区关注的焦点。多年来,OpenAI因其对微调技术的支持而在大型实验室中独树一帜,许多AI工程师曾宣传通过微调实现“以GPT-4o的价格获得GPT-1性能”,并将其视为工具箱中的重要组成部分。

然而,风向已变。据报道,Anthropic的估值可能首次超越OpenAI[1],而微调技术也可能成为继Sora之后的又一个“2026年支线任务大屠杀”的牺牲品[2]。即使不考虑剧烈的GPU资源紧张,80%的AI工程行业也可能正在朝这个方向发展,正如Fast.ai的Jeremy Howard早在2023年的播客中就已指出[3]。
当然,“终结”对于大多数人而言并不意味着彻底消失。事实上,顶尖的AI公司,如Cursor和Cognition(其250亿美元的融资轮次[4]已公开讨论),都增加了对开放模型RLFT和使用的投入。开放模型的微调也可能是自定义ASIC理论[5]的核心,但如果Taalas的模型和持续的P/D解耦推理解决方案[6]有所启示,那么也许超长提示(如Claude的“宪法”[7])就能满足一切需求。
AI领域的开发工具演变
在构建和投资AI开发工具时,最令人费解的莫过于顶尖的1%AI应用与其余99%应用构建方式的截然不同。这两种方式各自正确,并适用于不同的用例,唯一注定失败的是那些试图将两者混为一谈的人[8]。
一、AI Twitter热门回顾
1. 研究基准、硬评估与agent科学系统
- 研究级别推理基准持续升级:Soohak发布了由64位数学家(包括38位教授)从零开始撰写的439个研究级数学问题[9],明确旨在挑战超越奥林匹克数学标准的模型能力。在医学评估方面,SophontAI发布了Medmarks v1.0[10],将其开放医疗基准套件从20个扩展到30个,模型从46个增加到61个。同时,业界也日益认同旧有评估标准正在饱和,polynoamial认为应淘汰分数普遍偏高的基准,转而采用得分较低但能挑战前沿能力的测试[11]。
- Agent系统开始推动科学和数学基准的前沿:Google DeepMind的AI Co-Mathematician[12]被描述为一个为数学家设计的异步、有状态研究工作台,据称在FrontierMath Tier 4上达到了48%的得分,同时支持构思、文献发现、计算分析、定理验证和形式化输出。在理论物理领域,physics-intern[13]通过分解为专业agent,将Gemini 3.1 Pro在CritPt上的性能从17.7%提升至31.4%。在编码/程序合成方面,ProgramBench的第一个任务[14]据报道已被GPT-5.5 high/xhigh解决,其中xhigh在各项指标上均优于Opus 4.7 xhigh。
- 检索和搜索基准奖励小型、专业化模型:LightOn的Agent-ModernColBERT[15]在BrowseComp-Plus上比Reason-ModernColBERT提升了约10%,同时将检索器参数保持在149M,声称与更大型基于模型的系统配对时能达到或超越其性能。xuzihuan4也提出了相关讨论[16],探讨当agent能够迭代完善自身查询时,词法检索是否足以满足agent搜索循环的需求。
2. 训练、优化与缩放定律技术
- 优化器工作持续压缩训练成本,改进小规模实验:多项推文聚焦于SOAP/Muon风格更新的快速变体。torchcompiled将切线步长+Stiefel流形收缩应用于SOAP基准更新[17],并进行了后续讨论[18],关注漂移检查和QR回退以增强稳定性。在Modded-NanoGPT社区,SOAP-Muon[19]以3150步(-60)创下新纪录,而早期NorMuonH上的MuLoCo风格外部Nesterov SGD封装[20]也改进了结果,两者均有P值报告支持。
- 形式化方法和超优化开始与ML系统工作融合:leloykun描述了一个Lean4-to-TileLang张量程序超优化器[21],能自动发现FlashAttention2、FlashNorm和split-k matmul等内核,据称在A100上实现了约1.8倍的几何平均加速。该框架旨在共同搜索内核、优化器、超参数转移规则和缩放定律。
- 缩放定律和训练指标正在重新审视:che_shr_cat认为经典的“每参数20个token”框架[22]依赖于分词器,应以字节而非token来衡量缩放。另外,JJitsev强调,预测性缩放定律不仅对预测有价值,更是比较不同规模学习过程的系统性基础[23]。
- 仅训练时效率技巧变得更有趣:来自Nous的Lighthouse Attention[24]被强调为一种围绕传统注意力机制的亚二次方训练封装器,可在训练接近尾声时经过恢复阶段后移除,从而在降低长上下文预训练成本的同时,保留标准的部署时推理性能。同样,Prime Intellect的Renderers[25]解决了RL训练器和agent环境之间的token/消息阻抗不匹配问题,声称在流行开放模型上实现了超过3倍的吞吐量。
3. 推理系统、服务栈与运行时基础设施
- Blackwell机架正成为大型MoE服务的参考平台:Perplexity公布了在NVIDIA GB200 NVL72系统上提供后训练Qwen3 235B的详细信息[26],认为GB200对于大型MoE来说是比Hopper更重要的推理飞跃。他们的基准测试[27]显示,NVLS all-reduce延迟从H200上的586.1微秒降至GB200上的313.3微秒,MoE prefill组合在EP=4时从730.1微秒降至438.5微秒,并在高token速率下具有更好的解码吞吐量。AravSrinivas将此视为实质性改变了大型MoE服务中的预填充/解码分离[28]。
- 推理编排日益专业化,而非“仅仅Kubernetes”:Modal认为推理需要专门的堆栈[29],并引用了计算管理、云原生缓存、CRIU和GPU检查点方面的工作。Perceptron立即对这一观点表示认可[30],称所有Mk1推理都在Modal上运行,因为原生视频、结构化输出和混合推理带来了不同寻常的冷启动和扩展要求。
- OSS推理经济学持续快速提升:SemiAnalysis报告称[31],通过RoCEv2 CX-7将多个B200 8-GPU机器集群与PD解耦结合,可将每GPU token吞吐量提升高达7倍,这意味着相应的每token成本降低。在向量数据库方面,Qdrant 1.18新增了TurboQuant[32],声称在内存减少2倍的情况下,召回率接近标量量化,同时还增加了内存监控和命名向量生命周期操作。
- Agent运行时正在成为版本控制式的基础设施:斯坦福大学引人注目的系统构想是Shepherd[33],正如ai_satoru_chan所总结的,它将agent执行更像Git:一流的任务、效应、范围和追踪;精确回放;分支;回滚;以及Lean中的形式化保证。声称的结果包括CooperBench上的实时监督增益从28.8%提升到54.7%,以及更快的反事实优化和树RL rollout。
4. 产品与模型发布:多模态、视频、检索与嵌入
- Perceptron Mk1是本次最实质性的新模型发布:Perceptron公司推出了Perceptron Mk1[34],这是一个用于前沿视频和具身推理的模型,支持高达2帧/秒的原生视频、时间接地、多模态上下文学习和结构化空间输出。OpenRouter的总结[35]指出,它具有32k多模态上下文和点、框、多边形和剪辑等一流输出。该发布被定位为一个物理世界推理栈,而非通用的VLM。
- Google和Meta都推动了多模态交互层,而非独立模型规范:Google DeepMind的AI驱动鼠标指针演示[36]重新构想了光标作为与Gemini关联的上下文指向界面,允许用户指向屏幕内容并口头输入简短指令。与此同时,Meta宣布了由Muse Spark驱动的Meta AI语音对话[37],增加了中断、语言切换、图像生成和实时摄像头引导交互功能。
- 嵌入和检索模型更新引人注目:Jina发布了jina-embeddings-v5-omni[38],一个用于文本、图像、音频和视频的通用嵌入模型,有1.57B和0.95B两种变体,均支持Matryoshka截断并向后兼容现有v5-text索引。Meta悄然发布了Sapiens2[39],这是一系列以人类为中心的高分辨率ViT模型,参数范围从0.1B到5B,用于姿态估计、分割、法线和点云图。
- 扩散和图像工具持续发展:Hugging Face的Diffusers 0.38.0[40]新增了Ace-Step 1.5、LongCat-AudioDiT和Ernie-Image等管道,并支持Flash Attention 4、FlashPack加载和Ring Anything以实现上下文并行。其他研究发布包括ELF:嵌入式语言流[41],一个连续空间文本扩散模型,以及腾讯的Pixal3D[42],用于像素对齐的3D生成。
5. Agent、工具与开发者工作流
- Agent产品正从演示转向运营平台:OpenAI预告了Symphony[43],这是一个让每个开放任务都由一个运行中的Codex agent处理的系统,并独立强调了Codex在跨应用程序工作中的计算机使用[44],无需完全接管。LangChain重新开源了其改进的Chat LangChain应用[45],称其为一个每周处理近2万亿token的生产级问答agent。
- 长运行agent状态管理正在成为一流的系统问题:LangGraph新的DeltaChannel快照[46]旨在取代全状态检查点,实现可扩展的持久执行;LangChain表示同样的机制现在为deepagents v0.6中的消息历史记录和文件存储提供支持。这种模式也出现在Google的Gemini Interactions API指南[47]中,其中加密的
thought签名在有状态和无状态模式下都能保留推理上下文,而无需开发人员手动管理签名注入。 - 合成数据和RL环境生成正在投入实际运行:Vtrivedy10提供了一个有用的实践者视角[48]:从模型权重中提取目标合成数据在大规模下很难,特别是对于长序列等代表性不足的分布,有效的管道需要程序化测试、验证器、判断器和agent化的长周期框架。在基础设施方面,Tau2-Infinity[49]通过DAG遍历或基于失败假设的世界生成,将RL后训练的硬工具使用任务的自主挖掘形式化。
- 最热门推文(按参与度筛选,关注技术相关性):
- Gemini作为操作系统级智能层:Google的Gemini Intelligence[50]、Googlebook[51]和AI指针演示[36]共同指出,agent用户体验正从聊天窗口转向操作系统。
- Isomorphic Labs融资:Demis Hassabis宣布为AI驱动的药物发现获得21亿美元新融资[52],这是该数据集中直接与应用AI平台相关的最大资本承诺之一。
- 语音到语音基准测试:Artificial Analysis的τ-Voice基准[53]发现,即使是最好的S2S模型也只能解决约一半的现实客户服务场景,其中Grok Voice Think Fast 1.0以52.1%的成绩领先。
- Claude Opus 4.7快速模式:Anthropic的快速模式发布[54]已到达API和Claude Code,Cursor指出其速度提升2.5倍但成本增加6倍[55],为延迟/价格前沿提供了一个具体的全新点。
6. 安全、供应链与更安全的编码
- 最紧迫的操作故事是Mini Shai-Hulud供应链攻击:IntCyberDigest报告称[56],该攻击已从TanStack扩展到OpenSearch、Mistral AI、Guardrails AI、UiPath等npm和PyPI上的项目,专门针对AI开发者工具。值得注意的技术细节是其持久性:据称它会hook进Claude Code(
.claude/settings.json)和VS Code(.vscode/tasks.json),因此即使移除包后,妥协仍可在未来的工具事件中重新执行。Guardrails AI后来证实其0.10.1包[57]被入侵并在约2小时内被隔离。 - 可操作的缓解措施迅速浮出水面:ramimacisabird指出[58],除了
minimumReleaseAge之外,团队还应启用blockExoticSubdeps以防止远程GitHub引用混入依赖图。elithrar重申[59],GitHub的pull_request_target仍然是基于fork的PR自动化中最危险的CI/CD安全漏洞之一。在工作站层面,andersonbcdefg建议[60]将秘密信息从普遍存在的本地.env文件移至专业的秘密管理器。 - 更安全的代码生成正在成为独立的研究方向:斯坦福大学相关SecureForge[61]的工作旨在通过提示优化在LLM生成代码中发现/预防漏洞,而其对应的论文列表[62]将其定位为代码生成和安全评估之间的桥梁。更广泛的观点是:代码生成agent现在已足够强大,供应链强化和安全生成评估需要被视为核心基础设施,而非次要问题。
二、AI Reddit热门回顾
1. Qwen 3.6 MTP与长上下文本地评估
- Unsloth上的MTP[63]:Unsloth AI发布并更新了保留MTP(next-token-prediction辅助层)的GGUF版本,包括
unsloth/Qwen3.6-27B-GGUF-MTP和unsloth/Qwen3.6-35B-A3B-GGUF-MTP。其技术意义在于这些GGUF保留了MTP层,但用户仍需检出并构建特定的llama.cpp MTP PR,而非依赖默认llama.cpp支持。有评论者遇到运行时/模型加载断言失败,表明这些MTP GGUF的工具或元数据支持仍不稳定。 - 有用户在编译/运行新的27B GGUF模型时报告了
qwen35_mtp.cpp中的硬断言失败,提示GGML_ASSERT(hparams.nextn_predict_layers > 0 && "QWEN35_MTP requires nextn_predict_layers > 0") failed。这表明加载的GGUF/模型元数据可能缺少或未公开nextn_predict_layers,而这是当前实现中Qwen3.5 MTP执行所必需的。 - 多位评论者正在关注llama.cpp和vLLM是否已支持原生MTP,其中一人明确询问llama.cpp现在是否“开箱即用”支持MTP。讨论暗示了后端支持仍在变化中,用户正在关注上游仓库以确保与GGUF MTP模型的兼容性。
- 一个技术要点是,GGUF中的MTP支持被视为对本地推理很重要,特别是对于Qwen风格的变体,例如提到的35B A3B模型。评论者强调35B A3B变体特别有趣,因为它预期能带来上下文长度的改进。
- Qwen 3.6 35B A3B的炒作是真实的![64]:一位用户在小众的论文到代码理解任务上,对比了Qwen 3.6 35B A3B、Qwen 3.6 27B、Gemma 4 26B A4B和Nemotron 3 Nano,通过门控delta网络、混合Mamba2和滑动窗口注意力等长上下文机制,向每个模型输入学术论文及配套研究代码。在他们详细的发现[65]中,所有四个小型/本地开放权重模型都显著优于之前的Devstral Small 2[66]等小型模型基线,其中Qwen 3.6 35B A3B被认为最强;Devstral Small 2无法在32GB显存/内存中处理长上下文工作负载。评论者指出实际权衡:Qwen 35B在长上下文/重构方面表现更佳,但在“思考模式”下可能过于冗长/缓慢,而Gemma 26B在代码修复/聊天方面更快;在q4量化下,一位用户报告Qwen 35B约占用20GB,Gemma 26B约占用15GB,两者可同时加载。另一位评论者批评该评估未记录推理设置,限制了可复现性。
- 多位用户比较了使用Gemma 26B和Qwen 35B的本地工作流,指出在q4量化下两者都可以同时驻留,因为Qwen 35B约20GB,Gemma 26B约15GB。一位评论者使用Gemma 26B的思考模式进行快速代码修复/聊天,而Qwen 35B的思考模式用于较长上下文的重构,但报告Qwen 35B在最终输出前由于过度的推理冗余而导致高延迟。
- 一份以编码为重点的报告声称,Qwen 27B在由更强大的模型/编码agent进行初始项目设置后,可以有效地处理大型项目(100k+行代码),然后切换到Qwen进行后续工作。用户发现Qwen 27B和DeepSeek V4在其用例中几乎没有实际区别,尽管Qwen偶尔会进入循环,需要手动中断和继续提示。
- 一位评论者强调,Qwen 27B/35B的性能对推理配置很敏感,特别是温度/采样参数,以及避免对模型权重或KV缓存进行过度激进的量化。另一个人要求提供缺失的运行设置,暗示如果没有量化级别、采样器设置、上下文长度、后端或硬件等详细信息,原始声明难以评估。
2. 内存分级和能效本地推理
- 使用Intel Optane持久内存构建计算机——可运行万亿参数模型,速度超过4 tokens/秒[67]:一幅图片展示了使用Intel Optane DC持久内存DIMM的高内存Xeon工作站/服务器内部结构,与帖子中声称的通过llama.cpp混合GPU/CPU推理在本地以约4 tokens/秒的速度运行Kimi K2.5(一个约1万亿参数的MoE模型)相符。关键技术点在于使用了768GB Optane PMem在内存模式下运行,其中Optane显示为系统RAM,192GB DDR4 ECC DRAM充当缓存,允许模型的稀疏专家权重驻留在PMem中,而注意力/密集/共享专家/路由张量则使用
override-tensor或ngl auto/cmoe适配到RTX 3060 12GB。评论者指出,更高核心数的Cascade Lake Xeon(如ES 8260/QQ89)可以提高吞吐量,并讨论了Optane存储模式加mmap是否可能优于内存模式。其他人认为这个构建令人印象深刻,但质疑4 tokens/秒对于交互式使用是否实际可接受。 - 一份详细的硬件说明表明,性能可能会随着更高核心数的Cascade Lake Xeon(例如QQ89 ES / Xeon Gold 8260级别的24核处理器)而提高,而不是当前使用的Xeon Gold 6246 12核处理器。评论者还建议对Optane PMem在存储模式+mmap与内存模式下的性能进行基准测试,并指出内存模式使用DRAM作为透明缓存,需要将页面交换回DRAM才能进行CPU执行,因此其延迟不等同于普通RAM。
- 一位评论者提供了简洁的Optane PMem平台兼容性分解:LGA3647 Skylake/Cascade Lake使用第一代Optane NMA,速度为2666 MT/s;而LGA4189使用第二代NMB,在Cooper Lake上运行速度为2666,在Ice Lake上运行速度为3200。他们还指出,在Cascade Lake上混合使用Optane和DRAM可能会使受影响的通道降频至2666,并且这一时期的许多Xeon在DRAM+Optane的总内存限制为1TB,除非使用高内存SKU或更新的平台。
- 一个技术警告指出,虽然万亿参数模型以约4 tokens/秒的速度生成可能在某些用途中可容忍,但在此类内存层次结构下,提示处理/预填充速度可能会差得多。另一条评论估计,包括Xeon Gold 6246、TYAN S5630GMRE-CGN、RTX 3060 12GB、192GB DDR4 ECC RDIMM和768GB Intel Optane DCPMM在内的二手市场完整构建成本约为2060-2500美元。
- 停止浪费电力[76]:一位用户在RTX 4090上使用
llama.cpp的llama-server,以Qwen3.6-27B-UD-Q4_K_XL.gguf模型,启用完全GPU卸载(-ngl all)、FlashAttention、q4_0 KV缓存量化、32线程和262144的上下文,通过sudo nvidia-smi -pl N改变GPU功耗上限进行基准测试[77]。他们报告GPU持续受到功耗限制,并且降低功耗上限可以显著降低功耗/发热/噪音,而解码/token生成(tg)吞吐量几乎没有损失;一位评论者指出,预填充(pp)对功耗更敏感,当功耗从450W降至270W时,性能损失约为15-20%,具体取决于模型。评论者主要关注区分解码与预填充行为,因为解码似乎对功耗不敏感,而预填充的性能下降更为明显。一位RTX 5090用户表示,他们已经为了硬件安全考虑限制了功耗,并可能根据这些结果进一步降低。 - 用户关注GPU功耗限制对性能的影响:据报告,解码/token生成(tg)不是瓶颈,而预填充(pp)受到较大影响。一位评论者量化了这种权衡,指出当功耗从450W降至270W时,预填充性能损失仅为约15-20%,具体取决于模型,这表明激进的功耗上限可以带来显著的效率提升。
3. 超小型片上Transformer实验
- 我在一台Game Boy Color上运行了一个真正的Transformer语言模型![78]:图片显示一台Game Boy Color运行本地TinyStories Transformer演示。根据帖子,这是Andrej Karpathy的TinyStories-260K转换为INT8/定点数学,在GBDK-2020 MBC5 ROM中运行,权重存储在银行切换的卡带ROM中,KV缓存存储在卡带SRAM中,因为GBC的工作RAM很小。作者指出它极其缓慢,并且由于激进的量化/近似处理,主要产生乱码,但核心的本地Transformer预填充+自回归生成循环在设备上运行,无需PC、手机、Wi-Fi、连接线或云推理[79]。评论大多是热情的赞扬;一位评论者表示这让他们想在N64上运行模型,另一位则链接了一个相关的/开玩笑的Game Boy语言模型项目[80]。
- 一位评论者链接了之前的Game Boy语言模型项目gbalm[80],表明此前已有在极度受限的任天堂掌机硬件上进行片上LM推理的实验。这对于在非GPU、复古8位级系统上实现方法和可行性提供了比较点。
- 一个技术问题集中在为什么此处不需要CUDA/ROCm风格的GPU堆栈:评论者指出,典型的LLM推理与成熟的GPU编译器相关,但此演示却在堪比“土豆”的硬件上运行。隐含的观点是,足够小的Transformer模型可以通过手写或高度简化的CPU风格推理循环执行,尽管吞吐量非常低,并且向未来中国GPU等不受支持的加速器移植将更多地取决于是否拥有基本的计算后端,而非完全的CUDA兼容性。
- Needle:我们将Gemini工具调用蒸馏成一个26M模型[81]:Cactus Compute发布了Needle,一个MIT许可的26M参数单次工具调用模型,从Gemini合成数据中蒸馏而来,声称在消费设备上实现6000 tok/s的预填充速度和1200 tok/s的解码速度;权重可在Hugging Face[82]上获取,代码/文档可在GitHub[83]上获取。其架构使用了“简单注意力网络”(Attention Plus Gating,无MLP/FFN层),认为函数调用主要是对提供工具schema的检索/组装,而非记忆式推理;训练使用了200B预训练token在16个TPU v6e上运行27小时,以及2B合成函数调用token运行45分钟[84]。作者声称它在单次函数调用方面击败了FunctionGemma-270M、Qwen-0.6B、Granite-350M和LFM2.5-350M,但也承认这些大型模型具有更广泛的会话能力。评论者将该模型视为一个潜在的轻量级路由器,可分发查询/工具或升级到更大的LLM,其中一人询问相同的架构是否可以支持高质量的摘要。一个技术担忧是关于上传的pickle文件,因为存在Python特定的依赖和反序列化安全风险。
- 一位评论者将26M的蒸馏工具调用模型视为一个轻量级的路由器/门控模型:它可以决定是否将查询发送到更大的LLM以及使用哪些参数,从而有效地将昂贵的模型调用减少到需要它们的场景。他们还推测相同的架构是否可以推广到受限的摘要工作流,尽管线程中没有提供基准证据。
- 一个技术讨论集中在作者声称的“无FFN”结果:对于具有外部结构化知识的任务,例如RAG、工具使用和检索增强生成,如果相关事实已存在于上下文中,模型可能不需要前馈层来存储事实知识。一位评论者将其推断为一个管道,其中一个小型的后训练模型将请求路由到RAG,然后使用检索到的上下文生成自然语言答案。
- 提出了几项实施/安全担忧:一位评论者指出,发布pickle文件因Python特定的依赖问题和反序列化过程中的任意代码执行风险而日益被避免。另一个人指出Gemini曾有明显的工具调用怪癖,包括系统提示式地推理避免使用
cat并偏好grep_search等工具,这引发了如果未仔细清理,蒸馏数据集可能会继承提供商特定的工具使用偏见的可能性。
三、非技术AI Subreddit热门回顾
1. Claude编码工作流和工具
- 我继承了一个来自“Vibe工程师”的3个月旧仓库。写出了我职业生涯中最满意的PR[85]:图片是一个GitHub风格的diffstat,显示了一个清理PR,有+10,197行添加和-3,618,778行删除,这为帖子中声称的重写一个3个月大的“凭感觉编码”后端仓库提供了背景[86]。作者表示,继承的仓库有309k行代码、240k行文档、1M+行Markdown日志、220个处理程序中只有约20个被使用,以及40+个秘密信息中只有2个是必需的;他们在一周内使用Claude重写了它,在保留功能的同时增加了更清晰的架构和集成测试。评论者将此视为AI/agent生成代码带来的一种新兴维护问题,有人预测“修复凭感觉编码的烂摊子”可能成为一个利润丰厚的职业道路。帖子还质疑精心设计的agent知识库和自动生成文档是否真正提高了开发效率,抑或只是制造了生产力的假象。
- 一位评论者预测,修复AI/“凭感觉编码”的仓库可能会成为一个有价值的专业领域,暗示agent编码的短期生产力可能会带来下游的可维护性债务。他们还认为,许多关于“凭感觉编码”的热情来自非软件专业人士,这表明演示级输出与生产质量工程标准之间存在差距。
- Clawdmeter - 一个小型的ESP32使用限制监控器(源代码在描述中)[87]:图片显示Clawdmeter,一个基于ESP32的小型桌面监控器,显示Claude/Anthropic的使用限制、重置计时器和进度条,与帖子中描述的Waveshare ESP32开发板(32美元,带有480×480 AMOLED显示屏)相符。该项目在GitHub上开源[88],图中的设备似乎以紧凑的物理仪表板形式可视化了当前和每周的配额状态[89]。评论大多轻松幽默,用户开玩笑说Anthropic应该免费提供这些设备,这可能会增加“Claude使用焦虑”。一位评论者还表示有兴趣使用相同的低成本ESP32显示平台用于其他定制的智能家居状态设备。
- 一位评论者建议将ESP32监控器从即时配额显示扩展为一个小型遥测设备,记录使用历史数据。他们特别希望能够跟踪每个命令的影响,并提供图表视图来验证Claude的使用是否比预期更快。
- 另一个提出的技术角度是,同样低成本的ESP32风格硬件平台是否可以重新用于其他定制的、小众的智能家居状态显示器或监控器。该评论将该设备框定为通用环境信息设备,而不仅仅是Claude配额计量器。
2. AI部署的现实世界故障模式
- ChatGPT现在正在为教科书创作内容。[90]:图片似乎显示了一个DBMS教科书页面,其中一个AI助手风格的句子——“如果你想,我还可以解释……”——意外地留在了印刷/制作的材料中,暗示ChatGPT或类似的LLM可能被用于起草教科书内容,但缺乏足够的人工审查。这并非技术基准或实现帖子;其重要性在于上下文:它突显了教育材料中可能存在的AI生成内容痕迹[91]。评论者批评了缺乏编辑审查,并认为AI生成的面向学生的教育内容在各机构、教职员工和外包提供商中变得普遍。一位评论者还指出,可见的注释可能已通过Gemini或其他工具编辑,但主要关注点仍在于教科书文本本身似乎未经审查。
- 一位评论者声称,根据与教育机构的直接合作,AI生成的面向学生的教学内容正变得无处不在,涵盖了教师、工作人员和外包教育内容提供商,这暗示着从孤立使用到机构范围内的生产工作流程的转变。
- 一个技术观察指出,由于水印去除伪影、文本超出页面边缘,以及可能在有人使用Gemini添加方框/箭头注释时引入的SynthID/Gemini来源标记,该图片很可能经过AI编辑/生成。另一位评论者指出,在没有具体教科书引用的情况下,整个截图本身可能就是AI生成,而非真实书籍的证据。
- 我为我的婚礼宾客制作了一个AI礼宾。他们最常做的第二件事就是尝试越狱它。[92]:图片是一个自定义AI婚礼礼宾的信息图报告卡,用于毛里求斯的目的地婚礼:29位用户产生了719个会话和8,678条消息[93]。其使用情况分解值得关注,因为它反映了现实世界聊天机器人部署行为:35%的真诚物流问题,25%的越狱/黑客尝试,以及文化翻译、闲聊和杂项请求;创建者表示它通过MCP服务器连接到API,为客人检索婚礼信息。评论者认为该项目比普通的聊天机器人演示更有趣,但对仅29人产生的消息量以及客人频繁尝试越狱感到惊讶。
- 原帖作者描述了构建两个相关系统:一个用于毛里求斯目的地婚礼的婚礼策划助手,以及一个面向宾客的AI礼宾,该礼宾通过MCP服务器连接到外部API,为用户检索活动/旅行信息。帖子中一个值得注意的使用统计是,仅29位宾客就产生了超过8000条消息,帖子标题表明,尝试越狱是第二常见的行为。
- 一位评论者提出了关于可观察性和日志的实施/隐私担忧:宾客是否知道创建者可以阅读他们与礼宾的对话。这对于构建小型活动AI助手的人来说很相关,因为聊天记录保留、管理员访问和同意问题即使在非企业部署中也可能成为重要问题。
四、AI Discord社区
不幸的是,Discord今天关闭了我们的访问权限。我们将不再以这种形式提供Discord信息,但很快将推出新的AINews。感谢您的阅读,这是一段美好的旅程。
参考链接
- [1] https://substack.com/redirect/3b70de1d-7732-41fb-af8f-9995cd329615?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [2] https://substack.com/redirect/943a65ab-693d-4652-8e13-65d85b7c155c?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [3] https://substack.com/redirect/7c22b032-4330-4918-8c6b-a65334d9aad6?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [4] https://substack.com/redirect/3b655018-9822-4c06-a930-fb105edd129e?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [5] https://substack.com/redirect/8ac05cfd-256f-475c-9cb0-4335a75ea50d?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [6] https://substack.com/redirect/5400e63e-f8d1-4451-b6d7-fc6df041a364?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [7] https://substack.com/redirect/5400e63e-f8d1-4451-b6d7-fc6df041a364?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [8] https://twitter.com/swyx/status/1800057209733470295
- [9] https://substack.com/redirect/b9faa26a-ec02-476b-b179-964e808bd008?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [10] https://substack.com/redirect/054ac8c8-5646-4171-b071-42f9fd116ab9?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [11] https://substack.com/redirect/3827ae07-0e9a-4b60-9fcb-e0b0945e138b?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [12] https://substack.com/redirect/3af27bf7-1ab8-43ea-9d37-7af3a9a01358?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [13] https://substack.com/redirect/58945dc1-38d3-4217-a1df-2b231bcfa1b5?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [14] https://substack.com/redirect/a20fe82c-c362-493a-a757-3fbbb49c022e?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [15] https://substack.com/redirect/b7b8b1ce-dc10-4dc0-9f27-c6f2f804be83?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [16] https://substack.com/redirect/2bf8dc1e-37cb-469c-9878-f172249ae900?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [17] https://substack.com/redirect/12bdfc43-c918-40cd-9412-12b9f93eb20e?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [18] https://substack.com/redirect/53c58552-3228-4003-9c7f-2813284056c3?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [19] https://substack.com/redirect/7dc99512-1c8b-4b3e-9cd6-03be04594642?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [20] https://substack.com/redirect/ef135890-0fb3-4dce-bf79-a72641cd9e60?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [21] https://substack.com/redirect/bcdbe948-b8ce-40ac-baa1-bedb839d5392?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [22] https://substack.com/redirect/f42b0e10-3654-4dfa-af22-1eb22e0867eb?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [23] https://substack.com/redirect/506e09b9-638b-400e-a55e-38504de3da58?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [24] https://substack.com/redirect/ab64f42a-809b-4095-8487-5292460df5de?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [25] https://substack.com/redirect/2286a04a-e769-4202-a820-ab93d2301dd7?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [26] https://substack.com/redirect/826051e7-fde5-4fc4-8277-dab13dfe0e6e?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [27] https://substack.com/redirect/826051e7-fde5-4fc4-8277-dab13dfe0e6e?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [28] https://substack.com/redirect/b79e8f18-68a0-4f0d-9c33-616e414d8b4c?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [29] https://substack.com/redirect/1fe0ecd7-f028-48e0-86c8-d802cf4e4772?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [30] https://substack.com/redirect/04f3e7f9-6dcd-4a5f-a490-46c342a58511?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [31] https://substack.com/redirect/51a517a3-4c11-49d5-bfcd-a20b5a46dff3?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [32] https://substack.com/redirect/23da1f62-0578-4604-b804-6ff34b1536e9?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [33] https://substack.com/redirect/3c8c7865-ba8c-4d83-8ef2-134c7d0b3e74?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [34] https://substack.com/redirect/1cd7f70d-ca9f-4f20-90f0-d25a0617f8ca?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [35] https://substack.com/redirect/8fd303e7-a23b-47ff-8907-65e301912e24?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [36] https://substack.com/redirect/eeee9558-f4ff-4a69-9854-438a82431662?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [37] https://substack.com/redirect/1bfaf10a-1d5c-4a11-8cc2-7f799124a6fa?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [38] https://substack.com/redirect/08379e77-fc60-46c8-89c3-b0badb3390a8?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [39] https://substack.com/redirect/58d21b80-8699-4696-be99-60c9651d2256?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [40] https://substack.com/redirect/59a8b836-a84b-4e9d-87d4-454363a7da88?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [41] https://substack.com/redirect/85ad471b-a9e8-4673-b78d-06940b2d5102?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [42] https://substack.com/redirect/4730f0ca-ac36-4f9f-81bd-139381297342?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [43] https://substack.com/redirect/7a28cad6-f8f8-4b66-b36d-ca8dc19ae8e8?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [44] https://substack.com/redirect/60a9274d-3f9f-4f03-af4f-888b87677576?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [45] https://substack.com/redirect/08cd3782-1976-4a4a-9b9c-714fdf1512e7?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [46] https://substack.com/redirect/2875fdf2-bbc8-46ef-854d-86e68d062ba8?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [47] https://substack.com/redirect/0f12ab3b-db31-48a0-9658-9becd359c4de?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [48] https://substack.com/redirect/01394f4d-6f28-49de-81f4-497ce4cf7eca?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [49] https://substack.com/redirect/5cae193b-cf6e-43a7-8539-8d842792a508?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [50] https://substack.com/redirect/28a13191-4936-4407-a6df-b5cb23522e86?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [51] https://substack.com/redirect/74e5eac7-022c-4b0c-a4ea-a607ea78386a?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [52] https://substack.com/redirect/1337a6a9-b666-479b-86e5-087adcfa193f?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [53] https://substack.com/redirect/a647c70e-be30-4234-bfc5-8d0279969fb3?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [54] https://substack.com/redirect/6171121b-fb03-4ae4-8511-df07bef22b2b?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [55] https://substack.com/redirect/af29d96b-fd01-4e38-83a1-fcf2842df011?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [56] https://substack.com/redirect/15e53d59-3f4e-47eb-87e1-741bce7596b3?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [57] https://substack.com/redirect/d76bceca-abc6-4961-b733-62ca63c6b4c9?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [58] https://substack.com/redirect/c817b5de-1486-42cb-bd6f-9a9f2d5713f6?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [59] https://substack.com/redirect/4307604e-a2d6-44c5-989f-c78de6787176?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [60] https://substack.com/redirect/dc2c9f3b-f70c-4582-a816-36d24851994e?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [61] https://substack.com/redirect/4cf6bbf4-447a-4a50-a357-0ff0382933a2?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [62] https://substack.com/redirect/75eda4f2-edcd-4d9e-9a03-8ba89c454150?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [63] https://substack.com/redirect/f88d68ce-37e3-4a68-87e8-ba510b4722c2?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [64] https://substack.com/redirect/f96e5f96-88ac-4052-8c0c-f4fc9ad4a0d3?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [65] https://substack.com/redirect/ebada29b-0e3f-4692-8b68-0c3ec9712216?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [66] https://substack.com/redirect/5470692b-e282-4757-b8e7-845825177863?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [67] https://substack.com/redirect/8ff7d989-d7d2-4db4-a980-2242c97907b9?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [68] https://substack.com/redirect/61151cd0-f945-4979-a23e-d4baa0b591ef?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [69] https://substack.com/redirect/44e7bd1c-7a47-443d-9e8f-a3c3d1e3e3d7?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [70] https://github.com/maddiedreese/gbc-transformer
- [71] https://github.com/calebfenton/gbalm
- [72] https://substack.com/redirect/0763755e-068b-4deb-be8c-c36a151911c0?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [73] https://substack.com/redirect/5c6147b3-0557-479d-b234-be4c6c1d5b2b?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [74] https://substack.com/redirect/43cdc479-b70a-4a05-824b-0d60a92bf7bb?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [75] https://substack.com/redirect/3c0d1020-6a6b-4480-b15e-3705b0ab39c6?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [76] https://substack.com/redirect/b2fcfb2e-8401-4bd7-81c7-c273ee41cfc8?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [77] https://substack.com/redirect/14b209f8-2297-4e4c-ba1e-1df25e9424f6?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [78] https://substack.com/redirect/8573155b-5e59-4ffa-9eec-8f0c181d4989?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [79] https://substack.com/redirect/1ec25eef-6af1-4520-b95c-e41a8496e347?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
- [80] https://substack.com/redirect/be9fd476-adbb-4fec-916e-7cb42122ef97?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
AI群: 欢迎加我微信 tsla10timesAI交流,拉你进群!我们刚刚建立这个AI交流社群,正在寻找志同道合的朋友一起成长!
夜雨聆风