4月25日全球 AI技术资讯

GitHub 热门AI项目
posthog
标星数:33,220今日标星:85所有者:PostHog开发语言:Python描述:PostHog 是一个开源的一体化开发者平台,专为构建成功产品而设计。它集成了产品分析、Web 分析、Session Replays(会话回放)、Error Tracking(错误追踪)、Feature Flags(功能标志)、Experiments(实验)、Surveys(调查问卷)、Data Warehouse(数据仓库)及 CDP 等核心功能。此外,平台还提供 AI 助手和 LLM 分析支持。PostHog 支持云端免费使用或自托管,帮助开发者在统一栈中管理数据,加速功能迭代并高效调试代码。项目地址:https://github.com/PostHog/posthog
vaultwarden
标星数:59,216今日标星:268所有者:dani-garcia开发语言:Rust描述:Vaultwarden 是一个用 Rust 编写的 Bitwarden 兼容服务器实现(前身为 bitwarden_rs)。该项目专为自托管场景设计,相比官方服务更加轻量高效。它几乎完整实现了 Bitwarden 客户端 API,支持个人保险库、Send、附件、组织管理及密码共享等功能,并能完美兼容官方 Bitwarden 客户端。项目地址:https://github.com/dani-garcia/vaultwarden
ProductHunt 热门AI项目
Velo
描述: Velo 利用 AI 将原始屏幕录制转化为引人入胜、随时可分享的视频。链接:https://www.producthunt.com/products/velo-4/launches/velo-10
NovaVoice
描述: NovaVoice 是您的语音操作系统,让您以思维的速度工作。打字速度慢。切换应用会打断思路。格式调整浪费时间。语速可达每分钟 200 词以上,生成上下文感知的文本。按下热键,无需谷歌搜索即可提问任何问题。无需切换应用即可执行操作(仅需语音指令)。NovaVoice 能记住联系人、地址和链接。NovaVoice 可在您的桌面上进行写作、回答和操作。链接:https://www.producthunt.com/products/novavoice/launches/novavoice
Claude Code Desktop App Redesigned
描述: Claude Code 的桌面应用专为并行代理编码重新设计。在多个仓库中运行会话、审查 Diff、编辑文件,无需离开应用即可完成交付。专为在 Pro、Max、Team 或 Enterprise 上运行 Claude Code 的开发者打造。链接:https://www.producthunt.com/products/claude-redesigned
Ask Product Hunt AI
描述: Product Hunt 是无数产品及其爱好者的聚集地。我们开发了 Ask,旨在助您理清这一切。这是一款 AI 助手,利用 Product Hunt 的数据为您解答产品相关问题。无论您是在挑选新工具、对比替代方案,还是了解流行趋势,它都能提供帮助。链接:https://www.producthunt.com/products/producthunt
今日热门模型排行榜
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
AI Twitter 动态回顾
头条新闻:DeepSeek V4
事件概览
DeepSeek 发布了 DeepSeek-V4 Pro 和 DeepSeek-V4 Flash,此次更新带来了重大的架构革新,包括 1M-token 上下文、混合推理模式以及 MIT 许可证。
核心事实与技术细节
-
两款模型 -
V4 Pro:1.6T 总参数 / 49B 激活参数 -
V4 Flash:284B 总参数 / 13B 激活参数 -
上下文 -
1M tokens,较 V3.2 版本的 128K 有大幅提升。 -
训练规模 -
32T–33T tokens(约 20 tokens/参数)。 -
预估预训练计算量约为 ~1e25 FLOPs。 -
推理 / 模式 -
公开了三种推理模式以及混合的“思考/非思考”定位。 -
长上下文架构 -
共享 KV 向量。 -
c4a ≈ 4× 压缩;c128a ≈ 128× 压缩。 -
在压缩 token 上进行 Top-k 稀疏注意力计算。 -
128-token 滑动窗口。 -
新的混合注意力系统,包含: -
1M 上下文的 KV cache = 9.62 GiB/序列,比 DeepSeek V3.2 (83.9 GiB) 大约小 8.7×。 -
使用 FP4 索引缓存 + FP8 注意力缓存以进一步缩减体积。 -
量化 / checkpoint 格式 -
Checkpoint 采用混合 FP4 + FP8。 -
MoE 专家权重使用 FP4;注意力层/归一化层/路由层使用 FP8。 -
完整模型可适配单个 8×B200 节点。 -
推理硬件 / 服务 -
在 Blackwell Ultra 上,V4 Pro 为 agent 工作流提供 150+ TPS/用户 的速度。 -
通过 vLLM 实现首日支持,覆盖 H200、MI355、B200、B300、GB200/300。 -
提供 MLX 量化版本;DeepSeek4-Flash 可在 256GB Mac 上运行。 -
许可证 / 可用性 / 定价 -
MIT 许可证。 -
V4 Pro 定价:3.48 每 1M 输入/输出 tokens。 -
V4 Flash 定价:0.28。 -
预计随着华为 Ascend 950 超级节点的推出,Pro 价格将进一步下降。
独立评估与 V4 的定位
-
Artificial Analysis Intelligence Index -
V4 Pro Max: 52 分(较 V3.2 提升 10 分),在开源权重模型中排名第 #2。 -
V4 Flash Max: 47 分(属于 Sonnet 4.6 级别)。 -
GDPval-AA(代理任务) -
V4 Pro:1554,领先开源权重模型(超越 Kimi K2.6、GLM-5.1)。 -
V4 Flash: 具有竞争力的性价比。 -
AA-Omniscience -
V4 Pro:-10(提升 11 分);94% 幻觉率(注:此处数值为原始指标,越低越好或越高越好需视具体评分体系,直译原文)。 -
LMSYS Chatbot Arena -
基准测试对比 -
在 SimpleBench 上约为 Opus 4.5 水平。 -
在广泛领域通常落后于 GPT-5.4 / Opus 4.7 / Gemini 3.1 Pro。 -
值得注意的是高 token 消耗(Pro:190M,Flash:240M,基于 AA Index)。
基础设施、推理以及本地/开源生态
-
Hugging Face ML Intern: 开源 CLI 版“AI 实习生”,用于机器学习工作;可以研究论文、编写代码、运行实验、使用 HF 数据集/任务、搜索 GitHub 并迭代多达 300 步。 -
Meta AI: 将在其计算组合中增加数千万个 AWS Graviton 核心。 -
本地/开源生态: -
通过 MacBook Pro 上的 llama.cpp 运行 Qwen3.6-27B,在代码任务上表现接近 Opus。 -
Hermes Agent v0.11.0: 重写了 React TUI、仪表盘插件、主题系统、更多推理提供商、图像后端以及 QQBot 支持。 -
使用 bubblewrap + cgroups v2 的 Deep Agents 原生 Linux 沙盒后端。
研究论文与基准测试
-
On-policy distillation token selection: 使用约 50% 的 token 即可匹配完整训练效果;少于 10% 且专注于“确信错误”的 token 几乎也能匹配完整训练效果。 -
Google Research:MesaNet(用于上下文学习的线性序列层);高效 Transformer 研究。 -
MIT Hyperloop Transformers: 混合循环块和普通块;在使用约 50% 更少参数的情况下,在 240M/1B/2B 规模上击败常规 Transformer。 -
工具/agent 系统: -
Tool Attention Is All You Need: 声称实现了 95% 的工具 token 减少(47.3k → 2.4k/轮)。 -
StructMem: 长期结构化记忆。 -
HorizonBench: 针对长期个性化定制。
GPT-5.5 推出与编码 agent
-
发布:GPT-5.5 和 GPT-5.5 Pro 上线,配备 1M 上下文窗口。 -
基准测试: -
CursorBench: 72.8%。 -
Terminal-Bench: 82.7%(排名第 #1)。 -
BrowseComp (Pro): 90.1%。 -
SWE-Bench Pro: 58.6%(较 5.4 版本略有增长)。 -
效率: Perplexity Computer 观察到 56% 的 token 减少;在 LisanBench 上,GPT-5.5 medium 使用的 token 比 GPT-5.4 medium 少 45.6%。 -
反馈: 编码质量和 token 效率有所提升;“努力程度校准”更好。 -
生态: 被 Cursor、GitHub Copilot、Codex、OpenRouter、Perplexity、Devin 迅速采用。 -
Cursor 更新: 推出了 /multitask 异步子代理 和多根工作区。
行业动向、资金与政策
-
Google: 计划向 Anthropic 投资高达 400 亿美元。 -
Cohere & Aleph Alpha: 宣布加拿大/德国主权 AI 合作伙伴关系。 -
ComfyUI: 以 5 亿美元估值融资 3000 万美元。 -
Arcee AI: 聘请 Cody Blakeney 担任研究主管(专注于开源权重的美国前沿模型)。
创意 AI 与多模态
-
GPT Image 2: 实验性 API 支持 2K/4K 图像。 -
Kling AI: 宣布原生 4K 输出以及 2.5 万美元 的短片大赛。
AI Reddit 社区热帖
LocalLlama + localLLM 回顾
1. Deepseek V4 及相关发布
-
发布规格: DeepSeek-V4-Pro(1.6T 参数 / 49B 激活)和 DeepSeek-V4-Flash(284B 参数 / 13B 激活)。两者均支持 1M token 上下文 并采用 MIT 许可。 -
架构: 使用 Engram 条件记忆 进行高效上下文管理(减少 85% 的推理开销)。实现了 流形约束超连接。 -
硬件: 使用 华为 Ascend 950PR 芯片训练(未使用 Nvidia GPU)。 -
推理: 提供 MLX 量化版本;Flash 版本可在 256GB Mac 上运行。 -
定价: API 定价预计为每百万 token 0.14 – 0.28 美元。 -
DeepEP V2 & TileKernels: 已发布用于优化和并行处理。TileKernels 声称可实现线性扩展(容量翻倍 = 速度翻倍)。
2. Qwen 3.6 模型性能与基准测试
-
Qwen 3.6 27B: -
在 Agent Index 上达到了与 Sonnet 4.6 相当的水平(超越了 Gemini 3.1 Pro、GPT 5.2/5.3)。 -
在代理任务方面显著提升,针对 OpenClaw/Hermes 进行了优化。 -
在 MacBook Pro M5 MAX (64GB RAM) 上通过 llama.cpp 运行,可达约 18 TPS。 -
Qwen 3.6 35B: -
在 M5 MAX 上达到 72 TPS。 -
与 DS4-Flash 进行了基准测试;在 LiveCodeBench/HLE 方面 DS4-Flash 通常表现更优。 -
推测解码: 在 Qwen-3.6-27B 上使用 n-gram 缓存将速度从 13.60 t/s 提升至 136.75 t/s。
3. 本地 AI 模型实现与创新
-
PI Coding Agent: 使用本地 Qwen3.6 35b 配合自定义“计划优先”技能文件(强制 TODO.md 审批)。在 8GB 显存 / 32GB 内存下达到 15-30 TPS。 -
Chappie: 分布式 AI 系统,使用由四台 Mac Mini M4 Pro 组成的集群(总计 256GB 统一内存)。使用 Exo 进行分布式推理,使用 Qdrant 进行向量记忆。 -
Llama.cpp 优化: 即将合并的 PR 承诺将解码速度提升 2 倍。
硬核程度较低的 AI Subreddit 回顾
1. GPT-5.5 发布与基准测试
-
定价:每 1M 输入 tokens 5 美元,每 1M 输出 tokens 30 美元(是 GPT-5.4 的两倍)。 -
基准测试: -
BrowseComp (Pro): 90.1%。 -
SWE-Bench Pro: 58.6%(对比 Mythos 的 77.8%)。 -
Terminal-Bench: 82.7%。 -
性能: 用户报告代码质量和“扩展思考”准确性有显著提升,同时 token 效率更好。
2. DeepSeek V4 发布与基准测试
-
成本/性能: DS-V4-Flash Max 以性价比著称(典型使用场景每月约 50 美分)。 -
自我识别: 模型报告称自己是 V3,且存在知识截止日期问题。 -
架构: 使用 Engram(与权重相关,而非 KV-cache)和 流形约束超连接。
3. Claude Code 问题与更新
-
事后复盘详情: -
Bug 1: 推理努力程度从 high静默降级为medium(3 月 4 日 – 4 月 7 日)。 -
Bug 2: 导致推理历史丢失的缓存问题(3 月 26 日)。 -
Bug 3: 系统提示词变更,导致工具调用之间的回复限制为 25 个单词(4 月 16 日 – 4 月 20 日)。 -
解决方案: 在版本 2.1.116+ 中已修复。订阅用户的用量限制已重置。 -
用量 UI: 限制从基于小时四舍五入改为精确到分钟。
上海一橙智能科技有限公司,是上海一橙网络科技股份有限公司旗下专注于AI与大模型应用落地的核心企业,提供从平台构建到AI场景化应用落地的全栈服务。聚焦大模型应用、数字人交互、语音图像分析等核心领域,打造了覆盖智能外呼、智能客服、智能知识管理、智能陪练、多模态交互、图像语音质检等场景的AI产品体系,已成功为通信、能源等领域头部央国企客户打造出多个AI落地应用。


夜雨聆风