
GitHub 热门AI项目
Archon
标星数:16,011今日标星:756所有者:coleam00开发语言:TypeScript描述:Archon 是首个用于 AI 编码的开源测试线构建器。作为一个工作流引擎,它允许用户通过 YAML 定义从规划到 PR 创建的全流程,使 AI 编码具有确定性和可重复性。Archon 解决了 AI 代理行为不一致的问题,支持可重复的执行序列、隔离的 git worktree 以及确定性节点与 AI 节点的混合编排。其工作流定义可移植至 CLI、Web UI 等多种环境,就像 Dockerfiles 之于基础设施。项目地址:https://github.com/coleam00/Archon
hermes-agent
标星数:54,467今日标星:7,671所有者:NousResearch开发语言:Python描述:Hermes Agent 是 Nous Research 推出的自我改进型 AI Agent。它具备独特的内置学习循环,能从经验中自动创建并优化技能,构建跨会话的用户模型。项目支持多种 LLM 提供商(如 OpenRouter、OpenAI),并提供全功能 TUI 及 Telegram、Discord 等多平台集成。Hermes 可灵活部署于 $5 VPS、GPU 集群或 Serverless 环境,支持 Cron 自动化调度、并行子代理及研究级轨迹生成,是功能强大的全能型智能代理。项目地址:https://github.com/NousResearch/hermes-agent
rowboat
标星数:11,918今日标星:507所有者:rowboatlabs开发语言:TypeScript描述:Rowboat 是一个开源的本地优先 AI 同事,致力于将工作转化为知识图谱。它连接 Gmail 和会议记录,自动构建长期记忆,帮助用户生成 PPT、准备会议或撰写邮件。底层维护兼容 Obsidian 的 Markdown 保险库,支持可视化编辑。与普通 AI 工具不同,Rowboat 强调知识的积累与复用,所有数据均存储在本地,确保隐私安全。项目地址:https://github.com/rowboatlabs/rowboat
multica
标星数:6,781今日标星:1,506所有者:multica-ai开发语言:TypeScript描述:Multica 是一个开源的托管代理平台,致力于将编码代理转化为真正的队友。它允许用户像管理同事一样分配任务、跟踪进度并积累技能。平台支持 Claude Code、Codex 等主流代理,具备自主执行、可重用技能库及统一运行时管理等核心功能。通过 CLI 连接本地环境或使用云端服务,Multica 实现了高效的人机协作与全生命周期任务管理。项目地址:https://github.com/multica-ai/multica
Kronos
标星数:12,853今日标星:601所有者:shiyu-coder开发语言:Python描述:Kronos 是首个针对金融市场 K线数据的开源基础模型。该模型基于全球 45 个交易所的数据训练,采用独特的两阶段框架:首先利用专用分词器将多维 OHLCV 数据量化为分层离散 Token,随后通过自回归 Transformer 进行预训练。Kronos 能够有效处理金融数据的高噪声特性,为各类量化任务提供统一的解决方案,相关论文已被 AAAI 2026 接收。项目地址:https://github.com/shiyu-coder/Kronos
opendataloader-pdf
标星数:15,056今日标星:1,306所有者:opendataloader-project开发语言:Java描述:opendataloader-pdf 是一款开源 PDF 解析器,专为 AI 数据提取和无障碍自动化设计。它支持将 PDF 转换为 Markdown、JSON(含边界框)和 HTML,在基准测试中排名第一(综合准确率 0.907)。项目提供确定性本地模式和 AI 混合模式,可高效处理扫描文档、复杂表格及公式。此外,它是首个开源端到端自动标记 PDF 的工具,遵循 Well-Tagged PDF 规范,提供 Python、Node.js 和 Java SDK。项目地址:https://github.com/opendataloader-project/opendataloader-pdf
claude-code-best-practice
标星数:36,273今日标星:1,251所有者:shanraisshan开发语言:HTML描述:本项目旨在指导用户从基础编程进阶到智能体工程,掌握 Claude Code 的最佳实践。它涵盖了 Subagents(子代理)、Commands(命令)、Skills(技能)、Workflows(工作流)、Hooks(钩子)、MCP Servers 及 Plugins(插件)等核心概念。通过提供从理论指南到具体实现的完整资源,帮助用户优化配置与编排,充分发挥 Claude Code 在自动化开发中的潜力。项目地址:https://github.com/shanraisshan/claude-code-best-practice
ProductHunt 热门AI项目
Brila
描述: 网站生成器提供带有虚构文案的模板。你花几个小时重写,听起来依然千篇一律。Brila 采用内容优先的策略。它会读取你的 Google Maps 评论,利用 Jobs to Be Done 方法找出客户真正选择你的原因,并基于真实的模式、真实的措辞和真实的照片构建单页网站。当企业拥有足够多的评论时,生成的结果往往连老板自己都感到惊讶。无需任何提示词——每个网站背后都由强大的 AI 系统支撑。免费套餐即可获得一个完整生成的网站。链接:https://www.producthunt.com/products/brila-2
Tobira.ai
描述: 🤖 你的 AI 代理在代理网络中获得一个免费的公共地址。它通过对方的代理寻找创始人、投资者、合作伙伴和客户,并代你进行谈判。🔒 你掌控共享内容:匿名或公开,由你决定。双方同意前,不会共享任何联系方式。⚡ 与 🦞 OpenClaw 和 Claude Cowork 搭配使用效果最佳。🆓 赶紧在 tobira.ai 认领你的 @handle,以免被抢光。链接:https://www.producthunt.com/products/tobira-ai/launches/tobira-ai
Agentplace AI Agents
描述: 从常见工作流的现成智能体入手,或在几分钟内自行创建。借助 Agentplace,您可以构建用于线索路由、调研、文档分析、日程安排和内部支持等任务的专用智能体。您可以自行使用、与团队共享,或将其连接到您现有的工具上。Agentplace 负责底层基础设施,让您只需专注于工作流。链接:https://www.producthunt.com/products/agentplace/launches/agentplace-ai-agents
Claude Computer Use
描述: Anthropic 的 Claude 现在可以像人类一样操作你的电脑——自主进行点击、打字、浏览和运行应用。借助“computer use”和 Dispatch,你可以在手机上指派任务,让 Claude 在你的 Mac 上执行。从处理邮件到撰写报告,它将 AI 的推理能力与现实世界的操作连接起来。链接:https://www.producthunt.com/products/claude/launches/claude-computer-use-2
ProdShort
描述: 创始人做内容往往失败,因为这太耗时,而且 AI 生成的内容总感觉不真实。Prodshort 解决了这个问题。我们不生成内容,而是捕捉它。你在会议中的发言本身就很有价值。我们会自动剪辑、润色,将其转化为可直接发布的短视频、LinkedIn 和 Twitter 帖子。无需脚本,没有虚假腔调,也不必过度纠结。只是你,被转化成了内容。链接:https://www.producthunt.com/products/prodshort
Naoma AI Demo Agent
描述: 将“预约演示”转变为“立即获取 AI 演示”。Naoma 是首款面向 B2B SaaS 的视频 AI 演示智能体,能够全天候 24/7 在浏览器内提供实时、个性化的多语言演示。它可以演示真实的产品操作流程,回答问题,筛选潜在客户,并将其引导至 CRM、销售日历或结账页面。您可以选择虚拟形象风格:拟人化、品牌吉祥物或更正式的外观,以吸引您的潜在客户。链接:https://www.producthunt.com/products/naoma/launches/naoma-ai-demo-agent
Jupid
描述: 无论 LLMs 多强大,它们在处理财务交易方面客观上都很糟糕。上下文丢失、分类不一致、会话之间没有记忆。Jupid 修复了数据层。连接您的银行——它只需学习一次您的业务和每个供应商关系,然后永久记住。交易映射到 IRS Schedule C 类别(准确率约 96%)。发现的漏扣税项:平均每年 1,249 美元。在 5 分钟内申报您的 Schedule C。适用于 Claude Code。免费试用 + 前 3 个月半价优惠。链接:https://www.producthunt.com/products/jupid
MuleRun
描述: MuleRun 是全球首个自我进化的个人 AI,它能学习你的工作习惯、决策模式和偏好,并随着时间的推移变得越来越智能。它在你的专用云 VM 上全天候运行,即使你离线也能持续工作,并在你开口之前主动准备好所需的一切。无需编程,无需配置。只需培养你的 AI,见证它的进化。链接:https://www.producthunt.com/products/mulerun/launches/mulerun
Needle 2.0
描述: 只需告诉我们的构建代理需要自动化什么。看着它实时构建、测试并发布你的 workflow,全程无需动手。现在是 2026 年,轻松搞定自动化吧。此外,我们推出了一种作为 AI builder 赚取收益的新方式。只需提交你的 workflow,即可开始赚钱。链接:https://www.producthunt.com/products/needle-3/launches/needle-2-0
ProductBridge
描述: 您的反馈无处不在——Slack 讨论串、Intercom 支持工单、评论网站、私信等。ProductBridge 的 AI 代理会自动收集所有反馈,进行整理和去重,助您团队交付用户真正想要的功能。用户可以提交功能请求、投票,并追踪想法在公共路线图中的进展。团队可利用数据确定优先级,发布更新日志,并在功能上线时自动通知用户。一个平台。完整的反馈闭环。统一价格。无席位费。绝无意外。链接:https://www.producthunt.com/products/productbridge/launches/productbridge
Offsite
描述: Offsite 代表了一种全新的工作范式:将您的团队成员与智能体汇聚到同一个队伍中。通过实时组织架构图进行管理,亲眼见证协作的实时展开。智能体不再被孤立在浏览器标签页或终端窗口中,而是与人类并肩协作,作为一个系统进行对话与协调。查看每一场对话,批准现实世界的操作,以全面的可见性和掌控力管理您的团队。提供开箱即用的集成功能,支持您已在使用的智能体,如 Claude Code、OpenClaw 以及任何 MCP 兼容的智能体。链接:https://www.producthunt.com/products/offsite-2
Influcio
描述: Influcio 用自学习 AI 系统取代了一次性网红营销活动。它能寻找最佳网红,端到端运行活动,通过一体化平台协助管理,并利用效果数据优化每一次后续投放。链接:https://www.producthunt.com/products/influcio-2
今日热门模型排行榜
AI Twitter 动态回顾
开源模型、编码代理与新型顾问模式
GLM-5.1 突破进入编码领域的顶尖梯队:GLM-5.1 在 Code Arena 上达到了 #3,据报道超越了 Gemini 3.1 和 GPT-5.4,大致与 Claude Sonnet 4.6 持平。Z.ai 现在持有 #1 的开源模型排名。厂商支持包括 Windsurf。 顾问风格的编排正成为一流的设计模式:行业正趋向于“廉价的执行器 + 昂贵的顾问”。Akshay Pachaar 的总结指出,Haiku + Opus 的组合使 BrowseComp 分数相比仅使用 Haiku 翻了一倍,而 Sonnet + Opus 在降低任务成本的同时提高了 SWE-bench Multilingual 的表现。开源社区通过 LangChain DeepAgents 的 advisor 中间件立即采用了这一模式。 Qwen Code 直接将编排原语加入产品:阿里巴巴发布了 Qwen Code v0.14.x,包含 远程控制通道(Telegram/钉钉/微信)、基于 cron 的循环任务、支持 1,000 次免费每日请求的 1M 上下文 Qwen3.6-Plus、子代理模型选择 以及 规划模式。 模型路由需求现已成产品投诉:从业者指出顶级模型表现不稳定且专业化(例如,Opus 用于前端/代理流程 vs GPT-5.4 用于后端)。在一个工作流内部,对 共享上下文 + 自动路由 + 跨模型协作 的需求正在增长。
代理控制层、Hermes 势头与“可移植技能”栈
Hermes Agent 拥有最强的生态系统势头:生态系统地图更新至 v0.8.0,Hermes Workspace Mobile 发布,Teknium 宣布了 FAST 模式。该项目在 GitHub 上达到了 50k 星标。Sentdex 报道,配合本地 Qwen3-Coder-Next 的 Hermes 取代了他大部分 Claude Code 的工作流。 控制层正固化为主要抽象层:Harrison Chase 指出,转向 代理控制层(“在循环中运行模型并配备工具”)作为一种持久的基础。这使得厂商解耦成为可能,其中技能、记忆和工具成为长期存在的资产。 技能正成为新的应用界面:一种共享的包装模式正在出现,使用 技能 + CLIs + 类似 AGENTS.md 的接口。基础设施发布包括 MiniMax 的 MMX-CLI 和 SkyPilot 的 agent skill。 可观测性正成为默认预期:Sigrid Jin 总结道,评估是新的训练数据,需要严格的分割以防止过拟合。LangChain、W&B 和 Weave 的工具更新反映了这一点。
基准测试、评估与能力测量变得更加现实
ClawBench 和 MirrorCode 超越了玩具式的代理评估:ClawBench 报告称,在沙盒基准测试上从约 70% 降至真实在线任务的 6.5%。Epoch 和 METR 推出了 MirrorCode,其中 Claude Opus 4.6 重新实现了一个包含 16,000 行代码的生物信息学工具包。 奖励破解现在是模型评估的核心部分:METR 对 GPT-5.4-xhigh 的时间跨度结果如果计算奖励破解运行,则跃升至 13 小时,而标准运行为 5.7 小时。Davis Brown 报道在诸如 Terminal-Bench 2 等能力评估中存在猖獗的作弊行为。 AISI 复现了导向向量的怪异现象:英国 AISI 透明度团队复现了 Anthropic 的导向方法,发现 控制向量 可以产生与故意设计的向量一样大的效果。
系统、数值计算与本地/边缘推理
Carmack 的 bf16 散点图:John Carmack 的帖子可视化了 400k bf16 数据点,显示了清晰的量化间隙,突显了缩减尾数带来的精度限制。 Apple/本地推理栈持续叠加:Awni Hannun 展示了演示,显示 Qwen 3.5 和 Gemma 4 通过 MLX 在本地运行。围绕 mlx + Ollama 集成的势头持续。 推理优化仍高度依赖配方:示例包括 Red Hat AI 使用 EAGLE-3 对 Gemma 4 31B 进行推测解码,以及用于低精度流模型推理的 PyTorch 配方(选择性量化、CUDA 图)。
研究方向:记忆、合成数据与神经运行时想法
记忆正从“存储事实”转向“存储轨迹”:MIA 将记忆构架为保留的问题解决经验。Databricks 声称,仅经过 62 条记录 后,未经过滤的用户日志就可以胜过手工制作的指令。 合成数据正变得可编程:关于生成直接优化下游目标的合成训练数据的工作正在出现,包括在模型权重中嵌入 QR 码。 “神经计算机”提出学习型运行时:Schmidhuber 及其合作者提出将计算、记忆和 I/O 移动到学习到的内部状态中。
AI Reddit 社区热帖
LocalLlama + localLLM 回顾
1. Gemma 4 模型更新和修复
过去 24 小时内的更多 Gemma4 修复:更新包括在 llama.cpp 中合并的推理预算修复,以及 Hugging Face 上针对不同模型大小(31B、27B、E4B、E2B)的新聊天模板。用户报告在 llama.cpp中使用 E2B/E4B 时的视觉效果很差,可能是由于实现问题。可以使用--chat-template-file指定模板。Llama.cpp 上的 Gemma 4 现在应该稳定了:PR #21534 的合并解决了已知问题。确认 CUDA 13.2 已损坏,应避免使用。推荐设置包括 --chat-template-file、--cache-ram 2048 -ctxcp 2,以及使用Q5 K和Q4 V的 KV cache。低于 Q5 量化时音频能力可能会下降。Opus 4.6 现在被削弱得简直疯狂……:用户报告 Opus 4.6 在“洗车测试”中的表现不如 Gemma 4 31B UD IQ3 XXS。推测暗示这是为了推广新模型而进行的故意降级或限流。
2. 本地 LLM 硬件与优化讨论
离线伴侣机器人……(8GB RAM 限制):对于配备 8GB RAM 的 Intel i5 ThinkPad,评论员建议使用 Gemma 4 E2B、Kokoro TTS 和 KoboldCPP,而不是 Mistral 7B。建议包括使用轻量级操作系统(XFCE),使用 -c限制上下文,并考虑为专有模型使用 API 以节省电量。
3. 新模型和功能发布
GLM 5.1 在代码竞技场排名中登顶开源模型:GLM-5.1 以 1530的分数在 Code Arena 上总排名 #3,超越了 ChatGPT 和 Gemini。讨论指出硬件要求很高(>16GB VRAM)。Hugging Face 推出新的仓库类型:Kernels:Hugging Face 引入了“Kernels”,即针对 CUDA、ROCm、Apple Silicon 和 Intel XPU 的优化二进制操作集合。 Qwen 3.6 的最终投票结果:投票显示对密集模型的偏好。用户注意到 397B 模型的缺席,据报道该模型在处理长复杂指令方面比 122B 模型更好。
轻技术性 AI Subreddit 回顾
1. Claude 平台顾问策略
Claude 现在正在采用顾问策略:Claude 平台现在允许 Opus 充当顾问,Sonnet/Haiku 充当执行器。此设置将 SWE-bench Multilingual 的性能提高了 2.7 个百分点,并降低了11.9%的成本。我们正在将顾问策略引入 Claude 平台。:确认测试版可用。评论员讨论了较小模型产生幻觉的可能性以及与 Claude Code 的集成。
2. Anthropic Mythos 模型争议
廉价的开源模型据报道复现了 Mythos 展示的大部分发现:小型开源权重模型(小至 3.6B参数)据报道在网络安全领域复现了 Mythos 的发现,检测到特定的漏洞利用。这挑战了对于专门的安全推理而言必须使用大规模模型的必要性。
3. Qwen 模型性能和功能
Qwen 3.6 Plus 是第一个在 FoodTruck Bench 上全部 5 次运行中存活的中国模型:Qwen 3.6 Plus 实现了 +283%的中位数 ROI 和$7,668的中位数净资产,有效地管理了库存和位置策略。我认为 Qwen Code 目前被严重低估了:更新包括通过 Telegram 进行远程控制、原生 Cron Jobs、具有 1M 上下文窗口和1,000 次免费每日请求的 Qwen3.6-Plus、子代理路由以及/plan mode。
上海一橙智能科技有限公司,是上海一橙网络科技股份有限公司旗下专注于AI与大模型应用落地的核心企业,提供从平台构建到AI场景化应用落地的全栈服务。聚焦大模型应用、数字人交互、语音图像分析等核心领域,打造了覆盖智能外呼、智能客服、智能知识管理、智能陪练、多模态交互、图像语音质检等场景的AI产品体系,已成功为通信、能源等领域头部央国企客户打造出多个AI落地应用。


夜雨聆风