Hermes Agent v0.18.0「The Judgement Release」:十二天清空 692 个 P0/P1 积压,把『开放权重 + 中立平台』agent 推到产品成熟期
Hermes Agent v0.18.0 单版本清空 692 个 P0/P1,把『自建 agent harness』推过产品成熟期门槛。
本文要点
- 从『功能增量 + 多平台触达』到『修复债清零 + 可观测性 + 自验证 + 多智能体可运维』:v0.17.0 Reach 的主轴是『触达面扩张』(iMessage / Raft / Cursor Grok / WhatsApp Business / Telegram Bot 10.1),v0.18.0 Judgement 的主轴是『判定 + 可观测性 + 自验』(MoA first-class / reasoning live / /goal contracts / background fan-out / Scale-to-zero)——这是从『面』到『体』的范式切换
- 从『reference impl MoA』到『`moa` provider 下的可选模型』:Mixture-of-Agents 不再是 demo 级 reference implementation,而是 Hermes model routing 的一等公民——意味着 MoA 进入了 Hermes 的『生产可调用层』
- 从『/goal 是状态变化』到『/goal 是带验证证据的契约完成』:`/goal` 在 v0.18.0 引入 completion contracts(PRs #50501/#52285/#55413/#53552),『done』必须由验证证据证明,这是 agent 从『声明式完成任务』走向『可审计完成任务』的语义层重构
- 从『单一桌面端 UI』到『Desktop Projects(per-profile sidebar + coding rail + review pane + worktree management)』:v0.16.0 Surface 给 Electron 桌面 + Web dashboard admin, v0.18.0 在此之上加 Projects 形态,意味着 Hermes 桌面端从『单人工具』升级为『多 profile 协作终端』
- 从『用量不可见』到『用量在任意调用点可见』:7-01 早报已报道的 `/usage` 命令 + v0.18.0 的 Cheaper self-improvement(auxiliary model routes post-turn review) + See every model's reasoning live,把『模型调用成本与推理过程』从『开发者查账单』下沉到『agent 运行时自我审计』
- 从『Hermes 是一家开源 agent 』到『Hermes + Nous Portal 是开放权重 + 中立平台路径的双脚』:Nous Portal 聚合 300+ 模型 + Step 3.7 Flash MoE 限时免费 + Hermes Agent 本地运行,共同把『模型分发』与『agent 运行』解耦——这是 OpenRouter + 本地 agent 的复合形态
Hermes Agent v0.18.0「The Judgement Release」是在 7-01 早报已报道的「网页抓取性能提升 60x / 成本降至 1/49」事件基础上,12 天后的一次集中收口。从数字本身看,这并不是一次普通的迭代:GitHub releases 页口径下,v0.18.0 单版本合并约 1,720 个 commit / 998 个 PR / 949 个 issue close / 370+ 贡献者——比 v0.17.0「Reach Release」(1,475 commit / 245 contributor)与 v0.16.0「Surface Release」(874 commit / 170 contributor)同时高出 50% 以上。更关键的是官方明示的「P0=3 个 issue + 8 个 PR、P1=493 个 issue + 188 个 PR、合计 692 项 100% 解决、Open P0/P1 计数降至 0」——这意味着 Nous 用一次发布把『修复债清零』作为版本号分代的标志。
下面分四个层面拆解这次发布:先把『12 天清零 P0/P1』放到 Hermes 版本演进节奏里看清它不是『小修补』而是『重置』;再拆 v0.18.0 的 12 项核心功能,识别出真正改变 Hermes 形态的三件套(MoA first-class / reasoning live / /goal completion contracts);再把 Hermes 放在「开放权重 + 中立平台」路径上做横向定位;最后给出可验证的跟踪点。
一次『重置』而非『小修补』:从 Reach 到 Judgement 的范式切换
把 Hermes 最近 6 周的版本号摆在一起,可以看出 Nous 在三次发布里换了三个主轴:
| 版本 | 代号 | 日期 | 主轴 |
|---|---|---|---|
| v0.16.0 | The Surface Release | 2026-06-05 | 触达形态:Electron 原生 Desktop app + Remote gateway(OAuth/username-password) + 完整 Web dashboard admin panel + 简体中文全翻译 + NVIDIA/skills trusted tap |
| v0.17.0 | The Reach Release | 2026-06-19 | 触达面扩张:iMessage via Photon Spectrum(无需 Mac relay) + Raft agent network adapter + Background/async subagents + Cursor Composer via xAI Grok 200k + Skills Hub 重塑 + WhatsApp Business Cloud API + Telegram Bot 10.1 rich text |
| v0.18.0 | The Judgement Release | 2026-07-01 | 判定与可观测性:MoA first-class + reference model reasoning live + /goal completion contracts + /learn + /journey + background fan-out + Scale-to-zero drain coordination + Google Vertex AI |
v0.16.0 Surface 把 Hermes 从『CLI + 单一 Telegram/Discord bot』推到『Electron 桌面 + Web admin』;v0.17.0 Reach 在此基础上把触达面扩到 6+ messaging 平台 + 跨厂商模型(Grok / GPT / Claude) + 自托管外部 agent 协议(Raft);v0.18.0 Judgement 是一次范式切换——它不再追求『更多功能 / 更广触达』,而是回到『让功能可被判定 / 可被观测 / 可被自验 / 可被运维』。这个判断有三个佐证:
第一,/goal 在 v0.18.0 引入 completion contracts(PRs #50501/#52285/#55413/#53552)——『done』必须由验证证据证明,而不是状态变化。在 agent 系统里这是从『声明式完成』走向『可审计完成』的语义层重构:用户不再需要相信 agent 的『已完成』字面,而是看到 evidence。
第二,reference model 推理过程实时可见(PRs #53793/#53855/#55625/#56101):reference model 的输出渲染为带 label 的块,aggregator 流式输出。这是 MoA 真正落地为 first-class model 的必要条件——用户必须能『看见』每路 reference model 在说什么,才能信任 aggregator 的综合判断。
第三,Scale-to-zero & drain coordination(PRs #52243/#52937/#54824)与 Background fan-out(delegate_task, PR #49734)把『多智能体看板运行』从『脚本里硬塞』变成『运行时契约』——gateway quiesces cleanly for restart/migrations,delegate_task 在后台跑多个 subagent 并返回 consolidated results。这两个能力与 7-01 早报中提到的『大规模多智能体看板运行 + 高并发会话稳定性改进』是同一个发布主题。
把三件事放在一起,v0.18.0 的『Judgement』命名就有了具体含义:把『判定权』从『主观判断』推向『证据判定』——验证证据(/goal contracts)、推理过程(reasoning live)、用量与成本(/usage + cheaper self-improvement)。 这三个轴共同回答了一个产品问题:agent 的『结果』如何被相信?
12 项功能拆解:三件套是主菜,其他是配菜
v0.18.0 单版本合入的 12 项主要功能,按『是否改变 Hermes 的产品形态』可以分三档:
第一档(形态级):Mixture-of-Agents 升格为 first-class model(PRs #46081/#53548/#53561)。Hermes 现在把 MoA 暴露为 moa provider 下可选的命名预设——意味着用户可以用一行 hermes model 切到 MoA 组合,而不必自己用 reference implementation 拼装。这把 MoA 从『学术圈的 reference impl』推到『生产可调用层』。Google Vertex AI 接入(PR #56363,Gemini via service account + 自动 OAuth2 token refresh)同属此档——Nous 把 Vertex 加入『中立平台可调用清单』,与 OpenAI / Anthropic / local 模型并列。
第二档(运行时契约级):除上面三件套外,还包括 /learn <anything>(PRs #51506/#52372,从目录/URL/历史工作流提炼 reusable skill)、/journey(PRs #55555/#55859/#55226,可回放的 memory/skill 时间轴)、Desktop Projects(PRs #49037/#54385/#54517,per-profile sidebar + coding rail + review pane + worktree management)、/prompt editor(PR #50509,在 $EDITOR 中编辑多行 prompt)、Cheaper self-improvement(PR #49252,auxiliary model 路由 post-turn review)。这一档的功能是把 Hermes 从『能跑』推向『能生产化』的临界点——它们单看都不算大改,但放在一起意味着 Hermes 在『生产路径』上的硬门槛大部分补齐了。
第三档(运维与边界级):hermes update 命令(7-02 NousResearch 公告原话)、Security hardening round(GitHub release notes 在我抓取时被截断)、7-01 早报已报道的 /usage 命令可在任意调用点查看用量明细(单一 NousResearch 推文披露,GitHub release notes 未显式列入——可能作为 Cheaper self-improvement / Scale-to-zero 的子特性落地)。
值得标注的一个信源缺口:7-01 早报提到的 /usage 命令在 v0.18.0 GitHub release notes 中并未显式出现。NousResearch 6-30 推文预告过此功能,v0.18.0 release notes 中最接近的描述是『Cheaper self-improvement — Auxiliary model routes post-turn review(PR #49252)』与『See every model’s reasoning live』。前者涉及用量与成本的可见性,后者涉及推理过程可见性——两者合并构成了 /usage 的语义内核,但命令本身的存在与归属需 Hermes 官方在 docs / 后续 patch 中明确。这是 v0.18.0 报道里最显眼的单源信源风险,读者应把它作为已知不确定性对待。
横向定位:Hermes 在『开放权重 + 中立平台』路径上的具体位置
把 Hermes Agent 放到当前 agent 生态里看,它的差异化不是『某一个 benchmark 最强』,而是README 自述中的五点定位——这五点放在一起就是『开放权重 + 中立平台』路径的完整定义:
| 维度 | Hermes Agent | 典型闭源订阅 agent 框架 |
|---|---|---|
| 学习循环 | Built-in 持久化 skill 自创 + 自我改进 + 跨 session recall + Honcho dialectic user modeling | 通常仅 session-scoped memory |
| 模型锁定 | hermes model 一行切换 Nous Portal / OpenRouter / OpenAI / custom(README 称 300+ 模型) | 绑定供应商自家模型 API |
| 部署 | $5 VPS / Termux 移动 / 本地 laptop / serverless / 原生 Windows;6 terminal backends(local / Docker / SSH / Singularity / Modal / Daytona) | 通常云托管或要特定 runtime |
| 触达 | 单 gateway 到 Telegram / Discord / Slack / WhatsApp / Signal / Email / CLI/TUI | 通常 SDK 或仅 Web |
| 开放标准 | MIT 许可 + agentskills.io 兼容 + 内置 OpenClaw importer | 闭源 |
把这五点与 v0.18.0 的功能映射起来:『学习循环』对应 /learn <anything> + /journey + cheaper self-improvement;『模型无关』对应 MoA first-class + Google Vertex AI 接入;『部署灵活性』对应 Desktop Projects + Scale-to-zero;『触达面』是 v0.17.0 Reach 已完成的事;『开放标准』由 MIT 许可 + agentskills.io 兼容承接。
在更大的格局里,Hermes 代表的不是『与 Anthropic Sonnet 5 / OpenAI 内部 agent 框架的同台竞争』,而是两种分发哲学的对位:
- 闭源订阅 + 场景整合(代表:Anthropic Claude Sonnet 5 + Claude Science + 订阅档 + Cyber Verification Program):把 agent 嵌进模型 API + 第三方协作平台(Cursor / Devin / GitHub Copilot)+ 场景工作台(Claude Science),用户付费换取『开箱即用 + 场景整合』。
- 自托管 MIT + 中立平台(代表:Hermes Agent + Nous Portal + agentskills.io):用户下载 Hermes 部署在自己的 $5 VPS / Modal serverless / 本地,经 Nous Portal 聚合的 300+ 模型与 Step 3.7 Flash MoE 限时免费作为『中立分发层』,agentskills.io 作为『开放 skill 标准』。用户付出运维成本换取『模型无关 + 数据自主 + 平台中立』。
这两条路径不是『同台竞争』,而是『不同预算/合规/数据敏感度下的并存选项』。Hermes 在 v0.18.0 后真正站住了『生产路径候选』门槛——但它的客户画像与 Sonnet 5 + Claude Science 并不重叠太多。真正的胜负在科研向 agent 这个交集:科研用户既敏感于数据自主(倾向 Hermes),又敏感于场景整合(倾向 Claude Science),Anthropic 7-01 发布的 Claude Science 把『60+ 科研连接器 + 60+ skills + NVIDIA BioNeMo Agent Toolkit + 本地/HPC/Modal 算力调度 + reviewer agent 自校』做成一体化入口,这是 Hermes + Nous Portal + agentskills.io 组合需要正面回应的对手戏。
接下来看什么:可验证的跟踪点
把 v0.18.0 的功能点收拢到可验证层,有 6 个跟踪点是未来 30-60 天值得看的:
第一,v0.18.0 12 项新功能在『真实生产工作流』中的回归情况——尤其关注 MoA provider、/goal completion contracts、Scale-to-zero drain coordination 三处。Hermes 在 Discord / GitHub Discussions 给出 early production feedback 时点(预估 7-02 至 7-15 之间),是判断『堆叠风险』是否兑现的关键节点。
第二,/usage 命令的官方归属与文档释出——7-01 早报中提到的『任意调用点查看用量明细』目前仅出现在 NousResearch 推文与早报转述中。v0.18.0 release notes 未显式列入此命令,需 Hermes 在 docs / release notes 后续 patch 中明确归属(独立命令 vs Cheaper self-improvement 的子特性 vs Scale-to-zero 的暴露面)。
第三,MoA 作为 moa provider 的具体模型组合与推荐路径——Hermes 是否在 docs 中给出按『成本 / 智能 / 延迟』分级的 MoA 模板清单,在 300+ 模型上的默认推荐组合是什么。
第四,Nous Portal 中 Step 3.7 Flash MoE 视觉语言模型 30 天限时免费(预计 7-15 结束)结束后的定价——这是『中立平台 + 限时免费』获客模式可持续性的现金流感官信号。Step 3.7 Flash 由 StepFun 提供,Nous Portal 作为中立分发层的实际毛利与转售协议,会影响后续模型接入节奏。
第五,v0.18.0 接入 Google Vertex AI 后,Hermes 是否在 routing 层做『Gemini / OpenAI / Anthropic / local』的智能调度——如果是,这是 MoA 之外的第二条『跨厂商 routing』路径,会让 Hermes 的『中立平台』定位进一步加强。
第六,Hermes Agent 与 Anthropic Claude Science 在『科研向 agent』市场的直接对位——Hermes 是『自托管 MIT + 中立平台』,Claude Science 是『闭源订阅 + 科研场景整合』;两者在科研用户重叠区(数据敏感 + 场景整合需求同时存在)的客户取舍,会决定 2026 H2 这一细分市场的格局。
v0.18.0 真正改变了什么:不是『多了一个功能』,而是 Nous 第一次用『修复债清零』作为版本号分代标志,把 Hermes 从『快速迭代 + 缺陷堆积』的早期产品节奏,推向『快速迭代 + 强修复 + 形态固化』并存期。1,720 commit / 998 PR / 692 P0/P1 清零 这组数字的真正含义是:Hermes 社区从 245 贡献者扩到 370+,单版本信息密度大幅提升——但同时也意味着单版本回归测试矩阵被推到 Hermes 史上最大。从工程管理视角,这是一次高风险发布:12 项功能同时合入,加之 Security 段在抓取时被截断,我们无法判断是否有未公开的 breaking changes。
反方 caveat(必读):① 「P0/P1 清零」是仓库层关闭,不是真实用户工作流验证——Hermes 的『生产路径』是否真站住,需 7-02 至 7-15 之间社区回归反馈;② 「/usage 命令」目前是单源(NousResearch 6-30 推文 + 7-01 早报),在 v0.18.0 GitHub release notes 中未被显式列入,信源存在显式缺口——读者应把它视为『预告功能、在 v0.18.0 中以子特性形式落地、未单独成项』,而不是『v0.18.0 的官方主打 feature』;③ MoA 升格为 first-class model 是 model-layer 重构,与 Desktop Projects(UI/UX)、Scale-to-zero(ops)、/goal contracts(语义)三层同时变动,意味着 Hermes 跨层耦合面大幅扩张,短期内的『小版本 hotfix』概率高于平均水平。
对谁有利 / 不利:Hermes Agent v0.18.0 对自建 agent harness 团队最有利——/learn <anything> + /journey + cheaper self-improvement 三件套,把『skill 自创 + 自我改进 + 跨 session recall + Honcho dialectic user modeling』做成可复用范式,自建团队可以拿来作为『Hermes-style learning loop』的参考实现。对『闭源订阅 + 场景整合』路径(Anthropic Sonnet 5 + Claude Science)的直接威胁有限——两者客户画像重叠度不高,真正的胜负在科研向 agent 这个交集。对中立分发层(OpenRouter / Nous Portal 自身)的影响更微妙——Hermes + Nous Portal 是『运行层 + 分发层』的复合形态,与 OpenRouter 单纯做分发形成差异;但 Nous Portal 是否能承接 OpenRouter 的中立分发功能,取决于 Step 3.7 Flash 限时免费结束后的定价与续接模型节奏。
被忽视的点:v0.18.0 的「Scale-to-zero & drain coordination」+「Background fan-out」是同一个发布主题的两个切面——前者解决『多智能体看板停机时的优雅退出』,后者解决『多智能体并发的提交与回收』。这两件事共同把『大规模多智能体看板运行 + 高并发会话』从口号变成可观测的运行时契约——7-01 早报提到的『多智能体看板稳定性改进』在这里有了具体技术映射,而不仅仅是营销表述。这是 v0.18.0 Judgement Release 真正比 v0.17.0 Reach Release 走得更深的地方:Reach 让 Hermes 触达更多人,Judgement 让 Hermes 能承载更多同时在线的多智能体工作流。