Models

Hermes Agent 模型接入指南

模型不是越贵越好。先选一个能稳定跑通的默认模型，再按任务风险、成本和上下文长度做路由。

选择 Provider 看验收清单

01 / Provider

先按场景选入口

第一次接入只选一个 Provider。等 CLI、Memory、Skills 都稳定后，再考虑路由和多模型策略。

OpenRouter

适合：先跑通、想快速切换模型、需要成本和速度路由

配置：准备 API Key，使用 `hermes model` 选择 Provider，再跑一次短对话。

检查：注意模型名称、上下文窗口、单次请求价格和限速。

Nous Portal

适合：想用 Nous 侧模型入口，且希望少维护第三方路由规则

配置：完成账号和 Key 后，通过模型配置向导绑定。

检查：确认额度、区域可用性和你要用的模型是否开放。

Ollama

适合：隐私优先、本地实验、低成本文本任务

配置：先让本地模型服务稳定运行，再让 Hermes 指向本地端点。

检查：本地显存、响应速度和上下文长度会直接影响体验。

OpenAI 兼容端点

适合：自托管网关、企业代理、内部模型平台

配置：准备 base URL、model name 和 Key，先用最小请求测试。

检查：检查 streaming、tool calling、超时和错误格式是否兼容。

国内网络访问 OpenRouter 不稳？可以直接用 MiniMax、智谱 GLM、Kimi、小米 MiMo 等国内可直连的 Provider，详见国内安装与使用。

配置和重配命令

`hermes model` 用来处理模型配置。切换 Provider 后，先退出当前会话，再重新打开 Hermes 验证。

hermes model
hermes model list
hermes model set <provider/model> --provider <provider>
hermes setup model --reconfigure
hermes config check
hermes doctor
hermes

OpenRouter 路由思路

高频低风险任务优先控制成本；代码、研究、长文档再切换更强模型。路由配置先小范围测试，避免把所有任务都打到贵模型。

provider_routing:
  sort: price
  allow_fallbacks: true
  only:
    - <preferred-provider>
  ignore:
    - <unstable-provider>

02 / 任务匹配

不同任务用不同模型

日报、摘要、分类

低成本模型

看稳定性和批量价格

代码审查、需求拆解

强推理模型

看上下文和工具调用能力

客服草稿、销售跟进

稳定通用模型

看语气稳定性和延迟

研究、论文、长文档

长上下文模型

看 64K 以上上下文和引用整理能力

本地隐私任务

Ollama / 自托管

看本机资源和响应速度

03 / 命令面

模型接入的命令面

选好 provider 只是第一步。模型来源的日常运维有专门一组命令：刷新模型列表、配置失败兜底、管理认证凭证、在本地开兼容代理，全程不用打开配置文件。它们对应模型层最常见的三类故障：列表过期、主入口挂掉、凭证失效。

hermes model 与 --refresh

hermes model 是交互式入口：先挑 provider，再从拉回的列表里定默认模型。各家 /v1/models 的返回会被缓存，新模型刚上线却在列表里找不到时，加 --refresh 清掉缓存重新拉一遍，不必重装，也不必手改配置文件。缓存换来的是列表秒开，代价是偶尔滞后，记住这个开关就够了。

hermes fallback 备用链

hermes fallback 为主模型配置失败后的备用 provider 链。主入口限流、超时或停机时，请求按链路顺序自动切到下一家。长期挂机的 Gateway 和定时任务最怕主模型单点故障，上线前先把这条链配好；链上每一家都提前用短对话跑一遍，免得真正切换的那一刻才发现备用入口的 Key 早已失效。

login、auth 与 proxy

hermes login 和 hermes logout 处理 provider 的登录退出，hermes auth 管理池化凭证。hermes proxy 会在本地启动一个 OpenAI 兼容代理，把 OAuth 型 provider 转成标准接口；走 Nous Portal 的用户，还能用 hermes portal 查看订阅状态和 Tool Gateway 路由。

换 provider 不改代码

上游 README 列出的 provider：Nous Portal、OpenRouter（200+ 模型）、NovitaAI、NVIDIA NIM（Nemotron）、Xiaomi MiMo、z.ai/GLM、Kimi/Moonshot、MiniMax、Hugging Face、OpenAI，以及自有 OpenAI 兼容端点。在它们之间切换不需要改任何代码，用 hermes model 重选一次默认模型即可生效。

模型运维速查

排查模型问题时按这个顺序走：先 --refresh 排除缓存过期，再确认 fallback 链是否生效，最后检查 login 与 auth 的凭证状态。proxy 跑起来之后，本地其他只认 OpenAI 协议的工具可以共用这一份认证，不必为每个工具单独配 Key。

hermes model --refresh   # 清缓存，重拉各家 /v1/models
hermes fallback          # 配置主模型失败后的备用链
hermes login             # provider 登录
hermes auth              # 管理池化凭证
hermes proxy             # 本地 OpenAI 兼容代理
hermes portal            # Nous Portal 状态与订阅

04 / 验收

模型接入完成的标准

不要只看“能不能回复”。真正可用的模型配置，要能解释错误、控制成本、承受重复调用，并知道什么时候需要人工确认。

下一步接 Gateway

能完成 1 次 20 秒内的短对话。

能处理 64K 上下文需求，或知道当前模型的上下文上限。

能在失败时看到明确错误：401、429、timeout、model not found。

有一个低成本默认模型，也有一个高质量备用模型。

Gateway 或工作流不会无限重试同一个模型错误。

高频任务已经设置输入长度、触发频率和人工确认边界。