跳转到主要内容
HermesAgent.Work
模型接入

Hermes Agent 成本记录模板:别等账单爆了才开始统计

为日报、摘要、PR Review、研究整理等工作流建立模型成本记录,帮助判断模型选择是否划算。

更新 2026-06-137 分钟阅读模型接入成本控制模型选择模板

最后更新 2026-06-13 · HermesAgent.Work 编辑组 整理维护(内容维护说明)· 步骤过时或无法复现可反馈

为什么要记录成本

Agent 工作流一旦变成定时任务,成本就不再是单次调用,而是频率、输入长度、失败重试和人工修改的组合。没有记录,很容易低估长期成本。

最小成本表

date,workflow,model,input_size,output_size,status,retry_count,human_edit_minutes,note
2026-05-08,daily-brief,openrouter/model,medium,short,success,0,3,格式稳定

新手不需要一开始就做复杂仪表盘,只要每次运行能留下这些字段,就足够做第一轮判断。

怎么判断模型是否合适

便宜模型如果经常失败或需要大量人工改写,真实成本可能更高。高质量模型如果只用于关键任务,反而更划算。建议把任务分层:高频低风险用低成本模型,低频高价值用高质量模型。

每周复盘

每周看一次失败率、平均人工修改时间和总触发次数。优化优先级通常是:减少无效输入,限制输出长度,固定格式,最后才换模型。

和 Starter 包配合

免费 Starter 包里的工作流可以直接加一份成本记录表。跑 1 周后,你会比“凭感觉选模型”更清楚哪个方案适合长期使用。

让 insights 出数,表里只填机器不知道的

成本表最常见的死法不是设计不好,而是字段太多坚持不到第二周。降低维护成本的思路:凡是命令能给的数据,一律不手填。

hermes insights
hermes sessions stats
hermes sessions export

`hermes insights` 是 Hermes 自带的使用分析,每周复盘先跑它,看完再决定表里还缺什么;连续两周都排在末位的工作流,要么砍掉要么降频,不值得为它优化模型。`sessions stats` 给出会话维度的统计,和你的表互为对照:表里写"本周日报跑了 7 次",stats 里对不上,说明有触发没被记录。想算得更细,用 `sessions export` 把会话导成 JSONL,写个脚本统计每个工作流的输入输出文本量,比凭印象填 small、medium 准确一个量级。月底清理旧会话之前,记得先把当月 JSONL 存档一份,不然表里的 session_id 会变成查无此据的死链接。

给表加两列:session_id 和 trigger

原始模板的字段偏"结果",缺"回查入口"。建议改成这样:

date,workflow,session_id,trigger,human_edit_minutes,note
2026-06-13,daily-brief,a1b2c3,cron,2,标题行多余

注意新表里没有 model 这一列:模型、输入输出这些信息原始会话里全都有,没必要往表里重抄一遍,留个会话指针就够了。session_id 正是这个回查锚点:某天发现输出质量突然下滑,拿着这个 ID 用 `hermes sessions browse` 翻出原始会话,几分钟就能确认是输入源变了、模型换了还是提示词被改过。trigger 只记两个值,cron 或 manual。月底分开统计你大概率会看到:定时触发的失败率和手动触发不一样,因为定时任务常在输入为空、上游接口抽风的时段照跑。这个差值指向的优化动作(给定时任务加输入兜底)比纠结模型单价收益大。

最终手填的只剩 human_edit_minutes 和 note 两项,每次十几秒。能把记录动作压到十几秒,这张表才能活过一个月,数据才够支撑"要不要换模型"的判断。

还没有真实场景?可以先领取 [Free Starter 模板包](/free-template-pack),从低风险只读任务开始试跑。