← Docs/

§ 运维 · 限流

限流 + 配额.

每月 cost_units 配额 + 每分钟 RPM 限流, 按套餐分级. cost_units 单价随端点和 BYOM mode 变化.

01

套餐对照

套餐月配额 (units)限流 (RPM)BYOM月费
Free10010¥0
Starter5,00030¥99
Pro100,000100¥999
Enterprise无限 (-1)1,000+议价
02

端点 cost_units

端点managed costBYOM cost备注
POST /v1/codename11零 LLM, 一样
POST /v1/codename/symbolic22零 LLM, 一样
POST /v1/analyze/individual104BYOM 砍 60%
POST /v1/messages (hipmm/codename)11兼容路径同价
POST /v1/messages (hipmm/individual-*)104兼容路径同价
POST /v1/chat/completions / /v1/responses(同上)(同上)同 messages
GET /v1/health · /v1/version · /metrics00公开端点
GET /v1/account · /v1/billing/usage00管理端点不扣
03

限流规则 (Token Bucket)

每个 API key 一个独立的 token bucket. 桶容量 = 套餐 RPM, 每秒重填 RPM/60 个 token.

例子: Free 套餐 10 RPM

第 0 秒  桶满 10 → 调用 10 次 → 全过
第 0.1 秒 桶空 0 → 调用 1 次 → 429 RATE_LIMIT_EXCEEDED
第 6 秒  重填到 1 → 调用 1 次 → 过
第 60 秒 桶满 10

多 worker 共享桶

P1.3 之后 (v0.2.0+) Redis Lua atomic token bucket, 多 worker 实例共享同一个桶, 不会因为 worker 数量翻倍而限流松动.
04

配额扣减 (Quota)

每次成功调用扣对应 cost_units. 月配额每月 1 日 0:00 UTC 重置.

缓存命中也扣费

ADR-0003 K-3: 即使命中确定性缓存 (codename 等), 仍扣 cost_units. 防止客户用缓存反复白嫖.

超出月配额 → 429 QUOTA_EXCEEDED. 升级套餐立即生效 (v0.4 加 Stripe 自动续费).

05

计算工具

假设你是 HR SaaS, 月调 1 万次个体画像 (standard 档):

模式月 cost_units需要套餐你的成本
managed10 × 10,000 = 100,000Pro¥999/月 (含 LLM)
BYOM (DeepSeek)4 × 10,000 = 40,000Pro (40% 用量)¥999/月 + ~¥5,400 LLM
managed (升级)10 × 50,000 = 500,000Enterprise议价

管理控制台 /dashboard 实时显示本月用量 + 剩余 + 限流配置.

06

升级 / 降级

当前 v0.3.0 升级 plan 仍是邮件人工 (v0.4 接 Stripe 自动). 流程:

  1. 邮件 sales@hipmm.com 说明套餐
  2. 转账 / 对公付款
  3. HiPMM 后台改你 user.plan, 立即生效

看套餐