← 返回时间线日志

RAG检索链路压测复盘

从召回波动到稳定上线的三步修正

发布于 2026年5月18日 · 记录者 GuanXin ·

RAG检索链路压测复盘

在一次 10 万级问答压测中,系统出现召回率波动与尾延迟升高。最终通过以下三步完成修正:

1. 统一分段策略

将离线索引与在线查询的切分策略对齐,避免同一语义在不同窗口错位。

2. 增加重排兜底

对低置信召回结果增加轻量重排,减少“召回到了但答偏了”的情况。

3. 热点缓存分层

将高频问题缓存拆分为短周期和长周期两层,既保证命中率,也防止脏数据长驻。

结果

  • P95 延迟下降约 27%
  • 线上答复可用率提升到稳定区间
  • 问题定位时间从小时级降到分钟级