← 返回时间线日志
RAG检索链路压测复盘
从召回波动到稳定上线的三步修正
RAG检索链路压测复盘
在一次 10 万级问答压测中,系统出现召回率波动与尾延迟升高。最终通过以下三步完成修正:
1. 统一分段策略
将离线索引与在线查询的切分策略对齐,避免同一语义在不同窗口错位。
2. 增加重排兜底
对低置信召回结果增加轻量重排,减少“召回到了但答偏了”的情况。
3. 热点缓存分层
将高频问题缓存拆分为短周期和长周期两层,既保证命中率,也防止脏数据长驻。
结果
- P95 延迟下降约 27%
- 线上答复可用率提升到稳定区间
- 问题定位时间从小时级降到分钟级