解决RAG检索“失准”难题:宝兰德DeBot的检索优化实践
在企业智能化转型的浪潮中,我们常常面临一个尴尬的现实:明明喂给了AI海量数据,它却总在关键时刻“答非所问”或“顾此失彼”。这并非大模型不够聪明,而是传统的检索增强(RAG)技术,往往在源头就割裂了知识的脉络——那些被生硬切分的文本块,丢失了至关重要的上下文灵魂。
为了解决这一痛点,我们优化DeBot能力,通过“目录树切分”与“长上下文重排”的创新组合,赋予了机器“全景式”的阅读理解能力。本文将带你详细了解宝兰德DeBot的底层逻辑,看它是如何通过一套“组合拳”,让企业智能问答不需要高额的文档治理成本,即可实现准确率跃升的优质体验。
01 RAG检索:
企业智能问答的核心基石 在RAG(检索增强生成)整体方案中,检索环节作为核心基座,直接决定了模型回答的准确性与可靠性。其核心目标是:针对用户提出的问题,从后台知识库中精准抽取能够充分支撑答案的上下文,为大模型输出精准、全面、可信的回复奠定前提。 影响RAG检索效果的关键因素主要包括三大方面:文本块(chunk)切分、检索索引设置(如关键词倒排索引、Embedding语义索引)以及检索策略(向量检索、BM25检索、Hybrid混合检索)。其中,chunk切分处于源头核心地位,chunk源自底层文档解析,切分过程中极易出现上下文章节关联丢失、关键词信息断裂等问题。即便后续进行embedding编码或rerank排序优化,也难以弥补切分阶段信息碎片化的根本缺陷,无法为大型模型提供充分丰富的支撑内容。 02 行业痛点: 传统RAG与Skill-based RAG的双重困境 传统RAG的固有局限 传统RAG方案在chunk切割阶段存在天然缺陷: 问题类型 具体表现 影响范围 上下文章节关联丢失 切分后chunk成为独立单 元,因果关联断裂 答案语义不完整,以偏概全 关键词信息断裂 切分位置不当导致关键词 上下文分散在不同chunk 检索命中但不理解,无法支撑完 整回答 针对这一行业痛点,业内常见的解决方案是采用GraphRag技术,通过抽取实体、构建知识图谱实现全局或局部检索。但该方案不仅耗时耗力、实装成本高,还面临知识库动态更新的难题,难以满足企业高效落地的需求。
Skill-based RAG的准确性问题 当前市场上基于Skill的RAG方案,虽然通过分层索引、强制学习机制和渐进式检索规范了流程,但是本质还是上下文工程,准确性上仍存在本质局限: 问题类型 具体表现 影响范围 字面匹配局限 依赖grep关键词搜索,无法 理解语义 召回率低,表达多样性场景失效 上下文断裂 chunk切分后丢失上下文中 因果关联 答案不完整,无法理解语义连贯性 无排序机制 grep按文件顺序返回结果, 无法对多结果进行相关性排序 大量噪音结果,需人工筛选最相关内容 局部读取限制 使用offset/limit控制读取, 可能漏掉关键信息 信息不完整,答案可能以偏概全 Skill-based RAG的效率问题 问题类型 具体表现 影响范围 多轮迭代耗时 多轮迭代,每轮需生成关 键词→检索→分析→判断 复杂问题耗时长,用户体验差 人工决策成本 无自动化路径规划,需逐 层阅读索引定位目标,误 判路径后需折返重试 增加操作复杂度,降低自动化程度 重复检索 无rerank机制,在多个候 选中反复验证 检索效率低,token消耗高 强制学习开销 每次处理PDF/Excel前需 阅读参考文档 不必要的步骤增加 03 高精破局: 宝兰德的RAG检索优化方案 为高效破解上述行业痛点,宝兰德创新采用长上下文重排模型,对大量文本块进行同步重排,让文本块在重排阶段主动获取上下文关联信息;同时深度挖掘文档自身的结构化层级价值,在切分后的每个文本块前添加对应章节目录,确保文本块携带完整的全局信息,从源头提升检索精准度,最终实现检索准确率相比以往提升20%的显著成效。具体优化方案分为三大核心步骤: 文档章节目录树切分:筑牢检索源头基础 上下文扩展+一次重排:强化文本块关联性 上下文扩展+二次重排:筛选最优上下文 04 效果对比 我们基于相同的测试数据集,对业界主流RAG产品进行了系统性测试,涵盖教育领域新生帮手和财务助手两大典型业务场景: 产品 新生帮手场景 (平均准确率) 财务助手场景 (平均准确率) RAGFlow 81% 90% MaxKB 80.3% 82.33% FastGPT 55.16% 58.83% AnythingLLM 49.33% 58.5% 主流商用产品A 71.83% 77.5% DeBot 88% 98% (*宝兰德实验室测试数据,测试结果仅供参考,实际效果因场景而异。) 准确性维度对比 对比项 Skill-based 业界主流产品 (平均) 我们的优化方案 优势说明 上下文完整性 局部读取有限上下文 简单 chunk拼接 长上下文扩展重组 保留完整语义链 重排机制 无重排,按文件顺序返回 单次重排,仅对候 选Chunk打分 二次重排精选 精准筛选最相关上下文 Chunk 关联 切分后独立,无关联 按固定大小/段落 切分 树形目录保持层 级 保持文档结构关系 召回能力 依赖关键词覆盖 全局性不足 语义重组输出 兼顾精确和召回 效率维度对比 对比项 Skill-based 我们的优化方案 优势说明 检索 迭代 多轮迭代 一次/二次重排 减少无效迭代 路径 规划 无自动化路径规划,需逐层 阅读索引定位目标,误判路 径后需折返重试 智能重排自动排序 降低决策成本 信息 获取 逐块读取验证 重排后直接精选 减少读取次数 答案 组织 多轮上下文汇总 语义重组精炼答案 答案更简洁准确 流程 复杂度 强制阅读参考文档 端到端自动处理 流程更简洁 结语 此次RAG检索优化方案,以创新技术破解行业核心痛点,不仅通过文档目录树切割、长上下文重排模型,优化重排流程、提升检索效率,无需投入高额成本,即可持续实现检索准确率20%的提升,有效解决了传统检索中上下文不足、关联性不强的问题。 相比业界主流产品,我们的方案在教育和金融等复杂业务场景下准确率提升平均达24%。为企业提供更高精度、更灵活、更精准的RAG落地方案,助力业务场景中问答体验的全面升级。


