欢迎光临北京软件和信息服务业协会官方网站
解决RAG检索“失准”难题:宝兰德DeBot的检索优化实践
发布日期:2026-04-24    来源:宝兰德    分享到:

在企业智能化转型的浪潮中,我们常常面临一个尴尬的现实:明明喂给了AI海量数据,它却总在关键时刻“答非所问”或“顾此失彼”。这并非大模型不够聪明,而是传统的检索增强(RAG)技术,往往在源头就割裂了知识的脉络——那些被生硬切分的文本块,丢失了至关重要的上下文灵魂。


为了解决这一痛点,我们优化DeBot能力,通过“目录树切分”与“长上下文重排”的创新组合,赋予了机器“全景式”的阅读理解能力。本文将带你详细了解宝兰德DeBot的底层逻辑,看它是如何通过一套“组合拳”,让企业智能问答不需要高额的文档治理成本,即可实现准确率跃升的优质体验。


01 RAG检索:


企业智能问答的核心基石


在RAG(检索增强生成)整体方案中,检索环节作为核心基座,直接决定了模型回答的准确性与可靠性。其核心目标是:针对用户提出的问题,从后台知识库中精准抽取能够充分支撑答案的上下文,为大模型输出精准、全面、可信的回复奠定前提。


影响RAG检索效果的关键因素主要包括三大方面:文本块(chunk)切分、检索索引设置(如关键词倒排索引、Embedding语义索引)以及检索策略(向量检索、BM25检索、Hybrid混合检索)。其中,chunk切分处于源头核心地位,chunk源自底层文档解析,切分过程中极易出现上下文章节关联丢失、关键词信息断裂等问题。即便后续进行embedding编码或rerank排序优化,也难以弥补切分阶段信息碎片化的根本缺陷,无法为大型模型提供充分丰富的支撑内容。


02 行业痛点:


传统RAG与Skill-based RAG的双重困境


  • 传统RAG的固有局限

传统RAG方案在chunk切割阶段存在天然缺陷:

问题类型

具体表现


影响范围

上下文章节关联丢失

切分后chunk成为独立单

元,因果关联断裂

答案语义不完整,以偏概全

关键词信息断裂

切分位置不当导致关键词

上下文分散在不同chunk

检索命中但不理解,无法支撑完

整回答


针对这一行业痛点,业内常见的解决方案是采用GraphRag技术,通过抽取实体、构建知识图谱实现全局或局部检索。但该方案不仅耗时耗力、实装成本高,还面临知识库动态更新的难题,难以满足企业高效落地的需求。


  • Skill-based RAG的准确性问题

当前市场上基于Skill的RAG方案,虽然通过分层索引、强制学习机制和渐进式检索规范了流程,但是本质还是上下文工程,准确性上仍存在本质局限:


问题类型

具体表现

影响范围

字面匹配局限


依赖grep关键词搜索,无法

理解语义

召回率低,表达多样性场景失效

上下文断裂

chunk切分后丢失上下文中

因果关联

答案不完整,无法理解语义连贯性

无排序机制


grep按文件顺序返回结果,

无法对多结果进行相关性排序

大量噪音结果,需人工筛选最相关内容

局部读取限制


使用offset/limit控制读取,

可能漏掉关键信息

信息不完整,答案可能以偏概全


  • Skill-based RAG的效率问题


问题类型

具体表现

影响范围

多轮迭代耗时


多轮迭代,每轮需生成关

键词→检索→分析→判断

复杂问题耗时长,用户体验差

人工决策成本


无自动化路径规划,需逐

层阅读索引定位目标,误

判路径后需折返重试

增加操作复杂度,降低自动化程度

重复检索


无rerank机制,在多个候

选中反复验证

检索效率低,token消耗高

强制学习开销


每次处理PDF/Excel前需

阅读参考文档

不必要的步骤增加


03 高精破局:


宝兰德的RAG检索优化方案


为高效破解上述行业痛点,宝兰德创新采用长上下文重排模型,对大量文本块进行同步重排,让文本块在重排阶段主动获取上下文关联信息;同时深度挖掘文档自身的结构化层级价值,在切分后的每个文本块前添加对应章节目录,确保文本块携带完整的全局信息,从源头提升检索精准度,最终实现检索准确率相比以往提升20%的显著成效。具体优化方案分为三大核心步骤:


  • 文档章节目录树切分:筑牢检索源头基础

  • 上下文扩展+一次重排:强化文本块关联性

  • 上下文扩展+二次重排:筛选最优上下文


04 效果对比


我们基于相同的测试数据集,对业界主流RAG产品进行了系统性测试,涵盖教育领域新生帮手和财务助手两大典型业务场景:



产品


新生帮手场景

(平均准确率)


财务助手场景

(平均准确率)


RAGFlow


81%


90%


MaxKB


80.3%


82.33%


FastGPT


55.16%


58.83%


AnythingLLM


49.33%


58.5%


主流商用产品A


71.83%


77.5%


DeBot


88%


98%

(*宝兰德实验室测试数据,测试结果仅供参考,实际效果因场景而异。)


准确性维度对比


对比项

Skill-based

业界主流产品

(平均)

我们的优化方案

优势说明

上下文完整性

局部读取有限上下文

简单

chunk拼接

长上下文扩展重组

保留完整语义链

重排机制


无重排,按文件顺序返回


单次重排,仅对候

选Chunk打分

二次重排精选


精准筛选最相关上下文


Chunk

关联

切分后独立,无关联

按固定大小/段落

切分

树形目录保持层

保持文档结构关系

召回能力

依赖关键词覆盖

全局性不足

语义重组输出

兼顾精确和召回


效率维度对比


对比项

Skill-based

我们的优化方案

优势说明

检索

迭代

多轮迭代

一次/二次重排

减少无效迭代

路径

规划

无自动化路径规划,需逐层

阅读索引定位目标,误判路

径后需折返重试

智能重排自动排序

降低决策成本

信息

获取


逐块读取验证

重排后直接精选

减少读取次数

答案

组织

多轮上下文汇总

语义重组精炼答案

答案更简洁准确

流程

复杂度

强制阅读参考文档

端到端自动处理

流程更简洁


结语


此次RAG检索优化方案,以创新技术破解行业核心痛点,不仅通过文档目录树切割、长上下文重排模型,优化重排流程、提升检索效率,无需投入高额成本,即可持续实现检索准确率20%的提升,有效解决了传统检索中上下文不足、关联性不强的问题。


相比业界主流产品,我们的方案在教育和金融等复杂业务场景下准确率提升平均达24%。为企业提供更高精度、更灵活、更精准的RAG落地方案,助力业务场景中问答体验的全面升级。

你知道你的Internet Explorer是过时了吗?

为了得到我们网站最好的体验效果,我们建议您升级到最新版本的Internet Explorer或选择另一个web浏览器.一个列表最流行的web浏览器在下面可以找到.