目录
目录README.md

轻核智图:面向GraphRAG的操作系统级优化

赛题说明:

RAG(检索增强生成)技术通过结合检索与生成模型,利用外部知识库提升生成内容的准确性和时效性,是缓解大模型“幻觉”问题的有效手段。但RAG存在显著不足:检索质量依赖片段相关性,易受关键词匹配局限,难以捕捉深层语义关联;对多跳推理(需串联多个信息点)支持较弱,且上下文窗口受限可能导致信息筛选不全。GraphRAG作为RAG的改进方案,通过构建知识图谱重构检索架构,其优势在于通过利用图结构存储实体关系,支持复杂关系推理和多跳查询,显著提升语义理解深度;此外,通过图嵌入可以实现更精准的语义检索,减少信息碎片化问题。然而,GraphRAG的系统实现面临显著的工程挑战。在存储层面,知识图谱的动态更新需频繁调用LLM生成结构化语义描述(如实体关系三元组),导致索引构建的I/O吞吐效率下降与存储成本激增(微软LazyGraphRAG研究表明,传统方案索引成本高达数百万Token)。内存管理方面,图算法(如社区检测、PageRank权重计算)的随机内存访问模式引发严重的资源争用问题,而多模态数据的混合存储进一步加剧内存碎片化风险。计算效率方面,图遍历操作的低缓存命中率与异构硬件(CPU/GPU/TPU)适配不足导致检索延迟显著高于向量检索方法。 本赛题聚焦操作系统级优化方法,旨在增强GraphRAG在实际应用场景的效果和性能。通过系统设计优化存储架构、内存调度与计算资源协同机制,以改善知识图谱的动态更新效率与大模型推理服务质量。

技术方案:

基于现有开源LightRAG方案,进行系统级优化方案的设计、实现与验证。针对GraphRAG中,LLM在索引构建阶段实体抽取时延过高导致的系统初始化瓶颈问题和图数据分阶段读写分明的场景,我们设计了如下具体技术方案——轻核智图

  1. 基于结构压缩与语义映射的检索加速机制
    • 索引优化:在混合索引策略中,由于在传统GraphRAG工作流程中延时过高的根本原因在于高度依赖大语言模型进行知识图索引的构建,因此我们在知识图构建阶段提出了非大模型依赖的三元组抽取策略,引入基于自然语言处理工具的高性能抽取方案,在保证知识图谱质量的同时显著降低了索引构建时延,同时构建了从实体到文本块的双重映射机制,为后续的检索步骤提供高效的索引
    • 检索优化:在检索阶段,为最大化利用索引构建阶段所生成的知识图谱,检索层将根据用户输入查询中提取关键实体的情况,将查询分为全局检索、局部检索以及混合检索,通过高效的向量检索方法与此前构建的双重映射机制,能够在保证检索召回率的同时显著降低检索所需用时,从而在RAG系统的整体流程上较大地优化时延性能。
  2. 基于LSM-Tree的图数据构建优化
    • 在写多读少的构建阶段,我们采用 LSM-Tree 以支持高吞吐的写操作和天然的分层存储。技术实践方面,我们对开源 RocksDB 的 Merge Operator 接口,结合 Protobuf 编码,将每条边或节点更新抽象为 delta entry,并在 Compaction 中完成去重、升序与删除逻辑。这使得,原适合用于键值对存储的存储方式,转变成利于图格式存储。
  3. 基于稀疏矩阵乘法和FPGA异构加速的图查询方法
    • 在读多写少的检索阶段,我们采用FPGA异构加速和稀疏矩阵计算的方案。在异构加速方面,我们利用高度并行和低延迟的 FPGA,驱动采用 DMA 技术,实现了图算法任务级别的计算卸载。根据 CPU 占用率和消息队列长度等系统指标,使用强化学习技术智能决策任务的负载。用户无需了解底层硬件细节,即可触发FPGA加速模块,实现图数据处理与计算功能的硬件加速。另一方面,我们以线性代数来模拟图遍历。计算中,一次的矩阵乘法等同于一次边的拓展,例如模式匹配 (N0)-[A]->(N1)-[B]->(N2)<-[A]-(N3),可转换为矩阵乘法:A * B * A转置。同时使用稀疏矩阵格式,在稀疏图计算中能极大节省空间和带宽的占用,并且增强数据局部性和缓存友好性。

总体架构图:

image-20250720181958753

关于
193.3 MB
邀请码
    Gitlink(确实开源)
  • 加入我们
  • 官网邮箱:gitlink@ccf.org.cn
  • QQ群
  • QQ群
  • 公众号
  • 公众号

©Copyright 2023 CCF 开源发展委员会
Powered by Trustie& IntelliDE 京ICP备13000930号