ClinicalRAG

Clinical decision support through RAG
生物医学数据的检索增强生成技术 —— 临床决策支持系统的理论体系
魏欣怡生命科学学院 [email protected]

课题组

北京大学未来技术学院大数据与生物医学人工智能系——王劲卓课题组

王劲卓课题组聚焦生物医学人工智能交叉领域，致力于解决多源异构医疗数据的智能融合与生成关键技术。课题组主要针对多模态生物医学大数据融合与生成，核心研究方向包括：

多模态医学数据融合架构
医学知识图谱
辅助智能诊疗的人工智能算法
生成式模型训练

研究课题

1) 研究背景

利用知识图谱（KG）进行生物医学多模态数据的整合，并结合检索增强生成（RAG）等技术提升大语言模型的在生物医学领域的性能，从而支撑临床决策支持系统（CDSS）的基础。

A) 临床决策支持系统 Clinical Decision Support System (CDSS)

CDSS是一种协助医护人员进行医疗决策的交互式专家系统，包含了辅助问诊、辅助诊断、治疗方案推荐、医嘱质控等多种功能。它基于自然语言处理、知识图谱等多种AI技术，打造遵循循证医学的临床决策支持系统，用以提升医疗质量，降低医疗风险。它相当于医生的"AI助手"，通过分析患者数据与医学知识库，实时提供诊疗建议的智能系统。

CDSS的关键局限为时效滞后性及缺乏场景适应性。

B) 知识图谱 Knowledge Graph（KG）

KG是是结构化的语义知识库，用于以符号形式描述物理世界中的概念及其相互关系。知识图谱网络由节点（实体）和边（关系）组成，基本单位为一个"实体-关系-实体"的三元组。

它能把所有不同种类的信息连接在一起得到的一个关系网络，用以表示复杂的关系，因此在复杂的生物医学体系中具有较大的优势。目前UMLS等标准术语体系已包含500万+医学概念，支持了基本语义的推理。

生物医学领域中，放射影像、病理切片等图像及医生诊断的文本都对诊断非常重要，因此多模态数据的融合成为知识图谱构建的关键技术。这种融合不仅增强了图谱的临床实用性，也为AI驱动的精准诊疗提供了统一的知识基础设施。

C) 检索增强生成技术 Retrieval Augmented Generation (RAG)

RAG是一种将大规模语言模型（LLM）与外部知识源的检索相结合，以改进问答能力的工程框架。它使用来自私有或专有数据源的信息来辅助文本生成，从而弥补LLM的局限性，特别是在解决知识的局限性、大语言模型的幻觉问题及数据的安全性这三点。

目前RAG技术的医疗适配挑战为检索偏差及生成风险。

协同工作流程

2) 生物医学知识图谱 Biomedical Knowledge Graph（BKG）

最早的生物医学知识图谱为谷歌推出的"Google Health Knowledge Graph"，整合了FDA药品库、PubMed文献等权威数据源。

以下为生物医学知识图谱所涵盖的数据及应用概览：

生物医学知识图谱概览

3) 生物医学数据的检索增强生成技术 Clinical RAG

以下为课题组开发的临床诊断RAG技术流程：

生物医学中的检索增强生成技术