课题组
北京大学未来技术学院大数据与生物医学人工智能系——王劲卓课题组
王劲卓课题组聚焦生物医学人工智能交叉领域,致力于解决多源异构医疗数据的智能融合与生成关键技术。课题组主要针对多模态生物医学大数据融合与生成,核心研究方向包括:
- 多模态医学数据融合架构
- 医学知识图谱
- 辅助智能诊疗的人工智能算法
- 生成式模型训练
研究课题
1) 研究背景
利用知识图谱(KG)进行生物医学多模态数据的整合,并结合检索增强生成(RAG)等技术提升大语言模型的在生物医学领域的性能,从而支撑临床决策支持系统(CDSS)的基础。
- A) 临床决策支持系统 Clinical Decision Support System (CDSS)
- B) 知识图谱 Knowledge Graph(KG)
- C) 检索增强生成技术 Retrieval Augmented Generation (RAG)
CDSS是一种协助医护人员进行医疗决策的交互式专家系统,包含了辅助问诊、辅助诊断、治疗方案推荐、医嘱质控等多种功能。它基于自然语言处理、知识图谱等多种AI技术,打造遵循循证医学的临床决策支持系统,用以提升医疗质量,降低医疗风险。 它相当于医生的"AI助手",通过分析患者数据与医学知识库,实时提供诊疗建议的智能系统。
CDSS的关键局限为时效滞后性及缺乏场景适应性。
KG是是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。知识图谱网络由节点(实体)和边(关系)组成,基本单位为一个"实体-关系-实体"的三元组。
它能把所有不同种类的信息连接在一起得到的一个关系网络,用以表示复杂的关系,因此在复杂的生物医学体系中具有较大的优势。目前UMLS等标准术语体系已包含500万+医学概念,支持了基本语义的推理。
生物医学领域中,放射影像、病理切片等图像及医生诊断的文本都对诊断非常重要,因此多模态数据的融合成为知识图谱构建的关键技术。这种融合不仅增强了图谱的临床实用性,也为AI驱动的精准诊疗提供了统一的知识基础设施。
RAG是一种将大规模语言模型(LLM)与外部知识源的检索相结合,以改进问答能力的工程框架。它使用来自私有或专有数据源的信息来辅助文本生成,从而弥补LLM的局限性,特别是在解决知识的局限性、大语言模型的幻觉问题及数据的安全性这三点。
目前RAG技术的医疗适配挑战为检索偏差及生成风险。
协同工作流程
2) 生物医学知识图谱 Biomedical Knowledge Graph(BKG)
最早的生物医学知识图谱为谷歌推出的"Google Health Knowledge Graph",整合了FDA药品库、PubMed文献等权威数据源。
以下为生物医学知识图谱所涵盖的数据及应用概览:
生物医学知识图谱概览
3) 生物医学数据的检索增强生成技术 Clinical RAG
以下为课题组开发的临床诊断RAG技术流程:
生物医学中的检索增强生成技术