医学大模型开源项目: 医学大模型的局限性 + 改进思路
- GPT在医学上的优势:专业性凸显,实用性兼备
- 医学诊断的本质是神经网络做模式识别
- 大多数人的一生之中都会遭遇诊断错误
- 微调大模型在医学上的局限:问诊详细程度完全随机、推理和决策逻辑不完整、建议偏方向性实用性欠缺
- 方案一:海量相关数据 + GPT4 + 恐怖算力暴力
- 方案二:设置快慢双系统,快系统理解信息,慢系统辅助决策
- 【临床推理与鉴别诊断不充分】的问题与改进思路
- 【诊断辅助检查方案不准确】的问题与改进思路
- 【诊断逻辑与诊断不完整】的问题与改进思路
- 【治疗方案设计不全面】的问题与改进思路
- 技术盘点
- 临床知识图谱
- 微调文本向量库
- 医学指南
- 临床数据和决策逻辑
- 监管
- 罕见病:罕见病诊断最大的困难还是医生的知晓率太低,早诊早治早预防是关键
- 医学大模型 - 开源项目
- 欢迎大佬们加入!
GPT在医学上的优势:专业性凸显,实用性兼备
医学诊断的本质是神经网络做模式识别
医学诊断的本质是神经网络做模式识别,而医生的诊断问题在于,对罕见病、小众病的诊断不行。
模式识别:之所以有XX病,一定有XX病征。
反之,通过识别病人的XX病征,就能推出XX病。
这种模式识别需要海量数据(疾病和病症匹配),复杂在于,一个病对应多个不同症状,一个症状对应多个病。
比如心脏病,一般病症为胸骨下压迫性疼痛,伴有出汗、呼吸急促 — 但也可能表现为胃灼热、消化不良、颈部疼痛、手臂疼痛。
患者说我胳膊痛,医生得多有经验才能想到心脏病 ?
提升准确率是对这个领域形成封闭域,包含所有疾病和病症的匹配。
大多数人的一生之中都会遭遇诊断错误
美国国家医学院报告:去医院看病,诊断错误总发生在5%。 一个人在 N 次医院被诊断错误一次的概率是 1 – 0.95^N,去1次诊断错误是5%,10次是40%,20次是64%,50次是92%。
这意味着,大多数人的一生之中都会遭遇诊断错误。
美国每年因为医生的错误而死的人数,低估是4,4000人,高估是25万人。
不管怎么估计,这个人数都比交通事故杀死的人还多。
美国医疗投入占每年GDP的17%、设备齐全、技术先进,才只有5%。
其实中国医学会误诊资料显示,中国临床医疗误诊率为27.8%。
当你有罕见病、小众病,你被诊断错误的概率极大,甚至辗转反复的奔波各个诊所,都解决不了。
目前GPT,几乎适用于所有病情的【初步诊断】,尤其是【小众病,罕见病】,极大概率避免诊断错误(误诊、诊断过度、无效诊断)。
- 专业性凸显:掌握实习医生知识。综合性和专科性医学问题都有良好表现。可以说是初步具备合格的医疗水平,并且随着影像/检验数据分析的迭代升级,提升空间巨大。
- 实用性兼备:都能够对患者做出相应的指导,并提示最终需要临床医生指导,还兼具患者安抚性。回复快、回复相对准确、操作方便性使得医疗可及性和体验大幅升级。
微调大模型在医学上的局限:问诊详细程度完全随机、推理和决策逻辑不完整、建议偏方向性实用性欠缺
相当于家庭医生,但达不到专科要求。
这是医学数据微调的大模型,微调数据决定了做不到专科医生独立的、全流程的、完备的诊断。
大模型执行临床诊疗任务的四个问题:
- 【临床推理与鉴别诊断不充分】
- 【诊断辅助检查方案不准确】
- 【诊断逻辑与诊断不完整】
- 【治疗方案设计不全面】
在抽取的 1300 例中,测试医学大模型,这四方面问题占到了 51%。
方案一:海量相关数据 + GPT4 + 恐怖算力暴力
完备的推理能力,我只在 GPT4 上看过。
能玩超长的文字冒险游戏,还能得高分。
但我不确定这种推理能力能否胜任医学的全流程诊断。
更关键的是,GPT4微调、部署、数据安全、成本都有问题,这种方案不可行。
方案二:设置快慢双系统,快系统理解信息,慢系统辅助决策
快系统是LLM,微调的医学大模型,功能是自然语义理解和对话、复杂的信息集成和洞察
慢系统是临床知识图谱 + 文本向量库,功能是医疗决策逻辑、最新医学知识
设置独立的临床推理算法,因子与参数独立存储,每条都经过医学指南、三甲医生验证
【临床推理与鉴别诊断不充分】涉及要素:重要既往史、一般情况、诊治经过、主要症状特点、病情发展与演变、病因与诱因、伴随症状、相关基础病、既往诊治、起病时间和起病情况
【诊断辅助检查方案不准确】涉及要素:必要证据、可能证据、充分证据、排除证据,完善辅助检查推荐逻辑
【诊断逻辑与诊断分型不完整】涉及要素:确诊标准(正向因子+排除其他相关主要疾病因子),对每种疾病根据症状匹配诊断推断公式
【治疗方案设计不全面】涉及要素:接确诊后,必须有实用性(药物治疗方案、一般治疗、随访计划)
【临床推理与鉴别诊断不充分】的问题与改进思路
医学大模型问题,如下:
- 偏离主诉和没抓住核心,顶级医生发现用户问题会一追到底,而不是跟随用户关注无关内容,单纯理解对一句话是毫无意义
- 缺症状细节、缺鉴别内容,只能问患者有什么症状,不能自己主动猜有什么问题(反问和求证)
- 逻辑顺序错乱
- 与问诊内容无关
- 错误内容
- 思路过窄未考虑到
- 诊断范围过宽,冗余输出
- 缺主要诊断
- 缺重要合并诊诊断
- 缺并发症诊断
- 未关联并发症
- 主次顺序错误
- 分型错误
- 缺原发病诊断
不足:大模型问诊不稳定,导致有的信息获取不全
改进:临床知识图谱 + 文本向量库,把临床规则放入向量库,辅助问诊获取全面的信息
【诊断辅助检查方案不准确】的问题与改进思路
医学大模型问题,如下:
- 缺确诊检查项、缺鉴别检查项
- 检查无依据、无关、相关度低
- 有错误
- 检查非常规、普及性低
- 检查重复(CT、MRI、X线)
【诊断辅助检查方案不准确】涉及要素:必要证据、可能证据、充分证据、排除证据,完善辅助检查推荐逻辑。
【诊断逻辑与诊断不完整】的问题与改进思路
医学大模型问题,如下:
- 缺进一步检查建议
- 过于宽泛
- 缺相项问题解读
不足:模糊、宽泛、方向性建议
改进:结合教科书、临床指南、临床思维,结构化存储到决策系统中,实现精准医疗
【治疗方案设计不全面】的问题与改进思路
医学大模型问题,如下:
- 诊断不清楚就推荐治疗
- 方向性错误、无适应症、无依据、无评估
- 推荐已用过效果不好的药
- 用药不全面
- 存在明确禁忌
- 优先顺序错误
- 缺病因治疗
- 其他治疗不全面
- 治疗不合适疾病分期
- 手术不全面
- 重复开同类药物
- 复杂病重没有请多学科会诊
- 复查周期过长
不足:实用性欠缺,偏方向性
改进:结合教科书、临床指南、临床思维,结构化存储到决策系统中,实现精准医疗(不同疾病的分期、分型下,诊断方法的适用条件、成本、风险、收益综合分析)
技术盘点
临床知识图谱
知识图谱 = 实体 + 关系
实体:现实世界存在的事物,如小明、小强
关系:实体之间的关系,如朋友
三元组:实体、实体、关系
黎明-电话-xxx,黎明-年龄-20,黎明-朋友-张三
实体识别、实体抽取、关系抽取、实体统一、实体消歧(如苹果是水果,还是公司)
{
'age': 25,
'location': 'beijing'
}
传统的医疗知识图谱一般是基于医学书籍、指南、文献等知识库进行构建,我们更需要通过真实世界电子病历数据构建真实世界医疗知识图谱及临床事件图谱。
临床知识图谱的构建:
数据源主要来自于医院的EMR、HIS、LIS、RIS等系统,以及医学文献、临床指南、书籍和药品说明书这类已经沉淀好的知识。
- EMR是电子病历系统,会记录患者主诉、现病史、体格检查等;如果是住院患者,也会记录手术记录、病程记录、出院记录等大量自然语言描述。
- HIS基本是结构化数据,主要是开检查、检验、用药、医嘱的信息。
- LIS是做检验结果记录的,比如:血常规中检验的数据项和结果。
- PACS及RIS分别是做影像和影像报告管理的。
微调文本向量库
如 text2vec(Text to Vector)是一种文本表示学习方法,旨在将文本转化为向量表示。
通过将文本中的单词或短语映射到向量空间中的向量,从而捕捉到单词之间的语义和语法关系。
我们如果用没有微调的text2vec模型,将其向量化,模型可能只能捕捉到一些通用的医学术语和语法结构!
微调之后的模型,可以学习到关键词与治疗效果的关联,以及与该研究结果相关的语义特征。
医学指南
从医学教材、指南上抽取诊断逻辑、治疗方案。
全世界的大部分地方的医生,对于绝大多数的常见病,是当着病人的面查怎么治病。
看到主治医生查房的时候,每个小医生人手一个Pad。主治医生说到一个病的时候,每个医生赶紧查,然后按照Pad上面说的给病人开药。
他们在查临床诊治指南:
- 针对特定的临床情况,系统制订出的帮助临床医生和患者做出恰当处理的推荐意见。
去医院治疗普遍的问题,担心自己接受的治疗是不是最好的?医生的水平如何?会不会技术不行?会不会因为想挣钱,过度医疗?
指南就是解决所有这些问题的。
它是一套标准化的方案,对医生治病的每一个环节都有建议。
比如,怎么检查、怎么治疗、怎么手术、怎么用药、剂量多少、联合用什么药。几乎所有的常见病都有这么细的指南。
同时,对于同一种病,不论这种病有多简单,都会用到多个不同的指南。
就拿阑尾炎这种外科医生入门级的手术来说,也至少要用到4个指南。
麻醉有《麻醉学操作指南》;手术有《阑尾炎诊治指南》;术后要用到《抗菌药物在围手术期的预防应用指南》;如果感染严重,还会用到《抗菌药物临床应用指南》。
再比如,冠心病的病人,可能要用到至少10个指南。包括《高血压管理指南》、《中国心血管病预防指南》等等。
指南就是这么重要。它几乎涵盖到了临床上所有的常见病,以及常见病里所有的类型。
一个医生规范地应用指南,就可以保证病的基本治疗。
指南是最基础、最标准、最规范的方案。
按照这个方案做,就可以避免不同操作者的水平差异带来的治疗差异,还能保证效果、降低风险。
而且制定指南用到的科学方法,是医学上最讲证据的方法 — 循证医学。
循证,也就是让证据说话,把证据转化为最好的临床指导建议。
把世界上治疗这个病全部的、最好的证据拿来评估,并根据这些证据制定治疗建议。
而且不断地升级迭代,保证了指南的前沿性和时效性。
永远是利用最新的证据,给病人制定治疗方案。
临床数据和决策逻辑
指南只能保证已知问题的情况,最佳流程。
但在治疗中,其实要面对巨大的不确性。
一个学生游泳被溺,送过来的时候一个心跳电信号都没有。
按照指南按压100-120 次 / 分,出现了几个微弱的电信号,再提升他的心率,但心率紊乱。
接下来呢,指南没有?
是先升血压呢?还是先维持这种紊乱的心律呢?或者是用药物纠正这个心律呢?
这些都需要具体情况具体分析,需要临床数据和决策逻辑。
监管
在2022年,国家卫生健康委办公厅、国家中医药局办公室联合制定的《互联网诊疗监管细则(试行)》文件中,
针对主体、业务活动、互联网诊疗质量及安全方面提出了明确监管要求,其中就强调了:
处方必须由接诊医师本人开具,严禁使用人工智能等自动生成处方。
处方药应当凭医师处方销售、调剂和使用。
处方药的意思是,必须有医生开的方才能拿到的药,因为这些药有很强副作用。
而非处方药是可以的,其实大部分模型报的药名都是非处方药。
比如糖尿病的二甲双胍,在硅谷不是糖尿病也会吃,在硅谷,吃二甲双胍已经成了一种风尚,这个 open AI 的创始人山姆奥特曼都在吃。
因为ta能模拟少吃的效果,少吃寿命就长,当然我不推荐正常人吃,临床试验还在进行,可能有副作用。
临床就诊的过程中,需要完成了一些非常重要的前期问题筛查、有一定的指向性之后,再建议下一步的就诊专业方向,不能只有某一个症状就提示患者可能会有什么疾病,会造成病人恐慌的情绪……人工智能的解读还是应该和临床医生、遗传检测公司等建立起合作,回到临床做出疾病诊断。
罕见病:罕见病诊断最大的困难还是医生的知晓率太低,早诊早治早预防是关键
全球罕见病患者的总数是惊人的,超过了全部癌症与艾滋病患者的总和。假如全球的罕见病患者组成一个国家,那将会是世界第三人口大国,仅次于中国与印度,与美国不相上下。
这同时意味着,我们身边每17-29个人中,就有 1 位正被某一种罕见病折磨着。
不幸的是,这些患者中有一半是儿童。更不幸的是,这些孩子中有 30% 无法活着庆祝自己的 5 岁生日。
在全球各地,罕见病的诊疗可能都是人类目前所面临的最大的医学挑战。
在临床上最害怕看到的是,很多病人明明是可治的,但经过五六年的误诊,变成不可治的,产生了无法逆转的肌肉全部脂肪化
哪怕人工智能技术目前还不能实现罕见病、尤其是其中的疑难杂症的诊断,但也可以通过学习多个专家经验,重点寻求消除信息的不对称,帮助基层医院尽早转诊。
早诊早治早预防是关键。
我们可以把一个罕见病分别做,知识点结构化、诊断思路结构化、疾病内部结构化。
- 知识点结构化主要是方便科普学习
- 诊断思路结构化是临床应用
- 疾病内部结构化是处理复杂。
知识点结构化:疾病概述、危险因素、发病机制、临床表现、临床分型、主要症状、诊断要点、鉴别诊断、预防、治疗和康复
诊断思路结构化:
- 发现特征:对罕见病的特异症状进行详细描述,采用多样化的呈现方式,如文字、图解、图片和视频等,协助用户对罕见病进行识别和诊断,并设计相应的流程和关联规则,以提升疾病诊断的及时性和准确性
- 发现诊法:将疾病临床诊断标准、特异性症状、主要发病过程与专家经验相结合,对需要鉴别的疾病和与之相对应的症状进行赋值,尤其对特异性症状进行重点标记,以形成罕见病的鉴别诊断模型
- 特征和诊法匹配:以症状和疾病关联模型为基础,采用多种形式关联患者的症状等信息,并结合疾病鉴别模型、特异症状知识库、诊断知识库和异常检查知识库中的诊断规则,以发挥辅助医务人员诊断罕见病的作用。在明确疾病诊断的基础上,治疗知识库和药物循症知识库可为患者提供个体化的治疗方案
疾病内部结构化:以罕见病临床症状为分类维度,对罕见病的主要症状、症状特征、症状相关疾病和多个症状组合对应的疾病等进行提炼与总结,并设计相应的流程和关联规则,以建立症状知识库
- 要求复杂:当要求涉及多个方面、多个条件或多个步骤时
- 逻辑复杂:当逻辑关系较为复杂,需要明确每个条件之间的关联和影响时,内部结构化可以帮助捕捉关键的逻辑关系,确保理解要求和条件。
医学大模型 - 开源项目
根据以上思路,长期迭代 医学大模型项目:https://github.com/DebroonAir/MedLLM.git
短期项目:
- 科室心理建设AI:出院后的恢复、数据跟踪,当医生的人应该有感,对需要复诊的病人,都是微信联系,但他们不方便,自己也累,生活总被打扰
- 健康百科AI:解决百姓日常生活中大多数的医学问答、健康科普、健康管理等相关问题。
- 微调医学大模型:满足80%常见问题,加强小众病、罕见病的辅助诊断,避免长期的辗转就医
长期项目:
- 智慧疗诊:从疾病预防、诊断、治疗、康复的全流程智能化诊疗能力
- 医疗影像大模型:识别和解析各种影像结果,并输出高质量报告
欢迎大佬们加入!
世界上几乎所有力量增长都会迅速变慢甚至停止。
唯独算力持续 58 年指数增长,还没有衰减迹象的力量,依旧强劲。
而GPT这样有限的模型,竟然就能抓住人类几乎所有平常的知识。
从长远来看,人类构建的知识都有边际递减效益,让AI自行搜索和学习的暴力破解方法,才能取得突破性进展。
像NLP发展了几十年的AI技术,结果全都没用上,GPT把海量数据学一遍就什么都会了。
如果这世间真有神,算力就是神。要理解这个力量,拥抱这个力量,成为这个力量。
欢迎大佬加入!