华大数据与华大基因是独立运营的,都属于华大集团旗下。 可以参考Bgionline。
图源:medRxiv官网
该方法利用了公开数据构建的数万例阴阳性病例作为训练数据集,将基于资深遗传病分析专家们解读思维链构建的提示词作为模型微调的逻辑基础,引导基础大语言模型学习罕见遗传病致病变异筛选的能力。
GeneT在模拟样本和真实临床样本中分别达到99%和98%的致病变异召回率,同时分析效率提升了20倍。这一成果有望替代传统表型驱动的筛选方法,促进罕见遗传病的研究和临床应用,帮助广大患者群体获得精准诊断和治疗。
GeneT研究概览
研究内容
1 预训练模型的选择和特征评估
我们利用公开数据构建的数万例阴阳性病例以及解读专家精心设计的问答提示词,构建了一组不同数据量梯度的训练数据。随后,我们对6个不同参数量的大语言模型进行了微调,以使模型专注于致病变异筛选这一任务。结果表明:
01
在较少训练集(n=800)时,微调模型已经展现出了不错的预测性能,达到了90%的F1分数。随着数据量的增加,模型准确性稳步提升,当训练集拓展至20000时,F1超过99%。
02
小参数量的LLMs,如Qwen-1.5-0.5B和Qwen-1.5-1.8B,具有和大参数量的LLMs相当甚至更优的最佳预测性能。考虑小参数量LLMs部署所需硬件配置要求更低、内存占用更小、响应时间更快,在时效要求高、资源有限、注重隐私和安全的场景下将会是更优的选择。
03
通过“特征递增实验”,我们发现使用变异基础信息加上变异所在基因相关的疾病特征时,模型预测效果得到了显著增强,这强调了基因疾病信息在模型判定变异致病性中的关键作用,与实际解读人员的变异筛选经验相符。
大语言模型在不同数据量梯度下微调后的性能表现及特征评估
2 多元化表型适用性和性能评估
我们使用来自HGMD,OMIM,GPCards三个数据库的已知致病变异和千人基因组的变异分别构建了200个模拟样本,用于评估模型的性能。这三个数据库的病例的表型形式不一,HGMD样本的表型以疾病名为主,OMIM样本的表型为自由文本形式的描述,而GPCards样本的表型为标准的表型词条。测评结果表明:
1
GeneT显著降低了候选变异数目
2
GeneT在三种表型测试集上效果都显著优于现有最优排序方法
3
GeneT使用预测概率作为置信度分值,对所有候选位点排序,可替代现有的排序工具
GeneT 在不同表型数据集上的表现以及和现有工具的性能对比
3 真实临床场景的应用评估
GeneT方法在真实的临床解读场景中进行了应用,比较了应用前后一个月的时间消耗和召回率情况。为保证结果的可靠性,一般会安排专家1和专家2分别进行候选报出变异的初步筛选和初筛结果复核。
应用了GeneT辅助的专家1在选点环节的时间消耗及召回率情况评测结果如下:
1更快的分析时间:
参考模型推荐位点进行初筛时,专家1能更快定位阳性位点,观察到耗时从60分钟降低到约44分钟,有显著提升。
若初筛环节直接使用GeneT结果,时间可以从60分钟缩短到约3分钟,实现约20倍的效率提升。
2更准的选点:
初筛环节无论仅参考还是直接使用模型选点结果,均能在召回率方面有所提升,从原来的94.36%上升到97.40%/97.85%。
3更稳定的个体表现:
因专家解读经验和样本解读难度差异,应用GeneT之前各解读专家之间约有20%的召回率差距。模型应用后解读专家在召回率表型上差异明显缩小到5%,趋近于大语言模型工具的表现。
真实临床场景下, GeneT的分析效率和性能表现
结语
华大基因AI研究团队开创性引入了大语言模型来识别罕见遗传疾病的致病变异,并利用真实临床场景验证展示了其相较于传统工具及遗传病人工筛选的优势,可以更灵活的面向多样化的临床表型信息、更高效精准的进行变异筛选及排序、结合RAG技术还可以实现更新更及时的数据库检索功能等,有望解决现有遗传病分析解读的痛点和难点。
参考资料:(滚动查看)
[1]Smedley, D., et al. Next-generation diagnostics and disease-gene discovery with the Exomiser. Nat. Protoc. 2015;10(12):2004-2015.
[2]Flygare, S., et al. The VAAST Variant Prioritizer (VVP): ultrafast, easy to use whole genome variant prioritization tool. BMC Bioinform. 2018;19(1):57.
[3]Li, Q., et al. Xrare: a machine learning method jointly modeling phenotypes and genetic evidence for rare disease diagnosis. Genet Med 2019;21(9):2126-2134.
[4]Birgmeier, J., et al. AMELIE speeds Mendelian diagnosis by matching patient phenotype and genotype to primary literature. Sci Transl Med 2020;12(544).
[5]Vega, F.M.D.L., et al. Artificial intelligence enables comprehensive genome interpretation and nomination of candidate diagnoses for rare genetic diseases. Genome Medicine 2021;13(1):153.
[6]Meng, L., et al. Evaluation of an automated genome interpretation model for rare disease routinely used in a clinical genetic laboratory. Genet Med 2023;25(6):100830.
[7]Mao, D., et al. AI-MARRVEL — A Knowledge-Driven AI System for Diagnosing Mendelian Disorders. NEJM AI 2024;1(5).
[8]Kim, J., et al.. Assessing the Utility of Large Language Models for Phenotype-Driven Gene Prioritization in Rare Genetic Disorder Diagnosis. arXiv preprint arXiv:2403.14801.
[9]Kafkas, Ş., et al. The application of Large Language Models to the phenotype-based prioritization of causative genes in rare disease patients. medRxiv 2023:2023.2011.2016.23298615
[10]Liang, L., et al. Genetic Transformer: An Innovative Large Language Model Driven Approach for Rapid and Accurate Identification of Causative Variants in Rare Genetic Diseases. medRxiv 2024:2024.2007.2018.24310666.