Q:现在针对1000多种疾病已经有80%多的准确度了,后续还会更高,模型持续升级如何实施?
A:检验报告解释方法有两种,第一种是基于医学知识的解释;然后基于数据推理的解释是有概率的,所以我们的AI有的病例是100%准,有的是80%准确。
对于数据模型,我们会针对医院不同疾病来优化模型,提高准确率。比如长海医院是泌尿外科强一些,然后中山医院是肝胆外科强一些,所以我们进入不同医院医院以后,针对医院数据进行模型优化,就会提升模型效果。
然后我们还在推广一个新系统,不止是读检验数据,还会去读患者以往的数据,去对患者病情进行预测。在多维度数据做到软硬一体,针对不同医院不同地区训练不同模型,做到千人千面。根据不同地域不同人群做出不同的判断,未来我们会做更加智能化的系统,会学习医院所有的经验。具体的技术路线有的,预计完成的时间也不会很远。
Q:模型原理?
A:我们叫做多维度数据,在通用的检验报告解读里使用通用模型判别,这样就导致有的准有的不准。第二个我们升级的模块就是专病模块,就提高了准确了。我们在做的第三层,就是现在正在开发的,读取医院里所有的病例数据。Y= F(x),这个模型可能是逻辑回归、也可能是SVM支持向量机,也可能是神经网络。我们有一套方法来遍历大量可选模型,然后选择其中最有效果的模型来建模。
Q:我们是否考虑使用大模型?
A:你们可能对这个东西有误解,我们的系统不是为了生成文本,而是为了诊断疾病,所以我们也不需要那个大模型。
Q:需要多少数据量才能做成这个系统?
A:小模型来说,训练数据量是参数量的10倍才能做好这个模型。大概需要几十万人的数据。比如一个血常规的化验单里面有几十个参数。我们训练里使用到的病例数据大概有400-500万人次。
我们的模型不是用检验数据训练出来的,Y=F(x),Y是病例病种,x是其所有的检查结果和用药。
模型不是用病历数据做的,因为病历里面的数据有大量的错误。