肿瘤筛查类产品的性能指标PPV

发布于: 修改于:雪球转发:0回复:0喜欢:0

在评价一个诊断类产品性能之前,首先要熟悉几个常见的性能指标,即测试的敏感性、真实阳性率、特异性和真实阴性率,以及人群中疾病的流行率。网上有很多解释说明,简单理解来说,在一个产品性能的验证数据( validation data) 中, 可以计算:

敏感性= 金标准阳性且检验阳性 /   所有金标准阳性;

特异性= 金标准阴性且检验阴性 /   所有金标准阴性;

这两个数值可以反映一个测试的可靠性,检测出真实阳性和真实阴性的患者的比率。

但是尤其在面对健康人群筛查的产品类,还有一个指标我们需要尤为关注,即阳性预测值(PPV, positive predict value),这是指测试结果为阳性的人,患病概率多高。它不仅仅和技术本身性能相关,还和这类疾病流行程度或者发病率有关。较低的PPV会带来假阳性人数的增加,会有许多不是阳性的患者被误诊为疾病,带来不必要的经济和心理负担。

对于任何给定的测试,随着流行率的降低,PPV会减少,因为每个真实阳性都会有更多的假阳性。因此PPV是多癌症筛查测试最相关的临床指标,因为当检测结果返回时,医生不知道患者的癌症状况。

对于PPV,我还推荐采用贝叶斯思想进行理解,即引入先验概率。

传统PPV的计算方式,是一个条件概率(当检测阳性,也患病的概率):

P[患病|检验阳性]=P[患病且检验阳性]/P[检验阳性]

然后这个数值并不是真实世界的概率,原因是当检测的敏感性特异性不变的前提下,检验人群的变化会使得未患病且检测阳性的人群增加。因此我们应用贝叶斯公式,可以得到:

P[患病|检验阳性]=P[检验阳性|患病]*P[患病]/P[检验阳性]

这里就把P[患病]作为先验概率,就是我们看到检测结果之前可能认为的概率。比如对于肿瘤早筛来说,需要考虑没有任何检测前,正常人群罹患肿瘤的概率。

以Galleri的泛癌种数据(CCGA-2数据)和美国预防服务工作组 (USPSTF,United States Preventive Services Task Force)推荐筛查方法的比较来看:

Galleri相比于其他推荐的筛查方法,有更高的PPV,进而带来更少的假阳性数量。我们可以计算,特异性变化1%对PPV和测试产生的假阳性数量有巨大影响。例如,根据2006年至2015年SEER(Surveillance, Epidemiology, and End Results)数据推断到普通人群的CCGA-2数据,特异性从99.3%到98.3%的1%变化将使PPV从43%减少到24%,这一变化将在100万人的筛查人口中再产生9900个假阳性。这强调了在开发筛选产品时需要保持高度特异性。

当需要进行几项测试来筛查患者是否患有疾病时,这种假阳性问题就进一步复杂化了。比如一名有吸烟史的60岁女性,在当前推荐的癌症筛查中:

她做肺部低剂量螺旋CT,宫颈癌筛查,粪便结直肠筛查和乳腺钼靶筛查完后,会发现累计的假阳性风险为37%。因此这四项即使有一项检测结果为阳性,也并不能说明什么问题。也彰显了如果能采用同一种方法,对多个癌种同时筛查的重要性,会答复降低假阳性率,从而减少不必要的后续程序。

目前布局早筛类产品的公司 $诺辉健康-B(06606)$ $燃石医学(BNR)$ $泛生子(GTH)$

产品性能方面,可以参考以上的基本原理进行相关评估,俗话说真金不怕火炼,真正有生命周期的早筛产品必须经得起大规模人群长久的考验。