科研论文,速度or质量?

发布于: 修改于:雪球转发:0回复:0喜欢:0

2020鼠年来了,武汉的疫情也牵动的广大群众的心。不知道各位读者小伙伴过得如何。小图反正这一周七天都响应国家号召,能不出户则不出户。保护好自己的同时也保护好他人。

刚查了下数据,2019-nCov冠状病毒又严重了。根据最新的百度疫情报告数据统计(地址见下)

截止时间2020-01-31 18:11,国内2019-nCov新型肺炎确诊人数达9810例。

网页链接

其中湖北省目前确诊病例为5806例。

而最近微博上的一则新闻让小图这两天辗转反侧,无法入眠。

首先,小图不去评判是不是应该在这个时间点发这样的论文,大家各人有各自的理解。

先给不了解的小伙伴科普下知识点。《新英格兰医学杂志》到底是个什么类型的杂志,为什么国人的论文要去这上面进行发表。听这名字好像是个地摊文学,和前两天刷屏的《柳叶刀》无法相提并论。

但实际上,不搞科研的人可能对这个很陌生,在医学界,有四大顶级期刊,分别是新英格兰医学杂志(NEJM)、柳叶刀(Lancet)、美国医学会杂志(JAMA)、英国医学期刊(BMJ)。

接下来小图再简单给大家说下新英格兰杂志上的这篇论文上能看到什么,因为由于小图不是医学专业,对于里面的一些检测方法就不妄下定论了。我们直接看结论中的几个图表,英语好的小伙伴建议看阅读论文。

网页链接

图1

也是信息量最大的一张图,由于网上的一些原因,在翻译该图表的时候往往漏了论文中的一句话。

Figure 1. Onset of Illness among the First 425 Confirmed Cases of Novel Coronavirus (2019-nCoV)–Infected Pneumonia (NCIP) in Wuhan, China.

黑体单词在这里是相当重要的。如果漏了这句话整个图表的意思可能就会被曲解。Onset of illness到底是指发病时间还是指确诊时间,根据英文解释的话应该理解成发病时间。

网上找了一封翻译好的图供大家参考。

从该图表中可看出,浅色部分是与华南海鲜市场无关的病例,而深色部分是与华南海鲜市场有关的病例。

这里就出现了几个问题。

1. 如果该图表的时间轴的确是之前说的按发病时间来看,那么确诊的时间究竟是什么时候?本篇论文中却没有给出。

2. 如果指的是发病时间,大家可以对比下柳叶刀上的论文中的一部分结论。见下图。注意:也是用的illness onset

两者不一样的是样本数量是不一样的。柳叶刀(41例),新英格兰(435例),问题出在第一例病例的显示时间上。一个是12月1日,另一个是12月8日。

这里就有点迷,因为要知道,传染病的第一例病例的时间线确认是非常重要的。而两个顶刊上的论文在这一点上是不一致的。

但两者同样的第一例发病的病例都是与华南海鲜市场无关的病例,这里引申出第三个问题

3. 第一例发病的病例是不是就是第一个受到感染的案例?

简单来说,假设甲是海鲜无关人员,乙是海鲜有关人员。

a. 甲先感染,甲接触到乙,乙被感染,接着甲发病,然后乙再发病

b. 乙先感染,乙接触到甲,甲被感染,接着甲由于抵抗力差先发病,然后乙再发病

c. 甲和乙在一起同时被感染,接着甲发病,然后乙再发病

d. 甲和乙分别被感染,接着甲发病,然后乙再发病

还有现在已经有案例显示该病毒有显性隐性之分,还有可能是一个不知名的丙先感染甲或者乙或者同时这两个人,但是丙一直没有发病。

截至1月27日24时,安阳市确诊新型冠状病毒肺炎病例11例,通过对官方通报梳理,记者发现,确诊病例中5人系亲戚关系,均无武汉旅行及居住史,其中3人与从武汉居住回来的女子有接触史,3人分别是该女子的父亲和2个姑姑,而该女子至今无症状。

我们再来看看Table.1

这个表格能吐槽的地方其实非常多,小图找了三处明显的,说实话,大家还能再仔细找找,因为表中的有些数据实在看不太懂。

1. 三者加起来是101,学过概率的人应该都知道这可能性有多低吧(就好比明天太阳从东方升起来的概率是101%),难道科研杂志的数据就不能保留至小数点后一位吗,或者做下进位处理?处女座的人表示伤不起。

2. 16≠10+7,估计也是小数点问题,不是做的四舍五入,都是做的进位处理?

3. 这个27明显是写错了吧,应该是47吧,因为就算没写错的确是27,那()里的百分比肯定不是26了,除非你告诉我括号里的数字不是26。

4. 蓝色部分小图表示没看懂,83和122是什么个情况,好好的81变成了83,130变成了122。因为这里无法进行数据上的验证,所以标蓝。

图2

该图表需要配合论文中的一段文字进行阅读。

We examined data on exposures among 10 confirmed cases, and we estimated the mean incubation period to be 5.2 days (95% confidence interval [CI], 4.1 to 7.0); the 95th percentile of the distribution was 12.5 days (95% CI, 9.2 to 18) (Figure 2A).

这个图其实说的是一个置信区间的概率,简单先科普下什么叫置信区间。以下是百度百科对置信区间的定义。

置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度,其给出的是被测量参数的测量值的可信程度,即前面所要求的“一个概率”。

自然界中的大部分分布都符合正太分布(双尾),也有一些单尾分布。图示中分部比较明显,这个没有太大问题,但问题出在We examined data on exposures among 10 confirmed cases,只选取了10个样本做估计!!!

小图一直以为435例是样本,没想到在计算置信区间的时候只取了10例做分析。用一个简单的例子来说明一下。

比如你抛硬币,你抛435次,正面的次数可能是208次,反面的次数是227次,那正面的概率就是47.8%,但是你抛10次的话,正面是4,反面是6,则正面的概率就直接变成40%了。因为样本数量越多,则不论平均值、方差、还是之后的置信区间都会越来越准确。

这个例子沿用到比如测身高、测体重或者论文中的测潜伏期都是有用的。

用这么小的样本量去估算整体真的严谨吗?小图表示这个需要斟酌一番。

还有一点,该论文中并没有把最原始的数据Po出来供大家来验证,而是只给了最后的结论,因为可能就算给出来也没有人真正的去验证。

图3

最后一张图是介绍5个聚集性病例暴发的过程分析,这里小图主要有两个疑问

1. 为什么计算时间的时候是从0开始的,是否意味着是当天发病当天确诊?小图个人的理解是这应该是一个相对的时间点。就是在一个Cluster中相对Onset的时间,比如1.2就是在1.1Onset后5天内发生Onset,不知道是否可以这么理解。

2. 在右侧Case中,1.2和1.3都被例举出来是否有特殊含义。因为其他Cluster都只例举了一个案例进行说明。

三张图和一个表的问题小图基本都分析完了,至于论文中写到的其它问题由于不是本人专业就不妄加评论了。如果还有疑问的小伙伴推荐阅读英文原版论文,如果有不同意见也欢迎留言指正小图。总结来看,这三图一表的疑惑有几个:

1. 时间线不明确。到底是感染时间、发病时间、确诊时间的定义不够明确,且没有完整的基础数据支持;

2. 表格中的数字谬误较多,在进行交叉验证的时候无法说服一个学过概率论的理性人;

3. 在样本中再选取样本进行置信区间的验证是否合理严谨有待进一步商榷。


本文首发公众号《用图表说话》