“准确率99%”到底有多准?
免责声明:这篇文章只做“学究式”的理论探讨,不针对任何产品及广告,不给自己树敌。有任何不同意见,请以您的理解为准。
众所周知(好吧,也许只在“专业人士”范围内众所周知),没有完美的检测方法。也就是说,任何检测方法,总有一定概率的误判和漏判。误判,是指真实情况是阴性的,被错误地当作阳性检出。漏判,则正好反过来,是真实情况为阳性,却被错误地当作阴性,没有检出。经过三年抗疫的全民科普,大家对于上述基本概念,应该早已不陌生了。
下面,我们就来看看标题提到的问题。
“99%”,亦或是“99.99%”,再或是“99.99999%”,乃至所谓“10个9”、“N个9”,此类种种说法,总被用于塑造“权威而严谨”的形象。那么,作为大众的一员,甚至万一是不小心患有“提及数字就晕菜”综合征的类型,该怎么来提高自己的抗忽悠体质呢?
简单回答是,这个准确度“可高可低”,得视所检测的目标,也即要解决的具体问题,来相应具体回答。
这看起来像是推卸责任的绕圈圈说辞,但这里我打算用一点点小学数学(希望因为剂量很低,而不会引起“过敏”),来把这个思路理清,从而洗刷掉这“踢皮球”的不白之冤。
具体举例来说,假设有一种疾病,在人群中的发病率为0.5%,即每1000人中有5人患病。然而这种疾病没法直接确定,而需要通过某种检测方法才能间接得知。只可惜,这种方法“准确率高(zhi)达(you)99%”,也就是每100人接受检测,其中就有1人拿到错误结果。然后,问题来了,当某人通过该检测方法,被“诊断”为该疾病(即检测结果阳性)时,他真正患病的可能性有多高?
解决这个问题的思路如下:
假定一开始的人群总人数为100000人(10万人),于是,其中真正患病的为500人,健康的为99500人。
继续假定所有的人都进行了该检测,于是,可以分别计算患者人群和健康人群中的对应检测结果人数:患者500人,其中5人被漏诊(被当作未患病);健康人99500人,其中995人被误诊(被当作患病)。
至此,人群可以划分为四组:
真阳性(检测阳性,确实也患病):495人;
假阳性(检测阳性,其实未患病):995人;
假阴性(检测阴性,其实患病了):5人;
真阴性(检测阴性,确实未患病):99500人。
回到原问题,“检测阳性的某人,真实患病”的可能性(即概率),就用 a / (a + b) 计算即可,得到 495 / (495 + 995) = 33%,也就是说只有 1/3 的可能性,该(依据该方法的)诊断是正确的。
还可以扩展回答另一个问题,“检测阴性的某人,其实患病了(因而贻误了诊治)“的可能性(即概率),可用 c / (c + d) 计算,得到 5 / (5 + 99500) = 0.005%,这个概率一般会非常小(但要不要挑战下巨大的人口基数呢) 至此,应该不难看出,结果依赖于人群发病率这样的先验知识。人群发病率越低,对检测方法的准确率的挑战就越高。所以,99%的准确度,到底高不高,还真就得就事论事了。 理解这些数字背后的真实含义是十分重要的,因为它会影响我们对技术或医学诊断的信任和决策。 本文就此打住。想克服一下“数字过敏症”的,不妨换换其他不同比例,再重新算算看。欢迎大家探讨和分享更多相关经验,一起提高抗忽悠体质。
注:本文首发表于“不靠谱颜论”公众号,并同步至本站。