颜林林的个人网站

Linlin Yan's Personal Website

从数据到结论,需要特别谨慎

今天读到一篇文章《Debian Linux Was the Most Vulnerable Operating System in the Last 20 Years》。过去我们一直诟病闭源的Windows操作系统如何如何不安全,以此来彰显其他诸如Linux操作系统的优势。而这篇文章,标题直指相反的结论,出乎一部分人的预期,又迎合另一部分人的假想,同时似乎还有确凿的数据在支持这些结论。于是,不管怎样,看到这个标题,总会忍不住点进去,看个究竟。

文章的主要结论和图表,其实来自博客TheBestVPN,其中最重要的图表转贴如下:

可以看到Debian Linux的确在漏洞数量方面超过了Windows,且图表的数据来源是“National Institute of Standards and Technology’s National Vulnerability Database”,似乎是非常可信的了。

这样的文章,对于大多数读者,其实是难以分辨真假的,尤其是对结论有预设偏好的,可能就完全不会去质疑,而对结论直接采纳了。好在,另外有一篇文章《Why Debian is not the most insecure operating system in the past 20 years》(原文为德文,可通过在线翻译阅读)对此进行了批判,列出了其中存在的诸多问题:

  • 最明显的问题,将Windows各个版本分开统计,但对Debian则将二十年的漏洞数全部累加到一起;
  • 基础数据中,是否存在重复统计(如Android漏洞是否已经同时存在于Linux内核统计中)等并没有正确理解和处理;
  • 安全漏洞条目是否一定就是不安全的,总条目数的多少对于安全性的反映是否合理。

这是一个使用“可信数据”,有意或无意地演绎出特定结论的例子。这样的行为,反映了保持客观的不易。做数据分析的人,手上的各种数据分析工具,都是一把把利器,如果不能保持客观,把情绪和预设都带入进去,得到的误导性结论,只怕破坏性远多于建设性。从数据到结论,无论如何谨慎,都是应该的!