颜林林的个人网站

开篇词:数据统治世界

2019-10-17 23:43

导言: 初心所向,继往开来。


题图

关于开公众号这事,我一直是心存惶恐地拖延着的。总觉得自己阅历尚浅,难以形成比较系统的有价值的输出。而公众号这种比较正式的文字,似乎就应该言之有物,才不至于浪费了阅读者的时间。于是,时间就这么飞快地逝去,直到前些天,看到一个书名《每个人都会死,但我总以为自己不会》,心里一惊,找来全国人口普查数据,对照着自己的年龄算了算,发现大限已不再像想象的那么遥远,便终于鼓足勇气,开始尝试把心中蓄积多年的感悟,逐一表达出来。

这开篇,我借用了多年前从北大图书馆借阅的另一本书的书名《数据统治世界》,英文是《Numbers Rule Your World》。这本书在豆瓣上的打分不算高,但却是我在数据科学方面的启蒙读物。若是对数据科学完全不了解的朋友,倒是不妨可以找来读读。书中使用了很多现实生活中的真实场景,来讲述各种数据是如何影响我们的行为模式,以及我们该怎么培养起自己对数据的正确观念。

书中我印象比较深的一个思维方式,是关于如何正确认识假阳性和假阴性问题的。现实世界不同于完全由0和1组成的数字世界,后者是确定性的,前者则随处都充斥着不确定性。任何体系,无论怎么划定标准,都无法避免假阳性(误报)和假阴性(漏报),这两者不能同时被降低,不同的标准,只不过是在两者之间寻找恰当的平衡。比如,同样是识别是否存在违禁品,运动员的药检,与海关的安检,就会采取两种不同的阳性划定标准,因为后者涉及的后果潜在危害太大,以至于宁可误报(再进行复核)也不能漏过。

当今数字化时代,人人都在谈大数据,计算机技术方面也极力推进对更大规模数据、更高存取速度的基础架构支持。然而这些数据,无论规模如何,最终都会被总结成很少的结论性数据,成为我们对客观事物的理解,并指导相应的一个个日常决策。最近几年,我的主要工作,都是在围绕高通量基因组数据进行,随着数据分析的经验积累,越发觉得:技术固然重要,而技术所支撑的思想,以及我们每个人对世界的理解方式的逐步完善,才会是更重要的。

今后,我会在这个公众号里,坚持分享自己在技术方面的积累和感悟,并保证所言一定是经过自己独立思考的结果。虽然仅是一家之言,同时也未必特别靠谱,但所谓兼听则明,希望我的分享,能激起大家的思考和讨论,使得无论读者是否具备技术背景,都能有所启发、有所收获。让我们一起学习成长,并一起重新认识这个世界!

最后,附上我的顿悟插图(点击“阅读原文”可浏览相应R语言源码):

插图

--- END ---

注:本文首发表于“不靠谱颜论”公众号,并同步至本站。