期刊信息
曾用名:现代图书情报技术;计算机与图书馆
主办:中国科学院文献情报中心
主管:中国科学院
ISSN:2096-3467
CN:10-1478/G2
语言:中文
周期:月刊
影响因子:0.912234
数据库收录:
北大核心期刊(2004版);北大核心期刊(2008版);北大核心期刊(2011版);北大核心期刊(2017版);中国科学引文数据库(2017-2018);中国科学引文数据库(2019-2020);中文社会科学引文索引-来源(2017-2018);中文社会科学引文索引-来源(2019-2020);国家哲学社会科学学术期刊数据库;中国人文社科核心期刊;中国科技核心期刊;期刊分类:图书情报与数字图书馆
期刊热词:
研究论文
大数据思辨:如果相关不意味着因果,那么意味着(2)
【作者】网站采编
【关键词】
【摘要】那么,现在问题来了。 如果那些隐藏于相关性背后的共同原因,能找到则罢,但我们又没有“天眼”,不能次次都看透相关性背后的玄机,怎么办? 不用太
那么,现在问题来了。
如果那些隐藏于相关性背后的共同原因,能找到则罢,但我们又没有“天眼”,不能次次都看透相关性背后的玄机,怎么办?
不用太担心,下面我们看看,我们所依赖的科学,是如何工作的,了解之后,你就会对这个问题更加坦然。
科学是如何工作的?
为了避免进入科技哲学的讨论范畴,我们仅仅根据一些基本原则,对一些观察到事实,进行就事论事的讨论。
现在,假设我们认识的世界,就是根据图1所示来运转的。现在,我们想验证这个假设。在一定程度上,图1所示的世界是“足够好”的,因为“闹钟不响”是能作为“迟到”的原因的,同样,“交通堵塞”也可以解释“迟到”。
因为灾难性事件是非常罕见的。所以,一开始,我们很难发现“闹钟不响”和“交通堵塞”二者之间,存在什么相关性。但随着时间的推移,时间轴线越来越长,在时间域内,越来越多的灾难数据可以被采集到。于是,“闹钟不响”和“交通堵塞”同时出现的情况,愈发频繁,并达到了统计上的显著性。那么,如果我们还用图1来解释整个世界,就显得有点摇摇欲坠了。
于是,就需要更新我们的认知模型,即用一个双向端箭头,把两个相关的事件连接起来,如图3所示。图中双头箭头是表明,有某些不常见的原因,驱动着的“闹钟不响”和“交通堵塞”这两个事件相关。
图3:一个未观察到的原因
自然,我们很希望这个背后的原因范围,能缩小到图2所示那么精确。但现实是残酷的,很多时候,我们所认知的世界是懵懂的。但是,即使我们没有得到一个如图2所示的精确认知,即使丢失了一些链接和变量,在很多时候,这样的世界已经“足够好”了。
但科学的进步,就是对“足够好”的不满足(Good enough for Science is not good enough)。
在物理学领域,这种类型的科学进步,是有例可循的。比如说,牛顿的万有引力理论,就是一个“足够好”的解释世界的图谱。因为它既可以解释大部分星辰的运转,也足以让人类登上月球。
但是,牛顿定律对“水星进动”(Precession of Mercury)就解释得“不够好”(因为水星近日点进动值与观测值存在分歧)。对于精确GPS系统而言,牛顿定律也是不够用的(因为高精度的GPS测量,除了要考虑GPS系统本身的精度,还应该考虑与地球整体运动有关的相对论效应)。后来,爱因斯坦并没有满足于牛顿“足够好”的知识图谱,于1916年发表了著名的广义相对论,提供了一个更为完整的认知图,能更好的解释这个世界。于是,“水星进动”得以更好的解释,GPS系统可以有更好的精度。
未完的结论
从上面的讨论可知,相关性的确并不意味因果性,但却意味着,在认知图谱的上游,可能蕴含着某些非常见的共因。对这些非常见共因的探寻,能拓展我们的认知图谱。
图2所示的世界,其实是一个比拟。由于在我们的世界里,“灾难(黑天鹅事件)”发生的次数是极少的。所以,我们必须注重收集越来越多的数据,以捕捉这些罕见的结果,一旦我们能够形成对这些罕见结果的可解释性(因果关系),这就会拓展我们的知识边界,提升我们对世界的理解水平。
我们知道,在小样本集合里,很多处于长尾部分的案例,由于发生概率极低,极有可能无法观察到。大数据很重要的一个优势,就是在长尾应用中,发现稀疏而珍贵的价值--对某些罕见结果的可解释性(如某些低频癌症的病因等),这是极其有用的。
译者介绍:张玉宏,著有《品味大数据》一书
更多深度技术内容,请关注云栖社区微信公众号:yunqiinsight。
文章来源:《数据分析与知识发现》 网址: http://www.sjfxyzsfx.cn/zonghexinwen/2020/1029/460.html