您当前的位置:首页 >> 百货
【大数据】相关关系与因果关系、相关性与影响因素分析、大数据建模五步法、大数据的哲学观
发布时间:2019-09-29
 
什么是相关性


“万物皆有联”,是大数据一个最重要的核心思维。


所谓联,这里指的就是事物之间的相互影响、相互制约、相互印证的关系,这种关系就叫做相关关系,就是我们常说的相关性。


简单地说,如果有两个事物,当一个事物发生变化时,另一个事物也随着发生规律变化,我们就说这两个事物存在相关性。


世界上的所有事物,都会受到其它事物的影响。



比如,产品的销量是受到各种因素的影响的,比如产品价格、品牌、质量、售后服务等等,这些因素都会对产品销量有着直接的影响。

 

又比如,产品的价格是受到供求状况的影响和制约的。供给增加,价格就相对下降;供给减少,价格就相对上升。

 

再比如,在生活中,我们经常会遇到下面的情况:

 

HR经常会问:影响员工离职的原因是什么?

销售人员会问:哪些要素会促使客户选择某产品?

营销人员会问:影响客户流失的关键因素有哪些?

销售主管会问:影响产品销量下降的原因有哪些?

 

……

 

所有上述类似的这些业务问题,转化为数据问题,都可以是相关性的问题。

 

那么,如何来评估一个事物对另一个事物是否存在影响呢?以及这种影响程度有多大呢?这是数据分析要解决的一个问题,也就是我们常说的影响因素分析。



从因果到相关


影响因素分析,这是过去在小数据时代的叫法。在大数据时代,我们经常用相关性分析来代替影响因素分析的说法。


因果关系


在过去,我们强调的是因果关系,即先有原因,再有结果。如果找不到原因,我们往往会觉得结果也不可信。比如产品价格下降,会导致销量上升,这个价格与销量之间应该是存在因果关系的,这从心理学和社会经济学上都能得到解释。

 

所以,我们把寻找影响目标变量的关键因素的过程,叫做影响因素分析。


相关关系


但在,随着统计学的进一步发现,有些事物之间看起来并不存在因果关系:

 

在电影视频的网站上,放上零食的广告,会提升零食的销售;

银行业中信用较高的人,其发生交通事故的概率会较低;

乡村音乐的喜好者倾向于支持共和党,而摇滚歌迷倾向于支持民主党;

选举年,犯罪率会下降,但之后,犯罪率却会上升;


……

 

这些也能够体现事物之间的关系,但这些关系并不意味着因果。音乐爱好与政治倾向到底有什么关系?基本上很难找到合理的解释,也就是说“音乐”和“政治倾向”之间不一定存在因果关系,但这些在统计学上却是有意义的。

 

像这种不一定存在因果关系的事物,我们用另一个比较贴切的说法,就叫做相关关系。而寻找两个事物之间是否存在相关性的过程,就叫做相关分析。

 

在不引起混淆的情况下,在本书中我们依然会使用影响因素分析的说法。


相关关系≠因果关系


因果关系和相关关系是不一样。两个事物存在因果关系,那么它们一定存在相关关系;但存在相关关系的两个事物,却不一定是因果关系。


理论上,现在数据分析领域中所用的相关性分析方法,基本上都是基于统计的,所以只能说两个事物在统计意义上存在相关关系,却无法判断是否是因果关系。


存在相关关系的两个事物,是否存在因果关系呢?这个仅凭数据方法是无法给出结论的,这还得需要专业人士从业务逻辑的角度来进行人为地判断。

 

比如:价格会影响销量,这是已知的因果关系。即价格和销量有因果关系,那么从数据上一定也会判断出价格和销量呈相关性。

 

再举一个例子:父母的身高一定会影响子女的身高(这从基因的角度可以理解为因果关系),所以可知,父母身高与儿子身高呈相关性,父母身高与女儿身高也呈相关性;但是,在数据上,你有可能会发现哥哥身高与妹妹身高也呈相关性(他们都受父母身高影响),但哥哥身高与妹妹身高就不存在因果关系(从生物学上没有因果关系)。即有相关性的两个变量,不一定是因果关系。最多也只能说,有可能是因果关系(暂时没有找到理论依据)。

 

再比如,在前面章节提到的股民的情绪指数与道琼斯指数,股民的情绪指数在某种程度上可以用来反应股票的涨跌情况,说明存在相关关系,但是否存在因果关系,这就无法确定了。

 

按照《大数据时代》的说法,即使找不到因果关系,只要能够寻找到足够多的相关性,并将这种相关性用于问题的解决过程中,也能够起到巨大的作用


相关性与影响因素分析


“万物皆有联”,是大数据一个最重要的核心思维。所谓联,这里指的就是事物之间的相互影响、相互制约、相互印证的关系。而事物这种相互影响、相互关联的关系,就叫做相关关系,简称相关性。



世界上的所有事物,都会受到其它事物的影响。HR经常会问:影响员工离职的关键原因是什么?是工资还是发展空间?销售人员会问:哪些要素会促使客户购买某产品?是价格还是质量?营销人员会问:影响客户流失的关键因素有哪些?是竞争还是服务等?产品设计人员:影响汽车产品受欢迎的关键功能有哪些?价格、还是动力等?


所有的这些商业问题,转化为数据问题,不外乎就是评估一个因素与另一个因素之间的相互影响或相互关联的关系。而分析这种事物之间关联性的方法,就是相关性分析方法。


当然,有相关关系,并不一定意味着是因果关系。但因果关系,则一定是相关关系。


在过去,主要是要寻找影响事物的因果关系,所以过去也叫影响因素分析。但是,从统计学方法来说,因果关系一定会有统计显著,但统计显著并不一定就是因果关系,所以准确地说,影响因素分析应该改为相关性分析。所以,在不引起混淆的情况下,我们也会用影响因素分析。




相关性种类



客观事物之间的相关性,大致可归纳为两大类:一类是函数关系,一类是统计关系

函数关系,就是两个变量的取值存在一个函数来唯一描述。比如,销售额与销售量之间的关系,可用函数y=px(y表示销售额,p表示单价,x表示销售量)来表示。所以,销售量和销售额存在函数关系。这一类关系,不是我们关注的重点。


统计关系,指的是两事物之间的非一一对应关系,即当变量x取一定值时,另一个变量y虽然不唯一确定,但按某种规律在一定的范围内发生变化。比如,子女身高与父母身高、广告费用与销售额的关系,是无法用一个函数关系唯一确定其取值的,但这些变量之间确实存在一定的关系。大多数情况下,父母身高越高,子女的身高也就越高;广告费用花得越多,其销售额也相对越多。这种关系,就叫做统计关系。


进一步,统计分析如果按照相关的形态来说,可分为线性相关和非线性相关(曲线相关);如果按照相关的方向来分,可分为正相关和负相关,等等。


详细见下面的图形。





相关性描述方式



描述两个变量是否有相关性,常见的方式有:相关图(典型的如散点图和列联表等等)、相关系数、统计显著性。如果用可视化的方式来呈现各种相关性,常见有如下散点图。



 

至于相关系数和统计显著性,请参后续章节。




相关阅读