pearson相关系数
三个相关性系数(pearson, spearman, kendall)反应的都是两个变量之间变化趋势的方向以及程度,其值范围为-1到+1,0表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强。1. person correlation coefficient(皮尔森相关性系数)
公式如下:
第二, 实验数据之间的差距不能太大,或者说皮尔森相关性系数受异常值的影响比较大。比如刚才心跳与跑步的例子,万一这个人的心脏不太好,跑到一定速度后承受不了,突发心脏病,那这时候我们会测到一个偏离正常值的心跳(过快或者过慢,甚至为0),如果我们把这个值也放进去进行相关性分析,它的存在会大大干扰计算的结果的。
2. spearman correlation coefficient(斯皮尔曼相关性系数)
斯皮尔曼相关性系数,通常也叫斯皮尔曼秩相关系数。“秩”,可以理解成就是一种顺序或者排序,那么它就是根据原始数据的排序位置进行求解,这种表征形式就没有了求皮尔森相关性系数时那些限制。下面来看一下它的计算公式:
带入公式,求得斯皮尔曼相关性系数:ρs= 1-6*(1+1+1+9)/6*35=0.657
也就是说,我们不用管X和Y这两个变量具体的值到底差了多少,只需要算一下它们每个值所处的排列位置的差值,就可以求出相关性系数了。这下理解起来是不是容易多了!还是用上面的数据,下面写下代码实现:
> X《-c(11,490,14,43,30,3)
> Y《-c(2,75,3,44,7,42)
> cor(X,Y,method="spearman")
[1] 0.6571429
而且,即便在变量值没有变化的情况下,也不会出现像皮尔森系数那样分母为0而无法计算的情况。另外,即使出现异常值,由于异常值的秩次通常不会有明显的变化(比如过大或者过小,那要么排第一,要么排最后),所以对斯皮尔曼相关性系数的影响也非常小!
由于斯皮尔曼相关性系数没有那些数据条件要求,适用的范围就广多了。在我们生物实验数据分析中,尤其是在分析多组学交叉的数据中说明不同组学数据之间的相关性时,使用的频率很高。
3. kendall correlation coefficient(肯德尔相关性系数)
肯德尔相关性系数,又称肯德尔秩相关系数,它也是一种秩相关系数,不过它所计算的对象是分类变量。
分类变量可以理解成有类别的变量,可以分为
无序的,比如性别(男、女)、血型(A、B、O、AB);
有序的,比如肥胖等级(重度肥胖,中度肥胖、轻度肥胖、不肥胖)。
通常需要求相关性系数的都是有序分类变量。
举个例子。比如评委对选手的评分(优、中、差等),我们想看两个(或者多个)评委对几位选手的评价标准是否一致;或者医院的尿糖化验报告,想检验各个医院对尿糖的化验结果是否一致,这时候就可以使用肯德尔相关性系数进行衡量。
由于数据情况不同,求得肯德尔相关性系数的计算公式不一样,一般有3种计算公式,在这里就不繁琐地列出计算公式了,直接给出R语言的计算函数:
还是用cor函数求,这时候把method这个参数设成“kendall”,这时我们假设老师对选手的评价等级---3表示优,2表示中,1表示差:
> X《-c(3,1,2,2,1,3)
> Y《-c(1,2,3,2,1,1)
> cor(X,Y,method="kendall")
[1] -0.2611165
这时候就可以理解为两位老师对选手们的看法是呈相反趋势的,不过这种相反的程度不很大。
相关阅读
相关性对于初级SEO人员,无论是基于内容还是链接的角度,它都是一个很少关注的词,特别是企业站点,对方将更多的时间放在首页的排名,这并
中,最容易犯的错误就是关键词堆积,以为页面上关键词的密度越大,越有利于网站排名,这是很错误的想法,关键词在一个页面上出现的分布是应
前段时间对于百度推出的<不相关静态搜索结果页将被严厉处理>大概内容如下:百度网页搜索反作弊团队近期发现一部分网站遍历热门关键
在Excel中经常会利用到函数进行数据的统计计算,虽然变异很少求到,但也会用到,下面是SEO探针小编带来的关于excel变异系数函数的计
无论是什么行业的网站,都有与之类似或者相关的网站独占鳌头。而这站长类网站、SEO类博客以及SEO论坛要优化推广,都要依附于相关的权