Kandell和Spearman表示的是非参数秩相关系数。
假设具有n个观测和m个变量的数据集可以表示成如下的形式:x[i,j],i=1,2,……,n(n>1);j=1,2,……m(m>1)
则可以定义:
1.秩
给定某个变量j,其所对应的n个数据x[1,j], x[2,j], . . . , x[n,j],可以按照某种次序排列起来,这个次序就是秩。一般地,在变量j中最小的数据具有秩1,次小的数据被认为它的秩为2,依次类推,最大的数据将对应秩n。如果某几个取值是相等的,则它们将给定平均的秩:若有k个取值是相同的记录,它们的顺序是从h+1到h+k,即x[h,j]<x[h+1,j]=x[h+2,j]……=x[h+k,j]<x[h+k+1,j],则它们的秩将被认为是h+(k+1)/2,而x[h+k+1,j]的秩为h+k+1。
依次类推,对于其它的变量也有这样的定义,那么可以将y[i,j]定义为观测x[i,j]所对应的秩。那么在下面获得Kandell和Spearman系数的时候,将使用y[i,j]代替x[i,j]来进行计算。
2.Kandellτ
R[j,k]=(∑_{h}∑_{k}sign(y[h,j]-y[i,j])*sign(y[h,k]-y[i,k]))/sqrt([n(n-1)-T(j)][n(n-1)-T(k)]), j,k=1,2,……,m;
其中,T(j)=∑t(t-1),t是变量j取值中的在“结”上的取值。
3.Spearman
R[j,k]=(n*(n*n-1)-6*∑(y[i,j]-y[i,k])^2-0.5*(T(j)+T(k)))/sqrt([n*(n*n-1)-T(j)]*[n*(n*n-1)-T(k)]), j,k=1,2,……,m;
参考文献:
[1] Siegel S (1956) non-parametric Statistics for the Behavioral Sciences mcGraw–Hill
[2] G02-Correlation and Regression Analysis. The numerical Algorithms Group Ltd,Oxford UK.2001.
例子:
Data matrix is:
------------------------------
1 2 3
1 1.7000 1.0000 0.5000
2 2.8000 4.0000 3.0000
3 0.6000 6.0000 2.5000
4 1.8000 9.0000 6.0000
5 0.9900 4.0000 2.5000
6 1.4000 2.0000 5.5000
7 1.8000 9.0000 7.5000
8 2.5000 7.0000 0.0000
9 0.9900 5.0000 3.0000
------------------------------
number of variables (columns) = 3
number of cases (rows) = 9
------------------------------
matrix of ranks:
1 2 3
1 5.0000 1.0000 2.0000
2 9.0000 3.5000 5.5000
3 1.0000 6.0000 3.5000
4 6.5000 8.5000 8.0000
5 2.5000 3.5000 3.5000
6 4.0000 2.0000 7.0000
7 6.5000 8.5000 9.0000
8 8.0000 7.0000 1.0000
9 2.5000 5.0000 5.5000
-----------------------------
matrix of rank correlation coefficients:
Upper triangle -- Spearman’s
Lower triangle -- Kendall’s tau
1 2 3
1 1.0000 0.2246 0.1186
2 0.0294 1.0000 0.3814
3 0.1176 0.2353 1.0000
则可以定义:
1.秩
给定某个变量j,其所对应的n个数据x[1,j], x[2,j], . . . , x[n,j],可以按照某种次序排列起来,这个次序就是秩。一般地,在变量j中最小的数据具有秩1,次小的数据被认为它的秩为2,依次类推,最大的数据将对应秩n。如果某几个取值是相等的,则它们将给定平均的秩:若有k个取值是相同的记录,它们的顺序是从h+1到h+k,即x[h,j]<x[h+1,j]=x[h+2,j]……=x[h+k,j]<x[h+k+1,j],则它们的秩将被认为是h+(k+1)/2,而x[h+k+1,j]的秩为h+k+1。
依次类推,对于其它的变量也有这样的定义,那么可以将y[i,j]定义为观测x[i,j]所对应的秩。那么在下面获得Kandell和Spearman系数的时候,将使用y[i,j]代替x[i,j]来进行计算。
2.Kandellτ
R[j,k]=(∑_{h}∑_{k}sign(y[h,j]-y[i,j])*sign(y[h,k]-y[i,k]))/sqrt([n(n-1)-T(j)][n(n-1)-T(k)]), j,k=1,2,……,m;
其中,T(j)=∑t(t-1),t是变量j取值中的在“结”上的取值。
3.Spearman
R[j,k]=(n*(n*n-1)-6*∑(y[i,j]-y[i,k])^2-0.5*(T(j)+T(k)))/sqrt([n*(n*n-1)-T(j)]*[n*(n*n-1)-T(k)]), j,k=1,2,……,m;
参考文献:
[1] Siegel S (1956) non-parametric Statistics for the Behavioral Sciences mcGraw–Hill
[2] G02-Correlation and Regression Analysis. The numerical Algorithms Group Ltd,Oxford UK.2001.
例子:
Data matrix is:
------------------------------
1 2 3
1 1.7000 1.0000 0.5000
2 2.8000 4.0000 3.0000
3 0.6000 6.0000 2.5000
4 1.8000 9.0000 6.0000
5 0.9900 4.0000 2.5000
6 1.4000 2.0000 5.5000
7 1.8000 9.0000 7.5000
8 2.5000 7.0000 0.0000
9 0.9900 5.0000 3.0000
------------------------------
number of variables (columns) = 3
number of cases (rows) = 9
------------------------------
matrix of ranks:
1 2 3
1 5.0000 1.0000 2.0000
2 9.0000 3.5000 5.5000
3 1.0000 6.0000 3.5000
4 6.5000 8.5000 8.0000
5 2.5000 3.5000 3.5000
6 4.0000 2.0000 7.0000
7 6.5000 8.5000 9.0000
8 8.0000 7.0000 1.0000
9 2.5000 5.0000 5.5000
-----------------------------
matrix of rank correlation coefficients:
Upper triangle -- Spearman’s
Lower triangle -- Kendall’s tau
1 2 3
1 1.0000 0.2246 0.1186
2 0.0294 1.0000 0.3814
3 0.1176 0.2353 1.0000