是否可能发现连续变量和非连续变量的相关性？_Python

2条回答

2楼 · 2020-07-29 22:31

本文主要参考《R语言实战》中第七章内容。首先来看一下分类变量的探索。R提供了多种检验类别型变量(因子)独立性的方法，主要有卡方独立性检验、Fisher精确检验和Cochran-Mantel-Haenszel检验。卡方检验卡方独立性检验可以使用chisq.test()函数对二维列联表的行变量和列变量进行卡方独立性检验。图中显示：病人的治疗方式与改善情况间不独立，即存在某种相关性；而病人的性别与治疗的改善情况间是独立的，认为治疗的改善情况与病人的性别没有关系。Fisher精确检验可以使用fisher.test()函数进行Fisher精确检验，该检验的原假设是：边界固定的列联表中行和列是相互独立的。与许多统计软件不同的是fisher.test()函数可以在任意行列数大于等于2的二维列联表中使用，但不能用于2×2的列联表。Cochran-Mantel-Haenszel检验可以通过mantelhaen.test()函数进行Cochran-Mantel-Haenszel检验（如果不记得该检验函数，可以尝试使用apropos('test')查询所有可用的各种检验，其中就包含M-H检验）。该检验的原假设为：两个名义变量在第三个变量的每一层中都是条件独立的。上图结果显示，在不同的性别下，治疗方式与改善情况间不是独立的，仍然存在一定的相关性。分类变量相关程度度量如果已知某些类别型变量之间（因子）不独立，即存在一定的相关性。那如何得到相关性的大小。这里可以使用vcd包中的assocstats()函数计算二维列联表的phi系数、列联系数(contingencycoefficient)和Cramer'sV系数。连续变量的相关性度量对于连续变量的相关性，使用相关系数来描述变量间的关系。相关系数的符号表示正相关或负相关，其值的大小表示关系的强弱。R中可以计算多种相关系数，包括Pearson相关系数、Spearman相关系数、Kendall相关系数、偏相关系数等。Pearson相关系数度量了两个连续变量之间的线性相关程度；Spearman等级相关系数可以衡量非线性关系变量间的相关系数，是一种非参数的统计方法，可以用于定序变量或不满足正态分布假设的等间隔数据；Kendall秩相关系数也是一种非参数的等级相关度量，类似于Spearman等级相关系数。可以通过cor函数计算这三种相关系数。cor()函数中最重要的三个参数为X，use，method：X为指定分析的矩阵或数据框；use指定缺失数据的处理办法(all.obs则假设不存在缺失数据，遇到缺失数据时将会报错；everything遇到缺失数据时，结果将返回missing；complete.obs进行行删除；pairwise.complete.obs则成对删除)；method指明计算相关系数的方法，可以使pearson相关系数、spearman相关系数和kendall相关系数。attach(women)a<-heightb<-weightc<-a^2#a和c之间不存在线性关系cor(a,b,method='pearson')cor(a,b,method='spearman')cor(a,b,method='kendall')cor(a,c,method='pearson')cor(a,c,method='spearman')cor(a,c,method='kendall')对于有缺失的数据集，通过use参数的设定，将会产生不同计算的结果：偏相关系数偏相关系数指在控制一个或多个定量变量时，另外两个定量变量之间的相互关系。可以使用ggm包中的pcor函数计算偏相关系数。其中pcor函数中的两个重要参数是u和S：u为一个数值向量，前两个数值表示要计算相关系数的变量下标，其余的数值为条件变量的下标；S为所有变量的协方差矩阵。结果表明：在控制收入、文盲率和高中毕业率的影响下，人口和谋杀率之间的相关系数为0.346。偏相关系数常用于社会科学的研究中。总结：本文涉及到的R包和函数stats包chisq.test()fisher.test()mantelhaen.test()cor()cov()vcd包assocstats()ggm包pcor()gmodels包CrossTable()这里说明一下，gmodels包中的CrossTable()函数可以实现列联表分析，其结果类似于SAS中的PROCFREQ过程。

大泽九章

3楼 · 2020-10-27 09:08

戳戳原链接：https://support.minitab.com/zh-cn/minitab/18/help-and-how-to/modeling-statistics/regression/supporting-topics/basics/what-are-categorical-discrete-and-continuous-variables/。

分类变量（categoricalvariable）是说明事物类别的一个名称，其取值是分类数据。如“性别”就是一个分类变量，其变量值为“男”或“女”；“行业”也是一个分类变量，其变量值可以为“零售业”、“旅游业”、“汽车制造业”等。

有序分类变量：各类别之间有程度的差别。如尿糖化验结果按－、±、+、++、+++分类；疗效按治愈、显效、好转、无效分类。有序分类变量如微生物菌群丰度、代谢产物丰度及药效之间的相关性可以使用Spearman相关性进行分析。

连续变量连续变量是在任意两个值之间具有无限个值的数值变量。连续变量可以是数值变量，也可以是日期/时间变量。例如，零件的长度，或者收到付款的日期和时间。可以使用Pearson相关性进行分析。

是否可能发现连续变量和非连续变量的相关性？

相关问题推荐

等你来答

热门问答

相关文章

是否可能发现连续变量和非连续变量的相关性？

相关问题推荐

等你来答

热门问答

相关文章

采纳回答

编辑标签

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

付费偷看金额在0.1-10元之间