Data Analysis and Modeling
01
SPSS 软件
https://www.ibm.com/cn-zh/spss
02-基本概念
相关性分析
相关分析用于检验变量间的关系,但仅仅只能确定变量之间是否存在关系,而不能确定这一关系的*方向性*,例如X与Y之间存在显著正相关关系,但我们无法知道是X水平越高,Y水平随之越高,还是Y水平越高,X水平随之越高。如果想确定变量间关系的方向性,则需用到回归分析(Regression)分析。
回归分析
层次回归
采用层次回归,可以控制协变量的影响。 例如,我们想要控制X1和X2,研究X3和X4对Y的影响。
03-实操
SPSS操作:简单线性回归(史上最详 尽的手把手教程) - 知乎 (zhihu.com)
1
线性回归
Regression analysis can:
- Indicate if independent variables have a significant relationship with a dependent
variable.
- Indicate the relative strength of different independent variables’ effects on a
dependent variable.
- Make predictions.
Bigger deviances are weighted disproportionately high 。
较大的偏差被加权过高。
Y = α + βX + e
R 方
reflects the proportion of variance explained by the regression line 。 反映了回归线所解释的方差比例
Steps in liner regression
- Recognize research question and formulate hypotheses
- Determine how many variables you are comparing and choose significance
- Data requirements and initial analysis
- check Assumptions
- Models Estimation
- Interpretation and validation
- Report Results
significance level & p-value
显著性水平,假设检验中用来决定是否拒绝零假设。 如果 P 值小于这个显著性水平,拒绝零假设,有统计学意义(即有足够证据表明两组之前存在差异或某个效应是显著的)
零假设(null hypothesis),在统计学中通常用 H0H0 表示,是假设检验中的一个基本概念。它是一个研究假设,通常用来表示在没有观察到任何效应或差异的情况下的预期状态。零假设通常假设没有效应、没有差异或者没有关联。
P 值是在零假设 H0 为真的前提下,观测到的统计量或更极端情况出现的概率。它是一个介于 0 和 1 之间的数值,通常用于衡量结果的偶然性。 P 值较小:如果 P 值小于预先设定的显著性水平(如 0.05),则认为结果具有统计学意义,拒绝零假设,认为有足够证据支持研究假设。
F检验:即对方程是否有线性关系的检验。原假设 H0 没有线性关系。
t检验:
p值是什么?数据科学家用最简单的方式告诉你 - 知乎 (zhihu.com)
p 值越低,证据越令人惊讶,零假设越荒谬。
p 值越低,结果越有意义,因为它不太可能是由噪声引起的。
Dummy variables(虚拟变量或哑变量)是统计学和数据分析中常用的一种变量类型,用于处理分类数据或定性变量。在回归分析、机器学习模型和其他统计模型中,虚拟变量用于将非数值型数据(如性别、种族、国家等)转换为数值型数据,以便进行数学运算和模型构建。
Data requirements
- sufficient samples
Criteria 1 - Minimum between is 50+ 8 x N (N is number of independent variables)
Criteria 2 - Minimum between is 104 + N (N is number of independent variables)
Use what ever results in smaller number
- variable show variation
- no multi collinearity 非共线
Check Assumptions
- model can be expressed linearly.
- model expect mean error is zero.
- errors variance is constant .
- errors are independent.
- errors need to be approximately normally distributed