回归分析是一种建立两个变量之间线性模型的方法
最小二乘法是一个估计线性模型参数的方法。这个方法的目标是找到一组线性模型参数,使得这个模型预测的数据和实际数据间的平方误差达到最小。这是四个让让统计学家一度十分头疼的数据集:安斯库姆四重奏,你可以通过这四个数据集进一步探索最小二乘法。
选择一个数据集
拖动图中的数据点,观察它们对回归直线的影响。
点击下方表格来了解每个参数在最小二乘法中的具体含义。
| \(\displaystyle{n}\) | \(\displaystyle{\bar{\cssId{xMEAN}{x}}}\) | \(\displaystyle{\bar{\cssId{yMEAN}{y}}}\) | \(\displaystyle{\hat{\cssId{BETA0}{B_{0}}}}\) | \(\displaystyle{\hat{\cssId{BETA1}{B_{1}}}}\) | \(\displaystyle{SSE}\) | |
| Model |
相关性是一种刻画两个变量之间线性关系的度量。相关性的数学定义是
$$r = \dfrac{s_{xy}}{\sqrt{s_{xx}}\sqrt{s_{yy}}}$$其中 $$\begin{align*} s_{xy} &=\sum^n_{i=1} (x_i-\bar{x})(y_i-\bar{y})\\ s_{xx} &=\sum^n_{i=1} (x_i-\bar{x})^2\\ s_{yy} &=\sum^n_{i=1} (y_i-\bar{y})^2 \end{align*}$$ 由上述定义我们可以看出\(r\in[-1.1]\)。
我们还可以把相关性\(r\)理解为最小二乘法确定的\(x,y\)变量方向之间的余弦值。下面用一批电芯(分为不同型号)的示例测量数据来进一步探索这个概念(演示数据实际采用公开的鸢尾花数据集,仅用于说明方法)。选择下方电芯型号:
点击下面相关性矩阵来探索各型号电芯各项参数之间的相关性。
| 内阻 | 容量 | 循环寿命 | 温升 | |
| 内阻 | ||||
| 容量 | ||||
| 循环寿命 | ||||
| 温升 |
方差分析(ANOVA,Analysis of Variance)是一种检验各组数据是否有相同均值的统计学方法,比如检验不同工艺或型号的电芯在某项指标上的均值是否一致。方差分析将 t 检验从检验两组数据均值推广到检验多组数据均值,其主要方法是比较组内和组间平方误差。
选择一个数据集来进行探索:
你可以移动数据点然后观察这些改变如何影响方差分析的结果。
点击下方方差分析表格的各列来进一步了解各参数的意义。
| \(\displaystyle{SSE}\) | \(\displaystyle{df}\) | \(\displaystyle{MS}\) | \(\displaystyle{F}\) | \(\displaystyle{p}\) | |
| 组间误差 Treatment | |||||
| 随机误差 Error | |||||
| 总和 Total |