Skip to content

相关系数的几何:对截距投影的残差向量之间交角余弦


一直马虎地以为两个列向量的内积就是它们所代表变量的相关系数,结果今天在学生面前出了一回丑,企图让一列常数和另一个列向量的相关系数接近1。大家都知道,一列常数和任何一个列向量的相关系数必定为零。

我的错误在于忘记了协方差表达式中,列向量作内积之前有一步中心化:减去全列的均值。被减去的实际上是一个向量,等于全列均值 \bar{x}乘以向量 \left[\begin{array}{c}1\\1\\1\\\vdots\\1\end{array}\right],也就是 \left[\begin{array}{c}x_{1}\\x_{2}\\x_{3}\\\vdots\\x_{n}\end{array}\right]在截距向量、也就是“对角线”轴方向上的投影。 \left[\begin{array}{c}x_{1}\\x_{2}\\x_{3}\\\vdots\\x_{n}\end{array}\right]减去这个投影,是没有任何解释变量、只有截距项时的回归残差,这个残差向量 \left[\begin{array}{c}x_{1}-\bar{x}\\x_{2}-\bar{x}\\x_{3}-\bar{x}\\\vdots\\x_{n}-\bar{x}\end{array}\right]和截距方向垂直,所以落在垂直于“对角线”截距向量(日晷指针)的线性子空间里(日晷盘)。协方差实际上是这样的两个残差向量内积,而相关系数就是两残差向量之间的夹角Cosine值。

{ 1 } Trackback

  1. [...] 这是《相关系数的几何:对截距投影的残差向量之间交角余弦》示意图,恰好可以用于解释为什么[tex] \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}[/tex]满足的[tex] \chi^2[/tex]分布df是n-1而不是n。 [...]

Post a Comment

Your email is never published nor shared. Required fields are marked *


To prove you're a person (not a spam script), type the answer to the math equation shown in the picture.
Anti-spam equation