决定系数 R² 的理解

2025-04-09  乐帮网

大数据模型

1. 什么是 R²?

R² 的本质是衡量 回归模型对数据的拟合程度,即模型能够解释因变量(目标变量)变异的比例。其取值范围通常在 0 到 1 之间,具体含义如下:


  • R²=1:模型完美拟合数据,所有数据点都被模型准确预测(理想情况,但几乎不可能)。
  • R2=0 R²=0:模型的预测能力与直接使用均值预测的效果一样,说明模型没有学习到有效信息。
  • R2<0 R²<0:模型比简单的均值预测还要差,可能是模型选择不当或过拟合/欠拟合所致。

简单来说,R² 越接近 1,说明模型拟合效果越好,但需要注意的是,R² 高并不一定意味着模型真的“优秀”,后面我们会详细讨论它的局限性。

2. R² 的计算公式

R² 的数学定义如下:

R2=1−∑(yi−y^i)2∑(yi−y¯)2

其中:

  • yi :真实值(实际观测数据)
  • y^i :模型预测值
  • y¯ :真实值的均值,即: y¯=1n∑yi
  • 残差平方和(RSS,Residual Sum of Squares): RSS=∑(yi−y^i)2 反映了模型预测误差的总量。
  • 总平方和(TSS,Total Sum of Squares): TSS=∑(yi−y¯)2 反映了数据的总体变异性。

R² 其实是衡量 RSS 在 TSS 中所占的比例:

  • 如果 RSS 很小(模型预测误差小),R² 就接近 1,说明模型很好地拟合了数据。
  • 如果 RSS 很大(接近 TSS),R² 就接近 0,说明模型几乎没有学习到有用信息。

公众号二维码

关注我的微信公众号
在公众号里留言交流
投稿邮箱:1052839972@qq.com

庭院深深深几许?杨柳堆烟,帘幕无重数。
玉勒雕鞍游冶处,楼高不见章台路。
雨横风狂三月暮。门掩黄昏,无计留春住。
泪眼问花花不语,乱红飞过秋千去。

欧阳修

付款二维码

如果感觉对您有帮助
欢迎向作者提供捐赠
这将是创作的最大动力