线性回归

Linear Regression
是一种通过属性的线性组合来进行预测的线性模型。其目的是找到一条直线或者一个平面或者更高维的超平面,使得预测值与真实值之间的误差最小化

y^=h(x)=w0x0+w1x1++wnxn=wTxJ(w)=12i=1m(h(x)iyi)2

m 代表训练集中样本的数量 n 代表特征的数量
x 代表特征/输入变量 y 代表目标变量/输出变量
(x,y) 代表训练集中的样本 (xi,yi) 代表第 i 个观察样本
y^=h(x) 代表预测的值 h 代表学习算法的解决方案或函数也称为假设(hypothesis)
J(w) 为损失函数,采用平方和损失,残差平方和

一、最小二乘法 LSM

不需要选择学习率,需要计算 (XTX)1,只适用于线性模型 ,不适合逻辑回归模型等其他模型

算法流程:知 h(x),寻找一组 w(w0,w1,,wn) 使得残差平方和 J(w) 最小

zi2=zTzXTXX=2XAXX=ATXTAXX=(A+AT)XJ(w)w=12w(XwY)T(XwY)=12w(wTXTXw2wTXTY+YTY)=12(2XTXw2XTY+0)=0

XTXwXTY=0w=(XTX)1XTY

二、梯度下降

需要选择学习率 α,需要多次迭代,当特征数量𝑛大时也能较好适用,适用于各种类型的模型

三、回归的评价指标

均方误差 MSE(Mean Square Error):1mi=1m(yiy^i)2

均方根误差 RMSE (Root Mean Square Error): 1mi=1m(yiy^i)2

平均绝对误差MAE(Mean Absolute Error): 1mi=1m|yiy^i|

RSquare R2=SSRSST=1SSESST=1MSEVar, 越接近于 1, 说明模型拟合得越好

SSR=i=1m(y^iy¯)2SSE=i=1m(y^iy)2SST=i=1m(yiy¯)2