机器学习——代价函数

2022-01-09

字数统计: 835 | 阅读时长≈ 3 分钟

今天学习了机器学习中的代价函数，在这里做个总结。

假设有一组数据，现给出某一数据，预测最具有可能性的对应数据。

假设函数模型为$h(x)=θ_1+θ_2x$
使函数模型与实际数据尽可能拟合
代价函数为

$J\left( \theta _{1,}\theta _2 \right)=\frac{1}{2m}\sum_{i=1}^m{\left( h\left( x^i \right) -y^i \right)}^2$

h(x)为预测数据，y为实际数据，i是第几组实验数据，m是实验数据总数
在这个函数中，需要使预测值与实际值差的平方$\sum_{i=1}^m{\left( h\left( x^i \right) -y^i \right)}^2$尽量小
为减小误差，取平均值。$\frac{1}{2m}\sum_{i=1}^m{\left( h\left( x^i \right) -y^i \right)}^2$。1/2是为后续便于求导。
通过调整$θ_1θ_2$，使函数J($θ_1,θ_2$)的数值最小化。
用一组数据对函数进行拟合，不断更改$θ_1$和$θ_2$的数值，将会得到一个近似下图的图像

so,可以从图中直观的看到函数J的最低点即为J的最小值，那么，如何获得最低点对应的数值呢

梯度下降法

$\theta _i:=\theta _i-\alpha \frac{dJ\left( \theta _1,\theta _2 \right)}{d\theta _i}\left( i=0\,\,or\,\,i=2\right)$

注意：对于这个方程，应同时更新$θ_1,θ_2$。
即在程序中应为

$temp1=\theta _i-\alpha \frac{dJ\left( \theta _1,\theta _2 \right)}{d\theta _1} \\temp2=\theta _i-\alpha \frac{dJ\left( \theta _1,\theta _2 \right)}{d\theta _2} \\ \theta_1=temp1 \\ \theta_2=temp2$

而非

$temp1=\theta _i-\alpha \frac{dJ\left( \theta _1,\theta _2 \right)}{d\theta _1} \\ \theta_1=temp1 \\temp2=\theta _i-\alpha \frac{dJ\left( \theta _1,\theta _2 \right)}{d\theta _2} \\ \theta_2=temp2$

符号:=表示赋值运算符，ɑ表示学习率，$\frac{dJ\left( \theta _1,\theta _2 \right)}{d\theta _1}$为导数项，ɑ$\frac{dJ\left( \theta _1,\theta _2 \right)}{d\theta _1}$为步长，即进行一次梯度下降θ的改变量。
推导化简

$\frac{dJ\left( \theta _1,\theta _2 \right)}{d\theta _j}=\frac{d}{d\theta _j}\frac{1}{2m}\sum_{i=1}^m\left(h\left( x^i \right) -y^i \right)^2 =\frac{d}{d\theta _j}\frac{1}{2m}\sum_{i=1}^m\left(\theta _1+\theta _2x^i-y^i\right)^2 \\so\,\,\frac{dJ\left( \theta _1,\theta _2 \right)}{d\theta _1}=\frac{1}{m}\sum_{i=1}^m\left(\theta_1+\theta_2x^i-y^i\right)=\frac{1}{m}\sum_{i=1}^m\left(h\left(x^i\right)-y^i\right) \\\frac{dJ\left( \theta _1,\theta _2 \right)}{d\theta _2}=\frac{1}{m}\sum_{i=1}^m\left(\theta_1+\theta_2x^i-y^i\right)x^i=\frac{1}{m}\sum_{i=1}^m\left(h\left(x^i\right)-y^i\right)x^i$

即最后更新$θ_1,θ_2$的公式为

$\theta_1=\theta_1-\alpha\frac{1}{m}\sum_{i=1}^m\left(h\left(x^i\right)-y^i\right) \\\theta_2=\theta_2-\alpha\frac{1}{m}\sum_{i=1}^m\left(h\left(x^i\right)-y^i\right)x^i$

在一个只有一个θ为变量的代价函数的图像中，导数项$\frac{dJ\left( \theta _1,\theta _2 \right)}{d\theta _1}$意为在某一点的斜率。
当该点不位于局部最小值或全局最优值时，θ值更新，θ减去步长ɑ$\frac{dJ\left( \theta _1,\theta _2 \right)}{d\theta _1}$，更新后的点更靠近最小值，点所处的斜率变小，即$\frac{dJ\left( \theta _1,\theta _2 \right)}{d\theta _1}$变小，这会使步长减小，从而避免因步长过大导致找不到最小值。

以上就是我学到的第一个机器学习的算法，它很简单，很有意义。

打赏

版权声明： 本博客所有文章除特别声明外，著作权归作者所有。转载请注明出处！