![](http://bzcloud.cool/wp-content/uploads/2023/02/LH0R6D1QLXWJKTQLH5L-1024x637.png)
![](http://bzcloud.cool/wp-content/uploads/2023/02/8KESGI619SNA6KIG@3H-1-1024x697.png)
给定向量X,希望输出概率y_hat,X为n_x维向量,用sigmoid函数控制输出在0-1之间。学习W和b。
损失函数衡量训练的情况,在logist回归中,如果定义损失函数为:
![](http://bzcloud.cool/wp-content/uploads/2023/02/YTYTD2YQQ@F3AGL.png)
学习时的优化问题是非凸的,梯度下降法可能找不到全局最优解。
logistic回归通常用下面这个损失函数:
![](http://bzcloud.cool/wp-content/uploads/2023/02/YS70KUZRLFLIR@XR0HCC-1024x641.png)
成本函数:
![](http://bzcloud.cool/wp-content/uploads/2023/02/T54MYKIRPMTEG4TGZBS58.png)
所有训练样本的损失函数平均值。
损失函数只适用于单个训练样本,成本函数则基于参数的总成本。所以训练时找到合适的W和b使得J尽可能的小。
![](http://bzcloud.cool/wp-content/uploads/2023/02/CFRAB0L6BTAG6IK7PNW-1024x632.png)
![](http://bzcloud.cool/wp-content/uploads/2023/02/ELVVQ7R5LDQ7FLBZUXQ5-1024x638.png)
梯度下降法做的就是,从初始点开始,朝最陡的下坡方向走一步,在梯度下降一步后,或许在那里停下。因为它正试图沿着最快下降方向往下走。
![](http://bzcloud.cool/wp-content/uploads/2023/02/MXYFPZ569N@H6LK@TVRF4-1024x639.png)
![](http://bzcloud.cool/wp-content/uploads/2023/02/GLT9_IFRHASYNY0S9RH06-1024x643.png)
无论是在左边还是右边,都会往最小值方向走。
微积分细节不做笔记
计算图:
![](http://bzcloud.cool/wp-content/uploads/2023/02/@A9NMPB_5MMWRMCUU-1024x640.png)
本质上就是链式法则
![](http://bzcloud.cool/wp-content/uploads/2023/02/ZQPRFDER5X37S3HIT-1024x638.png)
在这个例子中就是改变w1和w2使得Loss尽可能的小
![](http://bzcloud.cool/wp-content/uploads/2023/02/593WUO00@MRAWILUJ-1024x639.png)
这是单个样本的一次梯度更新计算过程
![](http://bzcloud.cool/wp-content/uploads/2023/02/VRG3JAS9PJWD50F8Y-1024x640.png)
多个样本成本函数求偏导本质上是每个样本损失函数求偏导取平均值。
![](http://bzcloud.cool/wp-content/uploads/2023/02/U0ZTW@9EVAY2QHSOXA-1024x647.png)
这是所有样本的一次梯度下降过程。使用双层循环比较低效,因此一般使用向量化技术。
向量化技术:2.11
to be continue。。。
Comments NOTHING