机器学习基本算法1-逻辑回归

逻辑回归Logistic Regression

与线性回归不同，逻辑回归不拟合样本分布，而是确定决策边界。决策边界可以是线性，也可以是非线性。

在用线性模型处理回归任务时，例如二分类问题，我们通过引入“单位阶跃函数”（红色部分）来产生0/1的判断值。当然，我们希望它是连续的，故采用近似的替代函数——“对数几率函数“（Sigmoid函数）。

实质上，是用线性回归模型的预测结果去逼近真实标记的对数几率，这是一种分类学习方法。

似然函数的本质，即选择最佳的参数值w，来最大化样本数据的可能性。同时，为了防止连乘带来的数字下溢，两边同时取对数，得到log可能性函数：

所以，逻辑回归的损失函数

S：Sigmoid函数

n：训练样本集总数

加上对数之后

由于我们的目标是使似然函数最大，为了计算方便，在等式前加上负号，以求得凸函数的最小值，从而引出了交叉熵（Cross entropy）损失函数。

只有一个样本的情况下，函数可以拆解为

由此可得，当y=1时，样本概率越接近1损失函数越小；当y=0时，样本概率越接近0损失函数越小。

部分参考：https://blog.csdn.net/xlinsist/article/details/51289825