0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习实战之logistic回归

454398 来源:itpub技术栈 作者:itpub技术栈 2020-09-29 15:17 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

logistic回归是一种广义的线性回归,通过构造回归函数,利用机器学习来实现分类或者预测。

原理

上一文简单介绍了线性回归,与逻辑回归的原理是类似的。

预测函数(h)。该函数就是分类函数,用来预测输入数据的判断结果。过程非常关键,需要预测函数的“大概形式”, 比如是线性还是非线性的。 本文参考机器学习实战的相应部分,看一下数据集。

// 两个特征

-0.017612 14.053064 0

-1.395634 4.662541 1

-0.752157 6.538620 0

-1.322371 7.152853 0

0.423363 11.054677 0

0.406704 7.067335 1

如上图,红绿代表两种不同的分类。可以预测分类函数大概是一条直线。Cost函数(损失函数):该函数预测的输出h和训练数据类别y之间的偏差,(h-y)或者其他形式。综合考虑所有训练数据的cost, 将其求和或者求平均,极为J函数, 表示所有训练数据预测值和实际值的偏差。

显然,J函数的值越小,表示预测的函数越准确(即h函数越准确),因此需要找到J函数的最小值。有时需要用到梯度下降。

具体过程

构造预测函数

逻辑回归名为回归,实际为分类,用于两分类问题。 这里直接给出sigmoid函数。

接下来确定分类的边界,上面有提到,该数据集需要一个线性的边界。 不同数据需要不同的边界。

确定了分类函数,将其输入记做z ,那么

向量x是特征变量, 是输入数据。此数据有两个特征,可以表示为z = w0x0 + w1x1 + w2x2。w0是常数项,需要构造x0等于1(见后面代码)。 向量W是回归系数特征,T表示为列向量。 之后就是确定最佳回归系数w(w0, w1, w2)。cost函数

综合以上,预测函数为:

这里不做推导,可以参考文章 Logistic回归总结

有了上述的cost函数,可以使用梯度上升法求函数J的最小值。推导见上述链接。

综上:梯度更新公式如下:

接下来是python代码实现:

# sigmoid函数和初始化数据

def sigmoid(z):

return 1 / (1 + np.exp(-z))

def init_data():

data = np.loadtxt(‘data.csv’)

dataMatIn = data[:, 0:-1]

classLabels = data[:, -1]

dataMatIn = np.insert(dataMatIn, 0, 1, axis=1) #特征数据集,添加1是构造常数项x0

return dataMatIn, classLabels

复制代码

// 梯度上升

def grad_descent(dataMatIn, classLabels):

dataMatrix = np.mat(dataMatIn) #(m,n)

labelMat = np.mat(classLabels).transpose()

m, n = np.shape(dataMatrix)

weights = np.ones((n, 1)) #初始化回归系数(n, 1)

alpha = 0.001 #步长

maxCycle = 500 #最大循环次数

for i in range(maxCycle):

h = sigmoid(dataMatrix * weights) #sigmoid 函数

weights = weights + alpha * dataMatrix.transpose() * (labelMat - h) #梯度

return weights

// 计算结果

if __name__ == ‘__main__’:

dataMatIn, classLabels = init_data()

r = grad_descent(dataMatIn, classLabels)

print(r)

输入如下:

[[ 4.12414349]

[ 0.48007329]

[-0.6168482 ]]

上述w就是所求的回归系数。w0 = 4.12414349, w1 = 0.4800, w2=-0.6168 之前预测的直线方程0 = w0x0 + w1x1 + w2x2, 带入回归系数,可以确定边界。 x2 = (-w0 - w1*x1) / w2

画出函数图像:

def plotBestFIt(weights):

dataMatIn, classLabels = init_data()

n = np.shape(dataMatIn)[0]

xcord1 = []

ycord1 = []

xcord2 = []

ycord2 = []

for i in range(n):

if classLabels[i] == 1:

xcord1.append(dataMatIn[i][1])

ycord1.append(dataMatIn[i][2])

else:

xcord2.append(dataMatIn[i][1])

ycord2.append(dataMatIn[i][2])

fig = plt.figure()

ax = fig.add_subplot(111)

ax.scatter(xcord1, ycord1,s=30, c=‘red’, marker=‘s’)

ax.scatter(xcord2, ycord2, s=30, c=‘green’)

x = np.arange(-3, 3, 0.1)

y = (-weights[0, 0] - weights[1, 0] * x) / weights[2, 0] #matix

ax.plot(x, y)

plt.xlabel(‘X1’)

plt.ylabel(‘X2’)

plt.show()

如下:

算法改进

随机梯度上升

上述算法中,每次循环矩阵都会进行m * n次乘法计算,时间复杂度是maxCycles* m * n。当数据量很大时, 时间复杂度是很大。 这里尝试使用随机梯度上升法来进行改进。 随机梯度上升法的思想是,每次只使用一个数据样本点来更新回归系数。这样就大大减小计算开销。 算法如下:

def stoc_grad_ascent(dataMatIn, classLabels):

m, n = np.shape(dataMatIn)

alpha = 0.01

weights = np.ones(n)

for i in range(m):

h = sigmoid(sum(dataMatIn[i] * weights)) #数值计算

error = classLabels[i] - h

weights = weights + alpha * error * dataMatIn[i]

return weights

进行测试:

随机梯度上升的改进

def stoc_grad_ascent_one(dataMatIn, classLabels, numIter=150):

m, n = np.shape(dataMatIn)

weights = np.ones(n)

for j in range(numIter):

dataIndex = list(range(m))

for i in range(m):

alpha = 4 / (1 + i + j) + 0.01 #保证多次迭代后新数据仍然有影响力

randIndex = int(np.random.uniform(0, len(dataIndex)))

h = sigmoid(sum(dataMatIn[i] * weights)) # 数值计算

error = classLabels[i] - h

weights = weights + alpha * error * dataMatIn[i]

del(dataIndex[randIndex])

return weights

可以对上述三种情况的回归系数做个波动图。 可以发现第三种方法收敛更快。 评价算法优劣势看它是或否收敛,是否达到稳定值,收敛越快,算法越优。

总结

这里用到的梯度上升和梯度下降是一样的,都是求函数的最值, 符号需要变一下。 梯度意味着分别沿着x, y的方向移动一段距离。(cost分别对x, y)的导数。

完整代码请查看: github: logistic regression

参考文章: 机器学习之Logistic回归与Python实现

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    67

    文章

    8561

    浏览量

    137208
  • Logistic
    +关注

    关注

    0

    文章

    11

    浏览量

    9083
  • 线性回归
    +关注

    关注

    0

    文章

    42

    浏览量

    4581
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    线性回归的类型和应用

    线性回归是一种统计建模方法,用来将连续响应变量描述为一个或多个预测变量的函数。它有助于您理解和预测复杂系统的行为,或者分析试验、金融和生物数据。
    的头像 发表于 03-13 10:20 259次阅读
    线性<b class='flag-5'>回归</b>的类型和应用

    少走三年弯路!顶尖硬件工程师分享的“实战锦囊”!

    工程师实战能力提升专家——赛盛技术赛盛技术公司专注于提供高质量的工程技术培训服务,以线下公开课、企业内训和线上网课等多元化形式,满足不同工程师的学习需求。课程内容广泛覆盖EMC、硬件设计/故障排查
    的头像 发表于 02-26 15:54 186次阅读
    少走三年弯路!顶尖硬件工程师分享的“<b class='flag-5'>实战</b>锦囊”!

    人工智能与机器学习在这些行业的深度应用

    自人工智能和机器学习问世以来,多个在线领域的数字化格局迎来了翻天覆地的变化。这些技术从诞生之初就为企业赋予了竞争优势,而在线行业正是受其影响最为显著的领域。人工智能(AI)与机器学习
    的头像 发表于 02-04 14:44 651次阅读

    机器学习和深度学习中需避免的 7 个常见错误与局限性

    无论你是刚入门还是已经从事人工智能模型相关工作一段时间,机器学习和深度学习中都存在一些我们需要时刻关注并铭记的常见错误。如果对这些错误置之不理,日后可能会引发诸多麻烦!只要我们密切关注数据、模型架构
    的头像 发表于 01-07 15:37 335次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>和深度<b class='flag-5'>学习</b>中需避免的 7 个常见错误与局限性

    从0到1,10+年资深LabVIEW专家,手把手教你攻克机器视觉+深度学习(5000分钟实战课)

    “告别检测系统能力缺陷!10+年LabVIEW视觉资深专家手把手教你:5000+分钟高清教程(含工具、算法原理、实战操作、项目优化全流程讲解)”——从传统视觉算法→深度学习建模→工业级部署"
    的头像 发表于 12-02 08:07 730次阅读
    从0到1,10+年资深LabVIEW专家,手把手教你攻克<b class='flag-5'>机器</b>视觉+深度<b class='flag-5'>学习</b>(5000分钟<b class='flag-5'>实战</b>课)

    基于迅为RK3588开发板实现高性能机器狗主控解决方案- AI能力实战:YOLOv5目标检测例程

    基于迅为RK3588开发板实现高性能机器狗主控解决方案- AI能力实战:YOLOv5目标检测例程
    的头像 发表于 11-28 11:32 1683次阅读
    基于迅为RK3588开发板实现高性能<b class='flag-5'>机器</b>狗主控解决方案- AI能力<b class='flag-5'>实战</b>:YOLOv5目标检测例程

    EMC电路怎么整改:如何缩短整改周期的实战案例

    EMC电路怎么整改:如何缩短整改周期的实战案例|南柯电子
    的头像 发表于 10-20 10:17 914次阅读

    FPGA在机器学习中的具体应用

    随着机器学习和人工智能技术的迅猛发展,传统的中央处理单元(CPU)和图形处理单元(GPU)已经无法满足高效处理大规模数据和复杂模型的需求。FPGA(现场可编程门阵列)作为一种灵活且高效的硬件加速平台
    的头像 发表于 07-16 15:34 3066次阅读

    任正非说 AI已经确定是第四次工业革命 那么如何从容地加入进来呢?

    从简单的AI应用入手,如使用机器学习算法进行房价预测。收集当地房价的相关数据,包括面积、房龄、周边设施等信息,然后选择合适的回归算法(如线性回归)来建立模型,通过不断调整参数和优化模
    发表于 07-08 17:44

    【嘉楠堪智K230开发板试用体验】K230机器视觉相关功能体验

    、画十字交叉、写字符等多种操作。具体使用方法参考官方教程机器学习-画图 图像检测 K230能够使用MicroPython进行边缘检测、线段检测、圆形检测、矩形检测、快速线性回归。官方在线文档链接图像检测
    发表于 07-08 17:25

    机器学习异常检测实战:用Isolation Forest快速构建无标签异常检测系统

    本文转自:DeepHubIMBA无监督异常检测作为机器学习领域的重要分支,专门用于在缺乏标记数据的环境中识别异常事件。本文深入探讨异常检测技术的理论基础与实践应用,通过IsolationForest
    的头像 发表于 06-24 11:40 1586次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>异常检测<b class='flag-5'>实战</b>:用Isolation Forest快速构建无标签异常检测系统

    辰:国内芯片须踏实前行,回归技术本质

    迷人眼的宣传中,深圳市瑞辰科技却清醒地意识到:突破源于技术!芯片行业发展道阻且长,唯有脚踏实地,加大研发投入,回归技术本质,才能具备真正的竞争力。死磕工艺,国产
    的头像 发表于 06-11 16:50 1121次阅读
    瑞<b class='flag-5'>之</b>辰:国内芯片须踏实前行,<b class='flag-5'>回归</b>技术本质

    学电路设计分享学习心得、技术疑问及实战成果

    活动介绍:随着物联网、智能硬件等领域的快速发展,硬件开发与电路设计技能成为电子工程师和创客的核心竞争力。为帮助刚入行的电子小白、高校大学生高效掌握从基础理论到实战应用的能力,电子发烧友平台推出学习
    的头像 发表于 05-20 08:07 719次阅读
    学电路设计分享<b class='flag-5'>学习</b>心得、技术疑问及<b class='flag-5'>实战</b>成果

    活动名单公布!学电路设计分享学习心得、技术疑问及实战成果,赢取专属礼品!

    实战应用的能力,电子发烧友平台推出学习 《硬件开发与电路设计速成实战篇(入门到精通)》 系列课程活动,为提升学习效果、鼓励学员互动,平台计划开展 “学电路设计,赢好礼,共成长” 评论
    发表于 05-14 09:53

    【「# ROS 2智能机器人开发实践」阅读体验】视觉实现的基础算法的应用

    学习建议 对于初学者,建议先通过仿真(如Gazebo)验证算法,再迁移到真实机器人,以降低硬件调试成本。 多参与开源社区(如ROS2的GitHub项目),学习前沿技术并贡献代码,是快速提升
    发表于 05-03 19:41