新版本公告
~~空空如也
加载中
加载中
表情图片
评为精选
鼓励
加载中...
分享
加载中...
文件下载
加载中...

拿到了L(w)的表达式,下面该如何找到正确的w,使得L(w)最小呢(注意,求最大变成了求最小)?

祭出凸优化中神挡杀神,佛挡杀佛的梯度下降法(gradient descent)。

contours_evaluation_optimizers.gif

图片来源
思路简单说就是,虽然我不知道w取坐标轴上什么位置好,但我可以一小步一小步的挪过去,每挪一步都向着当前所在位置坡度最陡的地方去。于是我们就这样慢慢的圆润的滚道谷底了。

可以证明,“坡度最陡”的方向,就是该点导数方向的反方向,这本书的这个章节有极好的详述。于是我们要对L(w)=ilog(h(wTxi)yi(1h(wTxi))1yi)求导:
L(w)w=i(h(wTxi)yi)xi 得益于sigmoid函数良好的求导特性和log函数的特性,这个导数表达非常简洁。

在实际程序中,我们只需要算出每个数据点对应的(h(wTxi)yi)xi,然后求和,就能得到当前w的导数表达。

但是这样真的好吗?

首先训练集的数据量一般都非常大,达到成千上万的地步,对如此大的数组频繁反复求和从计算的角度讲是非常不利的。其次,更重要的一点,我们无法保证整个数据集的数据都是有效数据,其中必然包含噪声,而把这些噪声算入我们每次计算的导数中,是非常危险的。

于是,这里我们使用另一个思路(所以我觉得机器学习里边的方法论实在是占据太多地盘了。。),每次求导时从整个数据集中随机抽取一小部分数据,用这一小部分数据作为样本来计算导数

这就是在各种机器学习算法中一路通杀的大名鼎鼎的 stochastic gradient descent,简称SGD,这种形式也叫 mini batch 法。无论是简单如Logistic regression,还是复杂如深度学习网络,优化思路基本上都是用SGD,或者说没有脱离SGD的模子。

游客没有发表内容的权限。想参与大家的讨论?现在就 登录注册
文号 / 822837

千古风流
名片发私信
学术分 2
总主题 34 帖总回复 364 楼拥有证书:专家 进士 老干部 学者 机友 笔友
注册于 2012-09-03 13:32最后登录 2025-03-14 11:19
主体类型:个人
所属领域:无
认证方式:手机号
IP归属地:未同步

个人简介

Machine Learning, computer vision enthusiast

Google

文件下载
加载中...
视频暂不能访问,请登录试试
仅供内部学术交流或培训使用,请先保存到本地。本内容不代表科创观点,未经原作者同意,请勿转载。
音频暂不能访问,请登录试试
投诉或举报
加载中...
{{tip}}
请选择违规类型:
{{reason.type}}

空空如也

插入资源
全部
图片
视频
音频
附件
全部
未使用
已使用
正在上传
空空如也~
上传中..{{f.progress}}%
处理中..
上传失败,点击重试
等待中...
{{f.name}}
空空如也~
(视频){{r.oname}}
{{selectedResourcesId.indexOf(r.rid) + 1}}
处理中..
处理失败
插入表情
我的表情
共享表情
Emoji
上传
注意事项
最大尺寸100px,超过会被压缩。为保证效果,建议上传前自行处理。
建议上传自己DIY的表情,严禁上传侵权内容。
点击重试等待上传{{s.progress}}%处理中...已上传,正在处理中
空空如也~
处理中...
处理失败
加载中...
草稿箱
加载中...
此处只插入正文,如果要使用草稿中的其余内容,请点击继续创作。
{{fromNow(d.toc)}}
{{getDraftInfo(d)}}
标题:{{d.t}}
内容:{{d.c}}
继续创作
删除插入插入
插入公式
评论控制
加载中...
文号:{{pid}}
笔记
{{note.content}}
{{n.user.username}}
{{fromNow(n.toc)}} {{n.status === noteStatus.disabled ? "已屏蔽" : ""}} {{n.status === noteStatus.unknown ? "正在审核" : ""}} {{n.status === noteStatus.deleted ? '已删除' : ''}}
  • 编辑
  • 删除
  • {{n.status === 'disabled' ? "解除屏蔽" : "屏蔽" }}
我也是有底线的