新版本公告
~~空空如也
加载中
加载中
表情图片
评为精选
鼓励
加载中...
分享
加载中...
文件下载
加载中...

假设这条直线方程是:
wx+b=0 那么如下的式子可以看作对任意数据点x离开这条直线垂直距离:
θ=wTx+b 所以这里我们得到一个式子:
P(y=1|x)=h(wTx+b) 这里的P(y=1|x)是,当给定一个输入数据x时,x属于正样本区间y=1的后验概率分布,也就是我们这里的classification所需要的映射关系。顺便一提,这种研究P(y|x)而非P(yx)的机器学习方法,被称作***Discriminative model***,而后者被称作***Generative model***,这两者的区别和特点是非常有趣的一个话题,现按下不表。

P(y=1|x)显而易见是w,b的函数,所以我们写作P(y=1|x;w,b)。实际训练过程,可以看作对w,b的取值进行优化,使P(y=1|x;w,b)最符合我们的训练集数据{xi,yi}

于是问题来了,如何描述这种符合程度?

这里引入了损失函数(loss function)的概念。

对所有的xiyi,我们希望以下这个总概率最大化(参考高中数学知识,独立随机事件的总概率):

P(Y|X)=ΠiP(y=yi|xi) 即:
w,b=argmaxw,bΠiP(y=yi|xi;w,b)

P(y=yi|xi;w,b)实际上可以写成如下表示:
P(y=yi|xi;w,b)=h(wTxi+b)iy(1h(wTxi+b))1yi 请自己体会。
但处于某种原因,直接对P(Y|X)是很困难的,于是我们使用了如下的trick(认真上过高数课的同学并不会陌生),转而优化L(w,b)
L(w,b)=ilog(h(wTxi+b)yi(1h(wTxi+b))1yi) 但同时优化两个参数w,b是㯊麻烦的(求两遍导,更新两个参量),所以又使用了如下的 bias trick:
w=[w,b],x=[x,1] wTx+b=wTx 简化后有没有神清气爽?
L(w)=ilog(h(wTxi)yi(1h(wTxi))1yi)

游客没有发表内容的权限。想参与大家的讨论?现在就 登录注册
文号 / 822831

千古风流
名片发私信
学术分 2
总主题 34 帖总回复 364 楼拥有证书:专家 进士 老干部 学者 机友 笔友
注册于 2012-09-03 13:32最后登录 2025-03-14 11:19
主体类型:个人
所属领域:无
认证方式:手机号
IP归属地:未同步

个人简介

Machine Learning, computer vision enthusiast

Google

文件下载
加载中...
视频暂不能访问,请登录试试
仅供内部学术交流或培训使用,请先保存到本地。本内容不代表科创观点,未经原作者同意,请勿转载。
音频暂不能访问,请登录试试
投诉或举报
加载中...
{{tip}}
请选择违规类型:
{{reason.type}}

空空如也

插入资源
全部
图片
视频
音频
附件
全部
未使用
已使用
正在上传
空空如也~
上传中..{{f.progress}}%
处理中..
上传失败,点击重试
等待中...
{{f.name}}
空空如也~
(视频){{r.oname}}
{{selectedResourcesId.indexOf(r.rid) + 1}}
处理中..
处理失败
插入表情
我的表情
共享表情
Emoji
上传
注意事项
最大尺寸100px,超过会被压缩。为保证效果,建议上传前自行处理。
建议上传自己DIY的表情,严禁上传侵权内容。
点击重试等待上传{{s.progress}}%处理中...已上传,正在处理中
空空如也~
处理中...
处理失败
加载中...
草稿箱
加载中...
此处只插入正文,如果要使用草稿中的其余内容,请点击继续创作。
{{fromNow(d.toc)}}
{{getDraftInfo(d)}}
标题:{{d.t}}
内容:{{d.c}}
继续创作
删除插入插入
插入公式
评论控制
加载中...
文号:{{pid}}
笔记
{{note.content}}
{{n.user.username}}
{{fromNow(n.toc)}} {{n.status === noteStatus.disabled ? "已屏蔽" : ""}} {{n.status === noteStatus.unknown ? "正在审核" : ""}} {{n.status === noteStatus.deleted ? '已删除' : ''}}
  • 编辑
  • 删除
  • {{n.status === 'disabled' ? "解除屏蔽" : "屏蔽" }}
我也是有底线的