关于本版（机器学习版）

文号822491

8581

关于本版（机器学习版）

novakon2016/07/09软件综合 IP:四川

机器学习并不困难，但从某种程度上来说又很困难。

各种机器学习相关的教材，不管是文字的还是视频的，都要求学习者具备高等数学、线性代数、概率论等数学知识。而这还仅仅是最简单的诸如梯度下降这一类算法的要求，继续向后学习还会遇到更多更高级的数学概念，如果学习者对数学没有一定的“灵性”甚至从小数学就不好，入门机器学习是几乎不可能的事情。

对于有志于此的人们来说，这其实是好事。在机器学习的最前沿，是类似 Google / Facebook / Baidu 这样的大公司，但这完全不妨碍个人产生优秀的研究成果。如今在机器学习上取得的最微小的突破，其影响力也不亚于20年前PHP和JavaScript的横空出世，不亚于40年前出现的图形用户界面和计算机网络。

如果让我用一句话概括机器学习：机器学习，是一门让计算机（或者其他机器）模拟生物“学习”过程的学问。
通常，研究者需要设计具有“学习”能力的数学模型，向模型添加一定的输入，令模型从输入中“学习”输入与输出的对应关系，或者输入与其他输入之间的联系。

举个例子：现有一支机械臂，用其投掷一支飞镖，我们希望让飞镖落点尽量靠近靶心。传统的办法是，设定机械臂的出手速度为某个固定值 \(\vec{v}\) ，然后通过CV等方法求得靶心与机械臂出手点的距离 \(\vec{d}\)，再根据当地 \(g\) 值构建抛物线，最后让机械臂按抛物线起点切线 \(\vec{t}\) 抛出飞镖。

如果把出手方向设为输入，飞镖落点设为输出，我们可以利用经典物理定律，由输入直接求得输出(公式省略)，也可以从所需的输出反推得到合适的输入。

然而在现实中，运动员只需靠“手感”，就能在不同的距离、不同的出手角度、不经测量计算而准确击中靶心。如果第一次投低了，第二次就增加一些速度，或者提高一点角度……最后就找到了“手感”。这说明：人类虽然不善于计算，但藉由不断地练习，可以令【从眼到手的神经反射回路】为“命中靶心”这个特殊目的调校到最优。

相比之下，若要让一台机器精确地按照某个物理模型投掷飞镖，则困难得多：因为现实世界中的物理模型实在是太复杂了。飞镖的流体动力学模型要怎么仿真？飞镖出手时，机械手与飞镖从开始分离到完全分离经过多少毫秒？是否要给机械手加装精密的速度传感器（加速度计 / CV / 编码器）？

因为完善物理模型的成本实在是太高了，聪明而懒惰的工程师们提出了反馈控制：虽然丢飞镖的过程存在不可忽略且模型复杂的系统误差，但只要飞镖的命中高度与出手切线斜率是正相关的，那么通过不断地【抛掷飞镖->计算落点误差->微调出手斜率】，最终一定能够让系统准确地命中靶心。

于是PID反馈控制被大规模应用。但它的缺点也很明显：
1）必须连续不断地投掷飞镖才能维持反馈，浪费大量飞镖。
2）如果目标在运动，落点误差会一直存在。

这是因为，相比一个完善的物理模型（100%模型预测），PID控制（100%误差驱动）刚好处在另一个极端：PID算法本身并不关心具体控制系统的物理模型细节，只关心输出与期望的误差，并通过输出误差计算相应的输入调整。

于是工程师们提出了二阶PID，前馈控制……大家向反馈控制中加入了越来越多针对系统物理模型的优化，以期得到优良的性能。

后来鲁道夫·卡尔曼（就是刚刚过世的那位）提出了卡尔曼滤波器，可以借助物理模型的已知细节，对输入数据进行修正与预测，并证明了其在一大类问题上的最优性。经过几十年的发展，卡尔曼滤波器已经形成了一个完备的家族。

但要用好卡尔曼滤波器并不容易，如果希望卡尔曼滤波器的效果好，仍然要对系统作非常细致的分析，包括误差从哪里来、各个输入与误差之间如何互相影响……以至于到最后，几乎每一类控制问题，都相应著有关于如何设计针对这类控制问题的卡尔曼滤波器的论文。最终工程师们又回到了起点：要实现完美的控制，仍然需要掌握系统的大量内部细节。

至此，机械手仍然无法像一个人类运动员那样，依靠“手感”投掷飞镖，或者依靠“手感”驾驶飞机。

那么机器学习又是怎样应付这个问题的呢？卖个关子，不然这篇文章就成了机器学习入门了。网上关于机器学习的入门资料很多，有兴趣的同学一定能找到的。

本文作者仅仅是业余研究ML。希望这个新建的板块，能够为同样热爱ML的同学提供一个纯净的交流空间。

[修改于 8年5个月前 - 2016/08/04 12:16:19]

来自：计算机科学 / 软件综合

全部只看作者

已屏蔽原因：{{ notice.reason }}已屏蔽

屏蔽解除屏蔽编辑详情

~~空空如也

hahaer

8年6个月前 IP:北京

822532

1楼

第一个来支持，希望这个新建板块展现出勃勃生机

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

acmilan

8年5个月前 IP:四川

822563

2楼

支持开版→_→

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

novakon

作者

8年5个月前 IP:四川

822565

3楼

引用 acmilan:
支持开版→_→

别顾着支持啊，要多发帖。。。

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

acmilan

8年5个月前修改于 8年5个月前 IP:四川

822639

4楼

一部分先行者可能即将或正在通过argumented intelligence重新掌握互联网主动权

非常值得高兴提到某B开头的公司，实际上在ML这个前沿领域不适合搞有色眼镜，各大小公司都是在竞争中向前探索的。

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

hackerboygn 万流景仰

8年5个月前 IP:湖北

824059

5楼

改版后不习惯好久没逛科创，悄然开了ML的专版。虽然才开不久，但是有好几篇含金量很重的原创帖子，收益匪浅。
自己一年多前为了凑单，顺便买了本《图解机器学习》打算科普一下，结果一翻，图解个毛啊完全看不懂。为了看懂不浪费，又继而买了一堆又一堆机器学习的入门书籍，还是不得要领，坑越跳越深。
机器学习虽然是计算机领域比较”古老“的学科，但限于理论与技术，近十几年才蓬勃发展得到了广泛应用。总体来说，机器学习是个多领域交叉的学科，不单单是计算机的事情，还需要其他诸多基础知识作为铺垫，什么10分钟入门写Hello World、21天精通……在这完全不适用。现在静下心来，慢慢补习一点线性代数概率统计等方面的知识，再回头看机器学习的书籍，才慢慢找到点感觉。
所以建议想在机器学习方面有所发展但还没起步的同学，打好基础很重要，不单单是数学理论，还包括理论后面的数学思维。

引用