转: Yann LeCun 主页上关于 Hinton 的段子

文号823914

21795

Cirno2016/08/03软件综合 IP:美国

原文
初稿译者：@龙星镖局

友情指导：@winsty，@妖僧老馮， @jarszm，@潘布衣

郑重声明：本文素材是Yann LeCun 收集整理，英文链接。虽然是简单的翻译，但本文没有机器学习领域的深厚知识是领会不到精髓的。由于知识水平和美国文化理解不够，文中仍有多处自觉没有真正体会LeCun的幽默。欢迎大家能继续批评指正。译文中若有不当之处，是译者水平有限所致，跟指导者没有任何关系。

第0条

Radford Neal：我不觉得贝叶斯是解决所有问题的最好方法。Geoff Hinton：我完全听不到你在胡扯什么，因为我对你说这句话的先验为0.

Radford Neal: I don't necessarily think that the Bayesian method is the best thing to do in all cases... Geoff Hinton: Sorry Radford, my prior probability for you saying this is zero, so I couldn't hear what you said.

备注：先验是贝叶斯理论的一个关键环节，判读一个事情是否成立的后验概率等于似然（类条件概率）乘以先验。由于Hinton说先验为0，所以就等于说Neal说的东西基本就是胡扯了。另外一种可能，Hinton对贝叶斯这一套似乎一直也有点不太满意，Neal忽然说贝叶斯没那么好，他可能很惊讶这种论调，终于有人能和他一样见解了。

第1条

Hinton不需要隐藏单元，因为当他靠近时隐藏单元会自己藏起来。

Geoff Hinton doesn't need to make hidden units. They hide by themselves when he approaches.

备注：隐藏层是深层神经网络的中间层，起到学习feature的关键作用。这里暗指Hinton玩转了深度学习，不需要隐藏层就能起到数据变换的效果。[潘布衣]将approaches直译出来会更生动，会显得更神奇。

第2条

Hinton不是不同意你，只是跟你稍有差异。

Geoff Hinton doesn't disagree with you, he contrastively diverges (from Vincent Vanhoucke)

备注：contrastively diverges缩写为CD，中文翻译为“对比散度”。［妖僧老馮］contrastively diverges 是图模型中的一种对梯度的逼近方法，深度学习中仅在RBM／DBN这类中有用到，由于目前RBM／DBN已经不大用了所以。。。［龙星镖局］也可理解为“暗指很少同意人”？

第3条

深度信念网络确实对Hinton深信不疑。

Deep Belief Nets actually believe deeply in Geoff Hinton.

备注：Deep Belief Nets是深度学习里的一类算法统称，这里算法相信人，暗指Hinton在深度学习领域的超级影响力。一个形象的比喻：中国人爱说有钱能使鬼推磨，有时为了强调钱的作用，还可以说有钱能使磨推鬼。这里就是强调Hinton之于深度学习的作用。

第4条

Hinton发现了人脑是如何工作的。哦，确切地讲，是过去25年来每年都会发现一次。

Geoff Hinton discovered how the brain really works. Once a year for the last 25 years.

备注：学界经常拿人脑工作机制来解释深度学习是如何work的，这也是Hinton说自己研究的东西牛逼的主要例证，但人脑机制一直是悬而未决的研究课题，此处略有嘲讽他乱扯人脑的意思。

第5条

马尔可夫随机场确信Hinton是难缠的。

Markov random fields think Geoff Hinton is intractable.

备注：马尔可夫随机场做精确推断已被证明是#P问题，比NP问题还要难的一类。此处暗指Hinton也是个难缠的家伙。

第6条

如果你胆敢挑战Hinton，他分分钟就能把你的熵最大化。你的自由能甚至在你到达平衡前就会消失。

If you defy Geoff Hinton, he will maximize your entropy in no time. Your free energy will be gone even before you reach equilibrium.

备注：最大熵原理简单来说各种情形都有可能发生，此处表示让人怀疑自己所确信的。自由能和能量平衡则是RBM（受限波尔滋曼机）的基本概念。这句话暗指Hinton这个大权威被你挑战时，会给你点color see see。

第7条

Hinton能让你的肠子悔青。

Geoff Hinton can make you regret without bounds.

备注：bound是机器学习研究中理论分析算法work的重要参考指标，在英语里有“边界/边疆”的意思。without bounds有点“Hinton说啥就是啥，根本不需要证明”的意思。

第8条

Hinton能让你轻松减肥（是你的体重，遗憾的是不是我的）。

Geoff Hinton can make your weight decay (your weight, but unfortunately not mine).

备注：weight decay是机器学习里一个重要概念，是正则项/dropout等有效的工作原理，在英语里则有减肥的意思。括号里则是Yann LeCun自嘲的话，因为他自己很早就是一个大胖子了，据说一直想减肥但一直未成功。

第9条

Hinton不需要支持向量，因为他可以用小拇指撑起高维超平面。

Geoff Hinton doesn't need support vectors. He can support high-dimensional hyperplanes with his pinky finger.

备注：支持向量是SVM（支持向量机）分界面上的样本点，也可以认为是SVM划分分类面的决定因素。此处有Hinton对SVM不屑一顾的意思。

第10条

可能有人还不知道Hinton接触贝叶斯派时内心其实是认为他们是有罪的。

A little-known fact about Geoff Hinton: he frequents Bayesians with prior convictions (with thanks to David Schwab).

备注：[winsty] 这里可能暗指统计学里的frequenist 和 bayesian学派。这里的意思应该是说通过prior conviction将贝叶斯频率化派，往往prior是soft的，这里用conviction这个词感觉是说只相信prior不管likelihood。［妖僧老馮］这里的frequents的双关意思是接近（动词）。hinton不大信贝叶斯这套玩意，所以这句话的双关的意思是hinton接近这帮贝叶斯学者的时候内心已经认为他们有罪。

第11条

所有敢接近Hinton的核函数醒来时都会很纠结。

All kernels that ever dared approaching Geoff Hinton woke up convolved.

备注：核函数是支持向量机处理非线性的重要手段，支持向量机和深度学习长期两派，相互打压。convolved在深度学习里是卷积，大众使用时也有点沮丧/纠结的意思。

第12条

大多数农场通常都会被美丽的原野环绕。Hinton的农场则是在一个超级大平原上，被一个破旧的农田围绕着，谷仓里还堆满了谷子粒。

Most farmhouses are surrounded by nice fields. Geoff Hinton's farmhouse lies in a hyper-plain, surrounded by a mean field, and has kernels in la grange.

备注：此句有多处双关，hyper-plain, mean field, kernels, lagrange都是机器学习里的概念，同时又分别对应英语里的“平原”，“破旧的农田”，“谷粒”，而La grange对应法语里的“谷仓”。[winsty] 应该是说Lagrangian form的SVM可以推导出kernel trick。[Jarszm] kernel双关谷粒，还用了一个法语梗，把Lagrange拆成la grange是法语里“那个谷仓”的意思

第13条

Hinton用过的唯一的一个kernel就是事实本身。

The only kernel Geoff Hinton has ever used is a kernel of truth.

备注：kernel of truth, 英语解释为A singular element of truth，大致相当于中文里的“真理”。

第14条

一碰到Hinton，支持向量就精神失常了，并且最佳分割面也不灵光了。

After an encounter with Geoff Hinton, support vectors become unhinged and suffer optimal hyper-pain (with thanks to Andrew Jamieson).

备注：一般认为经典的SVM使用的是hinge loss，而unhinged对应英语里精神失常。此处有用到了SVM和神经网络的恩恩怨怨作梗，又黑了一把SVM。

第15条

Hinton举一反三的能力是无边无际的。

Geoff Hinton's generalizations are boundless.

备注：generalization是机器学习评估模型在新样本上的表现(泛化能力)的重要指标，在英语里则可对应中文里“举一反三”的泛化能力。而bound则是机器学习中理论上分析算法work的重要概念，在英语里则对应无边际的意思。这句有点在说Hinton老爷子也很扯的意思。

第16条

Hinton直接跳到第三代贝叶斯了。

Geoff Hinton goes directly to third Bayes.

备注：贝叶斯领域一直有人在研究，但Hinton对贝叶斯不太感冒，这里说Hinton直接用第三代了，在黑bayes的同时，也暗指Hinton已经成精了。

第17条

永远不要打断Hinton讲话，否则你只能默默承受讨价还价带给老爷子的愤怒了。

Never interrupt one of Geoff Hinton's talks: you will suffer his wrath if you maximize the bargin。

备注：maximize the bargin 是暗指SVM的最大间隔么？在英语里则是讨价还价的意思。这句话又用到了SVM和神经网络的梗，大概就是说少在老爷子面前提SVM，要不然愤怒给你看。

特别声明：感谢微博上所有好友的建议和评论，收益很多。

[修改于 8年11个月前 - 2016/08/03 03:01:42]

来自：计算机科学 / 软件综合

全部只看作者

~~空空如也

Cirno

作者

8年11个月前 IP:美国

823915

1楼

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

randomized 百炼成钢

8年11个月前 IP:广东

823918

2楼

引用琪露诺:

嗯，好像最深152层，但说实话，这效果提升不是很大（尤其56和10比较）：

实线测试误差，虚线训练误差;[1]
这模型还是要改进，长时间的收益不大。
[1]:

Deep Residual Learning for Image Recognition.pdf 800.18KB PDF 82次下载预览

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

Cirno

作者

8年11个月前修改于 8年11个月前 IP:美国

823922

4楼

引用 1160599678:
嗯，好像最深152层，但说实话，这效果提升不是很大（尤其56和10比较）：

实线测试误差，虚线训练误差;[1]
这模型还是要改进，长时间的收益不大。
[1]:
#{r=2681……

。。。。
我po的图，左一googleNet，左二VGG，右边的是何凯明的ResNet，你截过来的图表是ResNet内部的横向比较，是怎么得出这些个结论的。
你稍微读一下这篇转过来的paper，就会看到“On the ImageNet dataset we evaluate residual nets with a depth of up to 152 layers---8x deeper than VGG nets but still having lower complexity”，重点是人家提出了一个新的架构来确保用这种丧心病狂的层数时不至于优化不出来。

（深度学习发展到现在这个阶段，这样一个新架构能够把error rate直接降低将近一半已经是相当了不起的壮举了，其中道路的艰难远非“这模型还是要改进，长时间的收益不大”所能描述的。）

最后即使是ResNet自身的比较，对于ImageNet这样一个challenge性质的竞争活动，error rate在小数点后一位上的改变，已经可以决定名次排位了，所以并不是“这效果提升不是很大”：

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

randomized 百炼成钢

8年11个月前修改于 8年11个月前 IP:广东

823924

5楼

引用琪露诺:
。。。。
我po的图，左一googleNet，左二VGG，右边的是何凯明的ResNet，你截过来的图表是ResNet内部的横向比较，是怎么得出这些个结论的。
你稍微读一下这篇转过来的paper，就会看……

嗯，http://rodrigob.github.io/are_we_there_yet/build/classification_datasets_results.html#43494641522d3130
层级深不代表成绩好，而且速度还很慢，没有绝对优势。

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

Cirno

作者

8年11个月前修改于 8年11个月前 IP:美国

823925

6楼

[quote=1160599678,823924]嗯，[url]http://rodrigob.github.io/are_we_there_yet/build/classification_datasets_results.html#4349464……[/quote]"
层级深=成绩好" ——并不存在这样一个观点
“而且速度还很慢”——That's how people descrbe DNN before we have strong GPUs

引用