科普：机器学习是什么，机器到底如何学习

文号t78349

7122

科普：机器学习是什么，机器到底如何学习

novakon2015/12/23软件综合 IP:广东

要想实现人工智能，必须要求机器能够学习。但是机器学习的理论实在太难懂了，大家都纷纷表示理解困难。然而，人工智能的发展是未来的必然趋势，所以在此科普，希望大家都跟上，不要落后。

机器学习的一种方式，叫做人工神经网络。我就讲讲这个神经网络。
有一只蚯蚓，它面前有一条路，路的左右两侧分别是两堵墙，一堵是黑色的，一堵是白色的。白色的墙带电，碰到就把蚯蚓电死了。
这只蚯蚓的皮肤表面，有两个光线传感器，一左一右。这种传感器，看到黑色，输出0，看到白色，输出1，看到灰色，输出0.5。我们把左传感器的输出称为SL，右传感器的输出称为SR。
这只蚯蚓脑子里面有两个可以修改的数字（变量），一个叫左神经元，一个叫右神经元，分别称为GL和GR，取值范围是-1到+1之间。
这只蚯蚓在前进的过程中，可以向左偏或者向右偏，我们把这个称为蚯蚓的决定，称为D。决定的取值范围是-1到+1，代表从左到右，取值为0就表示走中间。
我们现在定义：D = SL * GL + SR * GR
上式表示蚯蚓的决定，是通过将光线传感器的输出，分别乘以一个神经元变量，再加到一起得到的。
假设GL = -1，GR = +1，当SL = 1、SR = 0（左边的墙白色，右边的墙黑色）的时候，D = -1，表示往左走。显然，蚯蚓就电死了。

假设GL = +1，GR = -1, 当SL = 1、SR = 0（左边的墙白色，右边的墙黑色）的时候，D= 1，表示往右走。蚯蚓就活了下来。
假设GL = +1，GR = -1, 当SL = 0、SR = 1（左边的墙黑色，右边的墙白色）的时候，D= -1，表示往左走。虽然调换了墙壁的亮度，但蚯蚓还是活了下来。
而且通过代入不同的亮度值我们还发现，即便某一边的墙不是白色，但只要该边的墙比另一边的墙亮度更高，蚯蚓依然会偏向另一边走，以增大存活几率。说明我们这个神经网络还有普遍适应性，就算传感器上有灰尘也能正常工作。

综上所述，通过合理设定GL和GR的值，我们就可以让一个有两个神经元的神经网络，通过简单的四则运算，让一条机器蚯蚓获得了自动避开白色墙壁的能力。讲到这里，有的人问，这个值是你设定的，不是蚯蚓自己学习的呀！说的没错，有的复杂的系统，神经元可能有数十万个，连接错综复杂，运算规则也可能各不相同，如果我不使用机器学习的方法，仅靠手动指定根本没办法确定每个神经元的取值。
下面我就来演示一种最简单的学习方法。
我制造了1000条蚯蚓，每条蚯蚓的GL和GR都是从-1到+1之间的一个随机数。然后我把这些蚯蚓，放到两个墙壁之间，让他们自己去走，最后肯定有一些蚯蚓电死了，有一些蚯蚓活下来；有一些蚯蚓迅速，有一些蚯蚓迟钝。我就把那些迅速冲向一边、而且没被电死的蚯蚓，全抓出来，统计之后发现他们的神经元取值，都非常靠近(GL = +1, GR = -1)。这样一来我就可以决定GL和GR的值了。这就是机器学习：GL和GR的取值是待解决的问题，1000条蚯蚓和他们的最终结局是训练样例，带电的白墙是用来产生训练样例的现实过程。其中的魅力在于：我并不需要知道白墙和黑墙到底哪个带电，一样可以训练出自动求生的蚯蚓！换言之，机器学习是通过经验积累，而不是逻辑判断的方式来解决问题。通过重复的操作实现经验的积累，其实就是学习的本质；人工智能是这样，人脑其实也是这样的。如果我们能模拟人脑那么多的神经元，并且将一个人几十年的生活经验作为训练样例，我们就能够获得一颗具有人类智慧的大脑。

来自：计算机科学 / 软件综合

已屏蔽原因：{{ notice.reason }}已屏蔽

屏蔽解除屏蔽编辑详情

~~空空如也

novakon

作者

9年0个月前 IP:广东

801777

1楼

讲完这么多，聪明的同学已经看出让人工智能靠近人脑所面临的几大问题了。
1. 用计算机模拟10亿个神经元的活动非常困难。（训练困难）
2. 没有办法把一个人几十年的生活过程记录下来用做训练样例；即便记录下来，产生的人工智能也仅仅具有这个人的思考能力而已。（优质样例获取困难）

实际上，人类今天所具有的各种求生本能，以及高级思考能力，是数十万年来靠无数代的变异和自然选择淘汰得到的。这个过程很像机器蚯蚓的训练过程：不合格的蚯蚓只有死路一条，留下的自然是合格的。这意味着具有人类思考能力的人工智能，离我们还比较遥远。不过幸运的是，在人工智能的应用过程中，往往并不需要人类的所有本能和所有思考能力，而往往只需要人类的非常小的某一部分神经所实现的能力（例如图像辨识和语言组织能力）。也就是说，实用的人工智能，其能力介于传统计算机和人类之间：既可以像人类那样通过经验解决一些规则和原理不明确的问题，同时又具有计算机的速度和准确度优势。在未来的十五到三十年，这样的人工智能会取代大量的知识性、经验性但非创造性的工作，比如代替网友去淘宝刷好评，比如代替公安翻看视频监控（这个已经实现了，现在可以自动识别套牌），比如代替作者和读者交流文学作品（韩寒很需要）。

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

20！Dopaminor 千古风流

9年0个月前 IP:广东

801790

2楼

神经结构影响思考效率，还有一些取巧的设计影响某些高级条件反射吧

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

novakon

作者

9年0个月前 IP:广东

801805

3楼

提高神经网络的能力，可以分解成提高速度和提高容量。提高速度可以通过硬件性能上的提升、算法的优化实现；容量则分为两个方面，一个是承载神经网络的系统的容量（内存大小），一个是对网络进行训练的样本容量。没有足够的样本，难以得到好的训练结果（一如没有足够的蚯蚓，难以积累求生的经验）。当适用于机器学习的软硬件平台成熟普及之后，数据就成了追逐的对象，因为人工智能源于数据。请阅读下一篇“再论职业的未来” XXXXXXXXXXXXXXXXXXXXXXXX/t/78339

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

acmilan

9年0个月前修改于 9年0个月前 IP:四川

803122

4楼

。。。

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

随天

9年0个月前 IP:广东

803577

5楼

顶楼主，蚯蚓的比例很适合

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

hackerboygn 万流景仰

9年0个月前 IP:湖北

803679

6楼

我一直以为机器学习就是一系列曲线拟合的机器实现，感谢楼主科普

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

acmilan

9年0个月前 IP:四川

803856

7楼

这或许应该被称为数据自动建模算法，即通过大量数据的训练自动建立反射模型。

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

华蓥

8年11个月前 IP:广东

804660

8楼

引用 hackerboygn:
我一直以为机器学习就是一系列曲线拟合的机器实现，感谢楼主科普

我觉得你可能是给一篇文章害了

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

当前账号的附件下载数量限制如下：

请选择违规类型：

空空如也