原作者不明
脑的工作原理(简要介绍) 以下内容不代表脑的工作原理的全部解释,但是我以为其大体的的工作过程已经可以得以理解。
一、神经元 当生物进化出肌肉成为动物时,神经系统就伴随产生了。神经系统的功能实质是为了产生“适当的”作用于肌肉的运动控制信号,使动物产生运动行为,作用于环境,从而达到获得食物、避免危险的生存目的。 神经系统由一群特异化的细胞----神经元组成。这种细胞的特点是有两种长长的突起:树突和轴突。通常一个细胞的树突会有多个,轴突只有一个。神经元通过树突接受上一级神经元或各类感受器的电兴奋,通过轴突向下一级细胞或肌肉发出自身的电兴奋。上一级神经元的轴突和下一级神经元的树突的联系称为突触接触。一个神经元可以通过轴突作用于成千上万的神经元,也可以通过树突从成千上万的神经元接受信息。
图1 (原文件名:XXXXXXXXXXXXG) 神经元内部信号的产生、传导采用电信号的方式进行,而神经元之间、神经元与肌肉之间则通常采用化学递质方式进行传导,即上级神经元的轴突在有电信号传导时释放出化学递质,作用于下一级神经元的树突,树突受到递质作用后产生出电信号,从而实现了神经元间的信息传递。
化学递质有多种,一部分化学递质会使下一级神经元兴奋,而另一部分化学递质会使下一级神经元抑制,因而根据递质的不同,神经元间的传导可以是兴奋性作用,也可以是抑制性作用。通常对一个神经元来说,对外要么是兴奋性作用,要么是抑制性作用,只能是其中的一种,但同一神经元可以同时接受兴奋性、抑制性的输入。神经元本身可以有自发电活动,因此神经元的活动并不是完全依赖于输入的总和。
部分神经元之间的突触联系具有学习功能,这种学习功能是脑表现出适应行为的基础。其中最重要的一种学习机制如下图所示:
图2 (原文件名:XXXXXXXXXXXXG) 该神经元同时接受两种输入信号:刺激输入信号(条件刺激)和学习引导信号(非条件刺激)。学习引导信号(非条件刺激)与神经元的联系是已经存在、不可塑的,而刺激输入信号(条件刺激)与神经元的联系是可塑的,并且开始是微弱的。 学习规则是:当刺激输入信号出现的时候,如果同时学习引导信号存在,则刺激输入信号与神经元的突触联系增强。这种突触联系的增强就是“学习”。 利用这种机制,可以很简单的实现巴甫洛夫现象。铃声是一种条件刺激(刺激输入信号),食物是一种非条件刺激(学习引导信号),开始只有食物才能引起唾液分泌,经过学习后,铃声也可以引起唾液分泌。如下图所示。
图3 (原文件名:XXXXXXXXXXXXG) 可以利用这一机制实现“预测”。 虽然学习是发生刺激输入信号和学习引导信号同时出现的时刻,但是学习后,如果刺激输入信号先出现,就可以引发类似于学习引导信号产生的神经元反应, 就是说刺激输入信号“预测”了学习引导信号的出现。
二、脑结构: 1、总体框图脑的主要功能目的是为肌肉产生控制信号,产生运动行为。一个运动的发生过程应如下图。运动前状态是指运动发生前脑接受到的各种输入刺激的组合, 我们称为S1。运动发生后的脑接受到的各种输入刺激的组合为运动后状态。称为S2, 运动称为M
图4 (原文件名:XXXXXXXXXXXXG) 运动M作用于环境,得到了运动后状态S2, 因此运动后状态S2与运动M的相关性要远高于运动前状态S1与 M的相关性。我们为了让脑计算出所需要的运动控制信号M, 主要应当利用S2,而不是S1。根据这一特点,脑的工作原理的核心是从当前刺激输入S1预测出运动后状态S2, 然后从运动后状态 S2产生出运动控制信号M.。脑产生运动控制信号的大体框图如下:
图5 (原文件名:XXXXXXXXXXXXG) 2、运动控制信号的产生:脑结构在开始运行的时候并不知道某种情况下应该产生什么样的运动控制信号,才是对自己有利的运动。因此需要脑结构中引进了一个随机信号,它通过随机方式作用于运动计算模块,使脑产生出各种不同的探索性的运动,如幼儿做出的各种探索运动。所产生的探索运动大多是无效、不合理的。但是如果其中某个运动模式获得了运动结束信号(比如获得了奖励或遇到了疼痛、奖励、惩罚等), 运动结束信号会引起运动计算模块的神经元发生学习过程, 该学习过程的学习引导信号是随机信号产生的该运动模式,学习的刺激输入信号是运动停止那一刻的刺激输入信号(运动后状态)。学习的结果是今后如果我们获得了运动后状态, 就可以恢复出(或避免)产生该运动后状态的运动模式来。
图6 (原文件名:XXXXXXXXXXXXG) 图7 实现该机制的神经元原理图 (原文件名:XXXXXXXXXXXXG) 3、对奖励和惩罚的区别机制:如上所述,脑结构应该对获得奖励的运动今后倾向产生该运动模式, 对于得到惩罚的运动脑倾向于避免产生该运动模式。那么如何实现这一机制呢?运动计算模块的神经元被分为两种:D1神经元和D2神经元,我们假设当运动结束信号表现为奖励信号时,D1神经元发生学习, 当运动结束信号表现为惩罚信号时,D2神经元发生学习。D1、D2的输出作用完全相反,D1神经元直接作用于运动输出,而D2神经元通过一个反相器作用于运动输出, 就是说,当D2神经元兴奋时, 其作用反而是抑制该运动模式出现。通过这样的机制就能实现脑对受到奖励和受到惩罚的运动的区别。
图8 (原文件名:XXXXXXXXXXXXG) 4、运动后状态的预测:上面的机制说明了如果获得了运动后状态,则可以计算出得到该运动后状态所需要的运动控制模式。 但是运动发生前,脑只能得到运动前的各种刺激输入(运动前状态),不可能直接从外界获得运动后的刺激输入, 因此还需要另外一个机制: 从运动前状态计算出运动后状态的一个预测,这样我们才可以利用上述机制计算出相应的运动控制信号。
图9 (原文件名:XXXXXXXXXXXXG) 图10 (原文件名:XXXXXXXXXXXXXG) 该预测过程依然可以通过神经元的学习方式实现。, 将运动结束信号发生时的实际刺激输入作为学习引导信号(无条件刺激),运动前输入刺激作为(条件刺激),学习后,就可以实现我们需要的预测过程:从运动前状态产生出运动后状态的预测。由于运动前状态和运动后状态来自同样的刺激输入,哪些刺激属于运动前刺激输入,哪些刺激属于运动后刺激输入,哪些输入刺激应该被忽略,需要一个在运动结束信号控制下的选择开关,如图所示。
图11 (原文件名:XXXXXXXXXXXXXG) 三.与实际脑结构的对应:以上结构实际上恰好对应着脑的大部分结构和之间的主要联系。随机信号由脑的黑质致密部(SNc)发出。该信号的破坏将导致帕金森氏综合症,动物将呆滞不动,动作幅度过小, 而该信号的过强将导致精神分裂症,行为超出经验的约束。运动计算模块相当于脑的纹状体, 纹状体神经细胞根据对多巴胺的受体类型不同分为两类:D1,D2, SNc对这两类细胞有截然相反的作用:对D1兴奋,对D2抑制。这种不同的作用决定了它们不同的学习内容。两类细胞的输出也截然不同,D1细胞通过direct通路直接作用于Gpi(苍白球内段), D2细胞通过indirect通路(通过 Gpe\STH中转)作用于Gpi. 两个回路的作用截然相反。选择开关相当于丘脑,运动前状态到运动后的状态的预测过程相当于皮层。丘脑-皮层系统构成了运动前后状态的预测过程。运动结束信号相当于中脑网状结构发出的清醒激活信号。该信号通过板内核对纹状体和其他丘脑产生作用。该信号可以直接决定清醒和睡眠状态。
图12 (原文件名:XXXXXXXXXXXXXG) 以下是脑的大体外观。脑的主要结构是表层薄薄的一层皮层,在皮层下面有一对丘脑和一对纹状体/苍白球结构。
苍白球的外段称为Gpe, 苍白球内段称为Gpi. 板内核位于丘脑内,STH、SNc位于这些结构的下方。
图13 (原文件名:XXXXXXXXXXXXXg) 图14 (原文件名:XXXXXXXXXXXXXg)
200字以内,仅用于支线交流,主线讨论请采用回复功能。