[原创][首发]基于形象和3维识别建模与空间想象能力的AI认识方法讨论1

14年1个月前 IP:未同步

操作

发表于《[原创][首发]基于形象和3维识别建模与空间想象能力的AI认识方法讨论1》

[原创][首发]基于形象和3维识别建模与空间想象能力的AI认识讨论2

人不光是靠两只眼睛完成“空间感”的，用一只眼睛从不同角度也可以，甚至不用眼睛而用其他感观也可以。一定要结合触觉和行动对环境的认知，视觉只是与之配合的一种手段。没眼睛一样有空间感。很多盲人比我们定位更准确。
三维环境不用预定义，但至少三维“空间”还是要定义的。如果所谓的强AI中没有空间的概念，没有虚拟的“想象”空间，甚至不会运动，那么，它连最基本的“前，后，左，右”都无法理解。现在在你面前，你认为你看到了空间还是图片？大脑有空间想象力。怎么定义“前”、“后”，与你的空间想象有关，也与你实际的运动经验有关。
我们怎么定义苹果？只是文字描述吗？建立在符号逻辑中的AI没有现实意义。人脑处理的本来就不是符号信息，建立在符号逻辑中的AI没有现实意义。人是靠形象思维的，而概念是对形象思维的抽象。离开了前提直接讨论抽像的符号，能真正“理解”吗？
你心里的苹果是什么？你所“想象”的AI又该怎么认为“苹果”？圆的，红的或绿的，能吃？它会吃么？它知道什么才是圆的？是圆圈还是圆球？无论强AI还是机器认知，想模仿人的话，先从形象思维开始，先从构建3D空间开始。抽象的概念等有了观察的“感性认识”才有意义。
人最先学会的基本都是名词，都是观察的事物和接触到的事物，而且是与自己相关的。第一个动词是“不要”，而后是各种与“名词”表示的具体事物相关的动词。会说“我”这样的代词已经是四五岁以后的事了，这时候才有了自我意识。没有观察，没有形象认知到概念抽象的过程，没有事物与自身关系的感觉，怎么能形成“人类”的意识。
在行动，和认识的经验前提下，三维“感”（也包括立体感），可以从二维图像得到。设想一下，如果从没运动地接触或观察（从多角度接触或观察）过任何事物，那么给你一个单一角度的照片，或只让你从一个角度去看事物及环境能否行成“三维”概念？我认为不能。因为三维是从多角度观察，以及自身的运动与环境的关系，得出的感性体验与认识，你看到事物知道是三维，因为你有过这样的经验。
人类从儿童时期起就是在不断的运动中感知和观察事物。从咬、拿、踩、踢、看、撞等引起的交互感知中来认识环境。这与视觉（或没眼睛靠其他方式）得出的“观察”相结合，产生出“空间感”。
描述一件事物，3维够吗？颜色、温度、硬度、味道、用途、类别，每种你能“类别化”的属性。都可以算作一个维度。从这个意义上讲是无限维。而“三维”只是我们描述空间形态与位置关系的基本手段，远不足以描述“识知”的事物。
脱离形象思维单纯谈认知，至少不符合人类的智能模式，这是关系到实用与实现的问题。AI不一定非照搬人类的模式，但这是最实用的模式。如果只是靠符号描述和数据库来实现“强”AI，不如去实现基于事务处理、形象认知、行为模式群的“弱”AI。
学习能力肯定具备，而学习积累到一定“量”级的时候自然会有“自学习”这样一个“学习能力”。人类的学习不象机器，人类是基于观察和经验的。我们看过的小说一个也背不下来。我们人类把记忆最后都理解为行为模式了，包括对某类问题或事物的处理。人的思维不是基于数据量的，AI也不需要数据库。
如果人是由电路构成的。如果人象机器一样存储，那么我给人做个假想——人的学习过程，同时保存了程序、数据、和处理这些数据所需要的电路结构（包括“处理机”、与其他单元间的“调用”和“联系”等），这种学习完成后，就相当于在大大脑里建立了一个专门处理某事务的小“大脑”，以后有同类处理工作，会直接激活这个小大脑与大大脑并行处理。比如打字。这其实也符合现在流行的神经元和神经网络模型。
试着回忆一下从前学过的英语课文，看记住了多少？人脑是非常节省资源的，不会拿脑细胞来记没用的东西。即使是熟知的事物。试试凭印象画出妈妈的脸，看能画出多少细节？能不能和她的照片对应或至少看上去象她？我们到底记住了多少细节？
再比如网络聊天，你观察我打字，你一次同时看到几个字？闭上眼睛，回忆你一直在看的QQ窗口，工具栏上有什么？再想想群友们的名字，刚刚跟你聊天的都有谁？我们记不住。因为不关心。大脑非常节约，你的眼睛，同一时刻也就看到了两三个文字的地方，其他的都是在扫视的过程中形成的联系。我们的眼睛从不一次观察完整幅图像，我们都是“环顾四周”，找出重要的并迅速建立空间模型，包括你与空间和事物的关系。因为人是形象感知的生物，我们处理图形的能力远远超过文字和符号，我们每个人都有自己的空间模型，只不过你可能意识不到。但是你闭上眼，仍然知道周围的大概环境，比如障碍物的大概位置，晚上回家，即使没开灯，也能摸上楼梯，打开家门，打开电灯。这就是空间感。
因此，可以得出这样的猜想：空间模型一定是有的，这是重要的基本的能力之一。它可能是后天形成的，但没形成这种能力之前，也同样没有自主的行为能力。
从实现角度说，如果只是基于运动，观察，和感知，来形成三维映象，基于现在的技术能做的有——1，从两只摄像头的平面图像，拟合出3维物体；2，建立交互式3D引擎，完成对空间的虚拟构建与运动仿真；3，在这个前提下，对观察到的事物，建模，定义，并完成交互运动控制。
我是想把这个过程作为抽象概念认知，甚至整个认知过程的一个前提条件，但并不绝对。声音也差不多，声音可以与具体事物相联系的，和颜色一样，可作为对认知到的事物的一个属性，比如鸟与鸟叫。
而且，不要求一次性建立完备的概念模型。人对一个事物的认识也是渐进的，随着观察的深入，不断修正和补充。但最后记住的不是全部信息，而是关键的、特征的、曾经关注的或经常发生交互的信息。
比如键盘，你一直在用，很熟。试着靠回忆画一下，肯定画不出多少细节，更不用说有几个螺丝这样的特殊性质。因为我们只需要记住它的布局，用法，而其他的，并没有过多关注。
从任何一个单一角度观察，可以形成一个侧面的3维映象与已有经验数据做匹配，得出大概的认识重现（识别），然后随着与其交互的过程，关注更多的方面，完善基础认识。
进一步来说，强调形成三维的认识模型，而不是二维的图像模型，因为事务本身的形态就是三维的。二维的映像可以看作是对三维具像的一个抽像和模拟，并不全面。应该关注实现与实用而不是纯理论和符号系统的AI。如果完成了视觉“观察”并建模，则那么很容易把它概念化。反之，同样一只苹果，完全用文字或符号描述，几乎不可能让AI真正认识它。对人类来说，这个信息的最重要来源是形象认识。
虚拟空间不断动态完成对现实空间的映射，它可以实现运动决策和仿真。比如在没做出“拿”这个动作之前，可以在虚拟空间中“想象”或说“仿真”拿的过程，然后决定怎么拿。只要是在三维空间中能仿真，并且自由度和规则允许的运动，都可以进行实行。
对于3维模型的存储和描述已经有成熟的技术，其他的能力会用更多的处理机制来配合完成，已经有了机制的，可以学习新的认知和方法。不应该把大脑想象成单一形式的生物细织，它有内部有细至的分化，处理每一类事物的组织，都分化成了不同的形式。所以，想以一个基础模型完成整个大脑模拟，是不客观也不现实的。人的很多项“功能”都是后天学习实践中形成的，我们可以找出其中重要的部分模拟它，或只是模仿它。