这篇论文开发的AI模型,P蛇模型,训练学习绘制一张小型四旋翼无人机的结构;训练完毕之后让AI学习绘制六旋翼无人机的结构(因为版权的原因,很多工业产品的设计图纸被封存,所以AI只能获取两个样本。)图片当中展示的“绘制出一半轮廓”已经是极小规模数据的支撑的上限了。可惜行业内没有开源的GB级别的工业产品设计图纸数据集。如果有的话AI的学习效果可以更为强大,也能设计出更符合要求的工业产品(无人机)结构。论文训练的模型和代码会在这里开源。
(arxiv对本文拒绝刊登,因为本文没有标注训练样本的版权来源)
摘要:本文提出的P蛇模型(Python Model,PM)基于改进后的Transformer算法开发,其设计理念源于对于无人机结构设计问题的深入理解和研究。在通用条件下,具备一定智能水平的模型能够在没有人工干预的情况下进行精确的结构设计和优化。然而,现有的用于生成二维图片和三维图片的扩散算法(Diffusion Algorithm,DA)模型往往存在一些问题,如训练数据量庞大、计算成本高等,这些问题制约了模型设计实体结构的准确率和效率。因此,P蛇模型旨在提出一种新的算法框架,能够解决扩散算法模型设计实体结构的缺陷,探索工业产品设计自动化的可能。
关键词:强化学习思想,大模型,无人机结构,自动设计
1 算法设计背景
1.1 强化学习思想与Transformer算法融合
2022年,基于Transformer算法开发的人工智能模型——GPT3.5以及配套的聊天AI程序“ChatGPT”在自然语言理解领域取得了巨大的成功,GPT3.5模型通过堆积大规模的神经网络以及使用海量的互联网文本数据最终实现了稳定地人机对话功能。当下(2024年)基于Transformer算法开发的大语言模型有两类,按是否具有前后文本相关性可以分为以BERT模型为代表的一类,和以GPT系列模型为代表的另一类,这两类分别采用了不同的技术路线——前者强调前后文本相关性,而后者则更专注于生成连贯的文本。但目前行业内少有融合强化学习思想的大模型。本文研究的目标,便是将强化学习思想与Transformer算法融合,提出自己开发的算法框架——蟒蛇DPG算法(Python-DPG Algorithm,PDPGA),借鉴强化学习中的策略性梯度下降思想从而引导智能体在有监督的情况下完成学习。
此前,来自美国西北大学的开发团队1使用了欧拉-拉格朗日方程建立了机器人三维实体的数学模型,并通过操纵粒子群算法完成梯度下降开发了AI模型用于设计机器人的三维实体结构。我们基于蟒蛇DPG算法开发的P蛇模型,将强化学习的核心思想与类Transformer模型的结构相结合,通过对模型的训练策略进行优化,以实现有效的三维结构生成。这一融合将使得模型能够更好地理解三维实体结构,更准确地寻找结构与结构之间的共性,并在自动化设计等任务中表现出强大的适应性和降低部署成本。这一研究成果有望推动机器学习领域的发展,为自动化设计技术的进步开辟新的方向。
1.2 奖励机制推导
强化学习是机器学习的一个子领域,近年来在控制和优化等任务中展现出了无可比拟的优越性。其核心在于智能体与环境的互动,通过与环境的交互获取反馈来实现学习目标2。在这个过程中,智能体的行为会受到环境的奖励或惩罚,奖励作为正向激励促使智能体接近目标,而惩罚则作为负向抑制使智能体远离目标。通过不断地训练和交互,智能体能够逐渐完成既定的学习目标,这使得强化学习具有了“自发性”的特点。
强化学习的奖励和惩罚机制借鉴了生物学进化论中的“物竞天择、适者生存”的观点3。在这个过程中,环境对智能体的行为进行“选择”,促使智能体逐步适应目标,从而具备了“自适应性”的特点。本文涉及的模型的强化学习过程本质上是一个马尔可夫决策过程,旨在充分发挥强化学习的自发性和自适应性的优势。
为了更好地利用强化学习的特性,本文借鉴了DDPG算法来建立合适的奖励机制。这种算法结合了深度学习和强化学习的优势,能够有效地处理连续动作空间和高维状态空间下的问题4。通过合适的奖励机制,模型能够更加准确地评估行为的好坏,并在训练过程中不断调整策略以达到最优解。这种方法有望为解决复杂任务提供更加有效的解决方案,并推动强化学习在各个领域的应用和发展。
本文假设模型训练集共有N个样本,对任意i∈[1,N],有训练输入xi和训练标签yi;优选地,模型基于Transformer算法会定义名为“Actor”的编码器模块和名为“Critic”的解码器模块;那么,行动向量可以表示为:
action=Actor(x_i)
奖励函数可以定义为:
R_i=sigmoid(x_i)
具体地,sigmoid函数常被用作人工神经网络的激活函数,可以将自变量映射到[0,1]区间;自身可微,匹配梯度下降的特点。函数形式具体如下5:
R_i=1/(1+e^(-x_i))
进一步地,训练输出可以定义为:
output=R_i+γ*Critic(x_i,action)
式中,gamma为智能体的奖励系数。
得到训练输出之后,模型便可以计算损失值并迭代损失函数,以便预训练出最优的权重和偏置组合;解码器损失函数可以定义为:
L=1/N ∑_1^N(output-y_i )^2
式中定义的损失函数为典型的均方误差函数。
对于DDPG算法来讲,算法通过优化Q值函数来让智能体学习最优的策略。具体来说,算法会通过搭建深度神经网络来逼近Q值函数。Q值函数的优化过程主要包括两个步骤:样本收集和参数更新。前者通过智能体与环境的交互,收集智能体在每一时刻的状态-动作-奖励-下一状态的样本数据。这些样本数据用于训练Q值函数的Critic网络。后者利用收集到的样本数据,通过最小化Q值函数的损失函数来更新Critic网络的参数。损失函数通常是Q值的均方误差函数,衡量网络预测的Q值与真实值之间的差距。更新参数的过程使用梯度下降的方法,通过反向传播的方法来更新梯度。智能体会通过训练学习到最优的策略。因此,DDPG算法能够适用于连续动作空间和高维状态空间的任务场景,并取得良好的性能表现6。考虑到我们开发的蟒蛇DPG算法借鉴了强化学习思想,因此模型的输出向量可以等效为实时Q向量,模型的训练标签可以等效为目标Q向量。模型在训练过程中会通过迭代解码器模块的损失函数来取得整体最优的输出结果。
为了有效地评价模型训练效果的好坏7,本文定义准确率指标:
acc=1-sigma(L)/N
机器学习领域中,模型为了优化评价指标需要具体区分准确率、精确率与召回率;本文为了简化开发流程,不再额外定义精确率指标和召回率指标。后续的改进工作可以尝试同时使用这三类指标评价模型。
1.3 蟒蛇DPG算法的流程和结构说明
本文改进了Transformer算法的框架,提出了蟒蛇DPG算法。算法整体的流程如图1.由图1可知,算法参考Transformer算法定义了编码器模块和解码器模块8。具体地,编码器模块和解码器模块分别嵌套了多层神经网络。Transformer算法通过嵌套多层神经网络,能够实现相较于单一神经网络而言更为强大的预测效果,基于Transformer算法的AI模型也就因此被称为“大模型”。Transformer算法的核心思想是通过自注意力机制(Self-Attention Mechanism,SAM)来捕捉序列中不同位置之间的关系,从而优化输入与网络之间的关联。具体地,自注意力机制允许模型在处理每个位置时都考虑到序列中其他位置的信息,这使得模型能够捕捉到全局的语义关联,而不仅仅是局部的上下文。这一特点决定了Transformer算法有能力处理任意长度的输入向量,不受向量长度的限制,适用于在硬件上展开并行计算和推理。而我们提出的蟒蛇DPG算法不再考虑自注意力机制的问题,利用强化学习的Actor网络搭建编码器模块,利用强化学习的Critic网络搭建解码器模块。对于DDPG算法而言,确定性策略梯度(Deterministic Policy Gradient,DPG)是算法的核心思想9。具体地,算法的环境是连续动作空间。Actor网络是算法的策略网络,用于智能体学习近似最优策略,输出是动作向量。Actor网络的目标是直接学习将给定状态映射到对应的动作的函数,这种确定性策略对于连续动作空间问题来说更加适用。Critic网络是算法的值函数网络,用于环境评估Actor网络输出动作的好坏。输出是输出向量。在无监督学习的情况下,Critic网络一般会定义贝尔曼方程来迭代神经网络,网络的目标便是实现最优的状态动作值函数(State-Action Value Function),即最优化Q函数10。对于本文来讲,本文开发的模型仍然是有监督学习模型,因此模型会将训练标签作为目标Q函数,将训练输出作为实时Q函数,网络的目标便是在智能体获得奖励的基础上实现最优的实时Q函数。
2 实验过程与结果分析
2.1 数据预处理
本文研究的对象是小型无人机的设计图纸。为了能够让AI模型学习设计无人机的结构,就必须事先预处理设计图纸数据。工业设计领域内无人机的图纸文件一般为SLDPRT格式,兼容Solidworks设计软件。在实际的生产过程中,无人机的设计图纸作为个人和企业的知识产权,受到版权制度的保护,行业内几乎没有开源的工业产品图纸数据集,因此本文获取训练数据的成本较高。具体地,本文只选取一份小型四旋翼无人机的整体设计图作为AI模型的训练集,选取一份小型六旋翼无人机的整体设计图作为AI模型的测试集。这样操作的劣势是极为明显的,训练数据规模极小,AI模型难以取得最佳的泛化性能。而且训练集和测试集涉及的对象差别较大,AI模型最后生成的效果无法调整和优化。为了解决上述缺陷,模型会通过增加训练回合数和神经网络规模以便增强泛化性。至于从本质上解决缺陷,只能有待后续开发工作的改进和完善。
图2:训练集涉及的小型四旋翼无人机前视图
在得到小型无人机设计图纸的SLDPRT文件之后,需要使用转换器程序将文件格式转换为STEP文件,并提取文件的点云坐标。特别地,四旋翼无人机被圆形框架包围11:
图3:训练集涉及的小型四旋翼无人机仰视图
程序在提取STEP文件的点云坐标之后,会将坐标转换为N行3列的矩阵,作为AI模型的训练输入。
2.2 实验运行环境
考虑到本文开发的P蛇模型使用的训练数据集规模极小,因此本文不再搭建包含GPU的硬件环境来训练模型,具体的环境配置如表1:
环境名称 | 配置情况 |
软件环境 | Anaconda;PyTorch1.7.1;PyThon3.8.3; |
硬件环境 | CPU:8核英特尔Gold-6130; |
存储环境 | 内存15GB; |
表1:训练环境说明
利用CPU完成模型的训练和推理能够有效降低AI计算和部署的电力成本,但耗时长、泛化性能差。后续针对P蛇模型的改进工作应该侧重于增加数据集规模以及适当增加硬件算力以便取得更优的生成效果。模型的超参数设置如表2:
超参数名称 | 超参数取值 |
NUM_LAYERS | 12 |
BATCH_SIZE | 64 |
GAMMA | 0.99 |
CAPACITY | 10000 |
TARGET_UPDATE | 10 |
num_epochs | 30000 |
表2:P蛇模型的超参数设置
2.3 结果分析
按上述步骤完成代码的编写和环境的搭建,运行程序预训练P蛇模型,经过多次调参,可以得到训练准确率-回合数图像;
图4:P蛇模型训练准确率-回合数图像
从图4中不难得知,经历了30000个回合的迭代,模型的训练准确率最终趋于[0.8,0.9]取值区间,对于小样本数据来讲预训练达到最优。考虑到本文只让模型学习一份四旋翼无人机的设计图,测试一份六旋翼无人机的设计图,设计对象之间存在显著差别。倘若模型能够在保证一定训练准确率的情况下生成合理的测试结果,那么融合强化学习思想的大模型在处理此类任务时便具有优越性。
在完成P蛇模型的预训练之后,保存并加载pth格式的模型文件,测试预处理后的六旋翼无人机设计图数据。测试的结果如图6:
图5:测试集涉及的小型六旋翼无人机前视图
图6:P蛇模型在学习四旋翼无人机的结构后尝试绘制六旋翼无人机
由图6可知,P蛇模型只能绘制大约一半的六旋翼无人机轮廓。令人赞叹的是,P蛇模型由于版权限制只学习了一份四旋翼无人机的设计图纸,然后尝试绘制六旋翼的结构,却也能得到合理的生成结果。如果训练数据充足、被研究对象的类别齐全,那么P蛇模型就能发挥出更强大的生成效果。最后,P蛇模型的生成结果以点云坐标的形式写入xyz文件,并被反向转换成SLDPRT文件,供人类程序员后继修改。
3 总结与评价
P蛇模型的原理是融合强化学习思想的改进后的Transformer算法,即蟒蛇DPG算法。蟒蛇DPG算法能够在数据极为有限的基础之上提取出有用的特征信息,保证模型最基本的准确性和鲁棒性。强化学习思想在蟒蛇DPG算法中发挥着核心的作用。作为一种基于数据驱动的方法,强化学习能够通过实时反馈来不断优化智能体的进化策略。在本文提出的算法中,强化学习思想被用来引导神经网络更新和迭代。考虑到强化学习自身的自适应性,算法能够被用于更多的任务场景,自动设计更多的工业产品。此外,基于蟒蛇DPG算法开发的P蛇模型还具有低功耗、低算力的优势;我们充分利用了现有的深度学习开发框架和硬件资源,利用英特尔系列的中央处理器产品完成模型的预训练和推理,避免了高昂的硬件资源投入。低功耗、低算力的优势使得本文开发的P蛇模型在商业和科研领域具有广泛的应用前景。总的来说,基于蟒蛇DPG算法开发的P蛇模型能够为小型无人机的设计自动化提供一种高效、安全、经济的解决方案,满足未来设计自动化的需求。
4 参考文献
[1] David Matthews and Andrew Spielberg and Daniela Rus and Sam Kriegman and Josh Bongard, ’Efficient automatic design of robots’, Proceedings of the National Academy of Sciences,2023.
[2]梁进. 基于强化Q学习的移动机器人未知环境路径规划研究[D].华南理工大学,2022.
[3]魏惠兰. 集群视域下艺术产业价值链的演化路径研究[D].武汉理工大学,2022.
[4]周青林. 基于深度强化学习的无地图机器人路径导航方法研究[D].山东师范大学,2023.
[5]孙嘉赤. 基于深度学习的高分辨率光学遥感影像舰船目标检测与分类方法研究[D].国防科技大学,2022.
[6]杨书恒,张栋,任智,等.基于多智能体强化学习的无人机集群对抗方法研究[J].无人系统技术,2022,5(05):51-62.
[7]孙铭鸿. 基于有监督对比学习辅助的场景和地标联合识别[D].延边大学,2023.
[8]郭悦. 基于多模块注意力机制的指示表达研究[D].内蒙古大学,2023.
[9]徐国奇,洪昭斌,陈水宣,等.采用DDPG算法的弹道导弹突防诱饵分布空域[J].厦门理工学院学报,2022,30(01):34-41.
[10]刘智瑞. 基于增强学习的航空发动机智能控制[D].南京航空航天大学,2021.
[11]党陈晨,郑凯东.基于AirSim平台的无人机轨迹跟踪仿真[J].信息技术与信息化,2022(10):91-94.
[修改于 6个月12天前 - 2024/07/12 21:58:06]
这篇论文开发的AI模型,P蛇模型,训练学习绘制一张小型四旋翼无人机的结构;训练完毕之后让AI学习绘制六旋翼无人机的结构(因为版权的原因,很多工业产品的设计图纸被封存,所以AI只能获取两个样本。)图片当中展示的“绘制出一半轮廓”已经是极小规模数据的支撑的上限了。可惜行业内没有开源的GB级别的工业产品设计图纸数据集。如果有的话AI的学习效果可以更为强大,也能设计出更符合要求的工业产品(无人机)结构。论文训练的模型和代码会在这里开源。
论文提到的融合强化学习思想的大模型,可解释性差(主要是奖励机制需要推导),但计算成本低。到了今天,算力成本已经成为制约大模型发展的一个瓶颈。
训练使用的点云文件(SLDPRT转STEP再提取点云):
源代码:
P蛇模型(分为Actor编码器和Critic解码器):
任何可以画成图纸的工业产品理论上都可以让AI学习绘制,之后生成一个类似结构。参考程序员AI“Github Copilot”输入一半代码补全另一半代码,P蛇模型是输入一半结构补全另一半结构,最后还必须依赖人类修正优化。而且P蛇模型这款AI功能非常原始,后续需要结合海量的数据集和更复杂规模的神经网络来改进。
补充一点,P蛇模型这种工业产品设计AI不适合处理散装的零件图,适合处理产品整体结构图。因为零件图纸散装在空间中所占据的体积过小,无法有效提取点云坐标。或者可以编写脚本把散件组合成整件再提取坐标,论文不再额外赘述。
LaTex用不习惯,这次先用字符表达公式,请管理员谅解。
补正:PythonDPG算法的预印本论文需要大幅度修改较多内容,因为奖励机制必须真正能够控制和调整模型的输出,否则模型等同于直接堆积成规模的神经网络,无法利用强化学习的优势展开训练和推理。
200字以内,仅用于支线交流,主线讨论请采用回复功能。