加载中
加载中
表情图片
评为精选
鼓励
加载中...
分享
加载中...
文件下载
加载中...
修改排序
加载中...
所有教程由网友发布,仅供参考,请谨慎采纳。科创不对教程的科学性、准确性、可靠性负责。
STM32MCU边缘AI部署之初探NanoEdge AI Studio(一)
全桥整流2024/09/10原创 秋名山最速传说 IP:广东

前言:上星期去了ST的广州研讨会,得知低算力MCU(STM32F1)也能部署模型使用机器学习了(甚至还是好几年前的技术了),大为震惊。虽然STM32MCU算力不太高(反正也不准备跑图像,H7算力是够但价格高了),但对于多输入多输出的系统,可将上述系统抽象成一个黑箱,无需复杂的判断逻辑和建模即可输出结果,省去建模的烦恼,无疑是令人愉悦的。并且可以全系列部署,而且自动使用上万个模型匹配数据,每个模型都有自带的超参数等,据技术人员表述差不多是轮询一遍给出得分最高的模型。如果使用CubeAI会麻烦点,要自己一个一个转,没有这么方便。下面本人将NanoEdge AI Studio(下面简称为软件)的使用经验浅述一下。

本系列第二篇文章:STM32MCU边缘AI部署之再探NanoEdge AI Studio(二) - 科创网 (kechuang.org)


正文:

先摆上点参考链接

软件下载地址:NanoEdge AI Studio - STMicroelectronics - STM32 AI

软件的安装教程(其实不看这个也行,这个软件安装不算困难,免费使用的):边缘AI工具-NanoEdge AI Studio 安装教程_nanoedge ai 如何安装-CSDN博客

使用边缘AI改进嵌入式系统的一些例子:边缘AI案例研究 - STMicroelectronics

软件的使用说明:AI:NanoEdge AI Studio - stm32mcu (stmicroelectronics.cn)

7个详细的现实生活中的训练部署例子:分类:NEAI - 教程 - stm32mcu (stmicroelectronics.cn)

上面的上一级目录,资料会多一点:分类:NanoEdgeAI - stm32mcu (stmicroelectronics.cn)


下面直接进入正题,先把流程跑通,更详细的说明请阅读上面的链接,我这里跑个二分类作为例子(异常检测)。

1、打开软件(纯废话了),填入注册码。在下载软件时,你要填写邮箱,这个不能乱写,ST会发个注册码到你的邮箱的,激活要使用。

2、欣赏一下这个界面,左上是新建project的地方,我们可以看到支持四种类型的项目:异常检测,1 类分类,N 级分类,外推法(推理)。根据我们的需要,选择第一个异常检测。并create new project。

image.png

3、选板子和数据类型,我使用的是STM32L496,数据类型根据实际来选就行(更详细的信息参考ST的文档),比如说你收集陀螺仪三轴加速度数据,那就是3 Axis,我这里打算使用一维正态分布的两组不同期望的数据来跑流程,所以选1 Axis,然后,点next。什么?你问我板子哪里买到的?当然是研讨会送的啦 sticker

image.png

4、理解理解这个是什么意思,就比如说单纯收集陀螺仪的偏航角(YAW)作为样本,回传速率是600Hz,如果每次都只使用个数据来训练,那是学习不到数据之间的关系的,无法进行分类,所以一般是使用时间序列的方法。记录下时间连续的多个数据,这样子就可以学习特征。缓冲区大小应为 2 的幂次方并且不少于16(这个在数据生成的时候会再次提到)。每个传感器轴至少包含 20 行(信号示例,这个一般是多点好,但不绝对,要保证信号质量,减少杂波,ST的手册有提到)。点ADD导入数据。

image.png

5、由于我现在手上没有传感器的数据,直接用Python整些正态分布数据出来导入excel,当做传感器的数据,下面是生成正态分布的数据的.py程序。

Python
import numpy as np import pandas as pd # 设置随机种子以确保结果可重复 np.random.seed(42) # 生成一个形状为 (200, 16) 的矩阵,正态分布,期望为 3,标准差为 1 matrix = np.random.normal(loc=3, scale=1, size=(20016)) # 创建一个 DataFrame df = pd.DataFrame(matrix) # 将 DataFrame 导出为 CSV 文件 file_path = '3-1-200-16.csv' df.to_csv(file_path, index=False)

上面生成的.csv大概是这样的,我们上面提到过的缓冲区大小(这里是16)通过excel表的数据很清晰的展现出来,行数不解释。

image.png

我们再生成一个形状为 (200, 16) 的矩阵,正态分布,期望为 3.5,标准差为 1。(这个不展示了)

6、从文件导入(第一个),从串口导入要烧录另外的程序,这个等开发板到了之后再试试。导入完continue。

image.png

7、删除多余的行,把第一行删掉。左边就是一些不同的数据分割方式,对于excel选第一个comma就行。注意,删除完第一个文件的点击show next删除下一个文件的。然后import

image.png

8、check一下,都是绿色通过就行。

image.png

9、点击上方的Abnormal signals,然后Add signal进去,和上面第6、7、8步一样的操作。

10、点上方的Benchmark,Run new benchmark,选一下两类信号,and Start!CPU马上咆哮起来(这里是用CPU跑的,不支持GPU)。

image.png

11、我训练个几分钟不训练了,不想等了直接Stop,有时间也可以等待全部跑完。下图一是训练过程,下图二是训练结果,图二的右上角有STM32F411使用硬件浮点加速器运算的耗时结果可供参考。另外上方第五个选项点进去可以看到其他模型出来的结果,也可以参考下。

image.png

image.png

12、点上方第6个Deployment,把模型down下来,下图二是down下来的压缩包的内容,里面包含:静态预编译的 NanoEdge AI 库文件 libneai.a、NanoEdge AI 头文件NanoEdgeAI.h、知识头文件(仅限分类和外推项目)knowledge.h、NanoEdge AI 仿真器(Windows 和 Linux 版本)。

中的一些库元数据信息metadata.json

image.png

image.png

13、有人会说,老湿啊,你这正确率也不高哇,怎么提升啊?直接把缓冲区大小提高(注意是2的幂次方,下面使用的大小是128)就行,我实际测试下来这个方法比增加训练时间获得的正确率提升要多,下面再生成两个.csv,分别是:

形状为 (200, 128) 的矩阵,正态分布,期望为 3,标准差为 1

形状为 (200, 128) 的矩阵,正态分布,期望为 3.5,标准差为 1

其他过程和上面一致,再丢进去跑一下......两分钟等待......效果显著

image.png

image.png

14、......没有14了......突然发现已经写了2500字,meow~(喵~)。


PS:由于实际采集数据会有回传速率限制,对MCU的响应速度也有要求,因此缓冲区大小不可能无限大。

PPS:前5有KC币,欢迎提建议和意见。

PPPS:算力表

stm32算力表.png

[修改于 4个月11天前 - 2024/09/12 18:10:59]

+25  科创币    虎哥    2024/09/13 资瓷
来自:电子信息 / 电子技术计算机科学 / 软件综合严肃内容:教程/课程
8
4
新版本公告
~~空空如也
WE24
4个月12天前 IP:江苏
937298

记得这东西是转换模型文件的。

+0.5
科创币
全桥整流
2024-09-10
喵喵喵
引用
评论(1)
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
WE24
4个月12天前 IP:江苏
937299

最新版本的软件已经集成了训练+部署功能,相较于旧版本还是有很大进步的。

引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
zRed洲虹
4个月12天前 IP:上海
937335

喔 感谢分享!既然全系列,那f103这种老前辈也可以再折腾折腾咯 sticker

+0.5
科创币
全桥整流
2024-09-11
狠狠压榨老设备算力()
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
荷城工业_Nitload_Industry
4个月6天前 IP:安徽
937518

好家伙,早两年知道的话,比赛项目中图形识别部分就不用那么麻烦了,估计用树莓派做锐化和二值化后直接交给32算就行了,比自己写框架折腾快多了(显然当时没写出来)

引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
WernerPleischner
4个月6天前 修改于 4个月6天前 IP:广东
937519
引用荷城工业_Nitload_Industry发表于4楼的内容
好家伙,早两年知道的话,比赛项目中图形识别部分就不用那么麻烦了,估计用树莓派做锐化和二值化后直接交给...

什么舍近求远,放着四核A**不用跑到M*上面跑算法。。。

锐化二值化是上古视觉处理算法了,神经网络输入不需要预先经过这些步骤(因为CNN卷积层本来就是N个可以自适应的滤波器),二值化之后更是什么信息都不剩了。

引用
评论
2
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
全桥整流作者
4个月6天前 IP:广东
937533
引用荷城工业_Nitload_Industry发表于4楼的内容
好家伙,早两年知道的话,比赛项目中图形识别部分就不用那么麻烦了,估计用树莓派做锐化和二值化后直接交给...

如果你要跑图像,你要用CubeAI转换模型然后部署,我上文这个软件,它有Axis限制,最多是255,也就是说这个软件最大支持16×16的图像矩阵(当然这里不排除利用一些奇技淫巧(bushi)扩充)。

引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
荷城工业_Nitload_Industry
4个月5天前 IP:安徽
937565
引用全桥整流发表于6楼的内容
如果你要跑图像,你要用CubeAI转换模型然后部署,我上文这个软件,它有Axis限制,最多是255,...

估计够用了,我们需要识别的也就是方形标牌上的两个数字。用OpenGL处理后应该是很容易控制在这个范围里的

引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
全桥整流作者
4个月5天前 IP:广东
937574
引用荷城工业_Nitload_Industry发表于7楼的内容
估计够用了,我们需要识别的也就是方形标牌上的两个数字。用OpenGL处理后应该是很容易控制在这个范围...

想想16×16的图像矩阵甚至都可以识别手写汉字了

引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论

想参与大家的讨论?现在就 登录 或者 注册

插入公式
评论控制
加载中...
文号:{{pid}}
投诉或举报
加载中...
{{tip}}
请选择违规类型:
{{reason.type}}

空空如也

笔记
{{note.content}}
{{n.user.username}}
{{fromNow(n.toc)}} {{n.status === noteStatus.disabled ? "已屏蔽" : ""}} {{n.status === noteStatus.unknown ? "正在审核" : ""}} {{n.status === noteStatus.deleted ? '已删除' : ''}}
  • 编辑
  • 删除
  • {{n.status === 'disabled' ? "解除屏蔽" : "屏蔽" }}
我也是有底线的