这个好玩,做了STFT以后对音乐的处理跟图像处理很像了。
回想起以前为了交作业抓学音乐的同学帮忙手动分析泛音的事了,因为坐标系的缘故,这里的图跟楼主在频率上是上下颠倒的。
看了一下代码,用的好像应该是 spectral clustering? DBSCAN 是不用预先知道需要分的cluster的数目。另外我在想,这个的 Feature selection 除了基于已有音乐知识,选择用泛音基频比例,有没有可能试试用PCA之类的方法盲处理? 我也想好好想一下,有脑洞了再来回复。
还有一个就是,如果改用supervised learning 来对不同乐器成分进行分类,对一段音乐的ground truth标记有什么比较好的解决方法?我现在能想到的只有用乐谱或者同一首曲目的MIDI文件。
时段 | 个数 |
---|---|
{{f.startingTime}}点 - {{f.endTime}}点 | {{f.fileCount}} |