孙越崎学院2022年大创项目中期进展汇报(四)

时间:2022-11-23浏览:11 作者:王卓然 张浩钏 王俊澄 孙一哲  文章来源:孙越崎学院  责任编辑:赵帆 设置

声纹图片


可燃物识别模型框架


简易实验设备


为展现学院大学生创新创业训练项目最新进展,营造浓厚科研学术氛围,激励和引领学生科研项目向更高层次和更深程度推进,“踔厉奋发,行健不息——孙越崎学院大创项目中期进展汇报”系列推文将为同学们展示优秀大创项目的进展情况和阶段性成果。让我们以此为榜样,在机遇与挑战中砥砺前行。

项目名称:声纹识别的火灾预警与可燃物识别系统

指导老师:安伟光

项目负责人:王卓越、张浩钏

项目背景

当今社会视觉识别的火灾系统处于主流地位且发展比较完善,但其也存在着弊端——价格高昂、无法得到推广。孙越崎学院王卓越、张浩钏同学通过努力创新,以声纹识别代替视觉识别,研发出声纹识别的火灾预警与可燃物识别系统。

项目特点

声纹,是一种非接触生物特征,具有身份唯一性,通过确定某个人的声纹可以唯一确定一个身份。不同可燃物的燃烧也存在着其对应的声音特征,即声纹,通过确认某种可燃物燃烧的声纹也能够确认可燃物的种类,再加上声纹识别设备造价低的特点,所以运用声纹识别的火灾预警与可燃物识别系统具有应用成本低、识别精度高、训练效率高的优势。

项目概述

此项目通过多组不同类型可燃物燃烧的音频数据训练数个上述的子任务网络,建立子任务网络群,通过对比各类归属得分就能够完成可燃物类型识别任务。然后,通过将音频信号处理成梅尔频谱。再通过掩码的方式对梅尔频谱数据进行扩展。接着,使用token网络对上述数据进行切割,然后放入Transformer网络进行数据重构,再利用CNN分类网络就能够实现火灾的事件检测。

其中,采用的Transformer算法是基于Attention算法改造的,它去掉了Attention算法的RNN操作从而实现了并行化操作。团队在原始的Transformer算法的基础上,采用了DLM网络结构,引入了交叉注意力机制实现了俩个模块之间的信息共享和互通,加强了模型对时序的理解。

项目实践

王卓越、张浩钏同学经过项目构想,内容建构,为项目的实现提供了充分的理论支撑。为进一步获得项目所需的数据,他们制作了一个简易以声纹识别火灾的实验设备。通过将所需录入声纹的可燃物放入试验容器内,点燃可燃物进行试,用麦克风录入声纹至训练集中,从而获得了一系列重要实验数据,为他们的项目提供了有力的数据支撑。

项目进展成果

目前,王卓越、张浩钏两位同学及其团队已经成功完成了火灾音频识别所需的数据集的采集,完成了应用算法模型的设计,基本完成项目论文的写作以及开发出了一套可行的针对可燃物声纹进行识别的算法流程。在未来,他们希望通过不懈努力能够申请一个软件著作权,使他们的项目能够成为现实。

感悟与思考

对于此次大创项目,负责人张浩钏同学感慨颇深。他说:“在确定研究方向时,大家集思广益,进行头脑风暴,增强了科研的发散性思维与创新型。在研究过程中,与搭档与教授的交流时,学习他们的思考方法,启迪研究思路,获得对学习能力的提升。在撰写论文与专利中,了解熟悉了专利与论文的写作过程,积累了写作经验。最后,在整个研究过程中,大家也获得了想到课题的欣喜、突破的快乐,遇到瓶颈的困惑,得到解决后的喜悦。”另外,他还非常感谢学校和学院对与大创项目的支持,也非常感谢各位教授的帮助与指导。

 

“道阻且长,行则将至”,张浩钏同学认为这个大创项目还仍需完善,任何一个成功的作品都需要不断打磨。他和他的团队正不断努力打磨,不放过任何一个细节,不负学院和老师的期待。正如人民日报所言:“不舍寸功才能善作善成,精益求精才能更进一步,久久为功才能行稳致远。”相信张浩钏同学与他的团队脚踏实地,在守正创新中追求卓越,在精雕细琢中实现跨越。


返回原图
/