万物的声音携带了大量有关日常环境和其中发生的物理事件的信息,而声音事件检测(Sound Events Detection)能感知到我们所处的声音场景,识别出各个声源类别,并标记出特定事件的时间戳。
从声音特性角度来看,声音可以划分为语音,音乐与环境声三大类,而目前主流的语音识别及声纹识别技术都是针对语音信号处理的,技术发展的相对成熟,而我们所提到的声音检测技术则主要是针对环境声的,包括城市交通,工厂噪声,自然环境声等等。
什么是计算机听觉?
近10年来,随着半导体技术,互联网,音频压缩技术,录音设备的共同发展,使得数字格式的各种声音急剧增加。在人类听觉机制的启发之下,诞生了一个新的学科——计算机听觉,也可以称之为机器听觉。计算机听觉是一个面向数字音频与音乐,研究用计算机软件来分析和理解海量数字音频内容的算法与系统的科学。
快鱼电子事件检测系统
快鱼电子作为音频行业知名公司,多年来深耕音频行业应用。场景分析、事件识别等智能音频算法的研发可以助力多个行业的应用,安防监控、平安城市中的突发事件自动监测预警,工业监测中的设备异常状态识别预警等。
本系统核心技术是关于音频事件的智能检测模型。首先,收集相关事件音频数据,并对音频数据进行标注;接下来,使用卷积神经网络、卷积循环神经网络等进行监督学习模型训练,针对提取到的音频特征进行分类任务训练。
系统可以选择将该模型部署到端侧或者服务器,系统通过管理音频采集设备进行实时录音,并对录音进行实时分析,将事件检测结果以“事件类别:置信概率”的形式输出。
系统支持对录音文件、实时录音进行监测,同时包含了用户管理、历史查询、留言反馈等基础管理功能。
婴儿啼哭声识别挑战赛
DCASE 2019竞赛中荣获金奖
DCASE竞赛,第五届声学场景和事件的检测和分类竞赛(Detection and Classification of Acoustic Scenes and Events 2019, 简称DCASE 2019)由伦敦大学玛丽皇后学院、坦佩雷大学、谷歌等组织发起,是世界声学事件检测领域最权威的竞赛。2019年DCASE吸引了全球109个参赛队伍,包括中科院声学所、自动化所、香港中文大学、中科大、大阪大学、首尔大学、萨里大学、西工大、北京邮电大学等知名高校以及松下、LG、三星、英特尔等知名企业。
音频类别标注(获得4名)
带有标签噪声和最小监督的音频类别标注(Audio tagging with noisy labels and minimal supervision)。该任务训练集由free sound Dataset (FSD)的手工标记(curated)数据和Yahoo Flickr Creative Commons 100M Dataset (YFCC)的噪声标记数据组成,音频采样率均为44.1 kHz,共有80个事件类别,包含人声、日常生活中声音、交通声音、自然声音等等。该任务将为开发广泛适用的声音事件分类器提供指导。我们的智能音频分析技术可以针对客户的需求进行针对性采集和优化。
Rank 排名 |
Affilication 单位 |
Kaggle teamname Kaggle队伍名称 |
lwlrap(public LB) 评测分数(开放数据集) |
lwlrap(private LB) 评测分数(私有数据集) |
1 | 日本大阪大学 | \[kaggler-ja/AIMS\] OUmed | 0.7474 | 0.7579 |
2 | 德国帕德伯恩大学 | Janek Ebbers | 0.7305 | 0.7552 |
3 | 法国银捷尼科集团 | Eric Bouteillon | 0.7389 | 0.7519 |
4 | 快鱼电子 | Kuaiyu | 0.7348 | 0.7414 |
5 | 奥地利林茨大学 | CP-JKU | 0.7254 | 0.7374 |
6 | 英国、美国 | 3x6min | 0.7298 | 0.7338 |
7 | 北京邮电大学 | HongXiaoFeng | 0.6991 | 0.7152 |
8 | 北京师范大学 | Penghao | 0.6320 | 0.6443 |
9 | 谷歌&庞培法布拉大学 | Challenge Baseline | 0.5370 | 0.5379 |
10 | 清华大学 | THUEE | 0.7392 | 0.0000* |
11 | 国防科技大学 | TEMP | 0.7253 | 0.0000* |
12 | 英国萨里大学 | cvssp_baseline | 0.5803 | 0.0000* |
13 | 俄罗斯国立核能研究大学 | Alexander Khar | 0.6637 | 0.0000* |
14 | 奥地利林茨大学 | CPJKUStudents | 0.7222 | 0.0000* |
该竞赛为kernel竞赛,提交推断程序由组织方在私有测试集运行,当推断程序出错或者超时,则private LB成绩为0.0000.
相关链接:http://dcase.community/challenge2019/task-audio-tagging-results
煤矿智能化--落煤落矸
煤矿开采过程中粉尘严重、井底噪声大,煤矿工人很容易出现尘肺病、皮肤病、噪声性耳聋、关节炎和滑膜炎等各种职业病。在所有职业病中,尘肺病占90%,死亡率高达22.04%,已成为中国职业病中最严重的病种。
煤炭行业一直在探寻减少井下作业人数、降低安全风险、提高生产效率、减轻矿工劳动强度的方法。 2019年1月9日,国家煤矿安全监察局公布了《煤矿机器人重点研发目录》,对掘进、采煤、运煤、安控和救援五大类38种煤矿机器人分别提出了具体的研发应用要求,希望通过“机器换人”来实现煤矿作业的“少人则安、无人则安”。
本系统对各种操作物的不安全状态、设备的异常情况进行实时识别,比如可实现皮带跑偏、堆煤、撕裂、皮带上的大煤块、锚杆的识别及报警,必要时紧急停车,可避免由于大块煤、锚杆造成的设备损坏、堆煤等事故,并进行广播告警。