当前位置:首页>>DCASE 2020权威声学比赛:腾讯多媒体实验室斩获双项指标国内第一

DCASE 2020权威声学比赛:腾讯多媒体实验室斩获双项指标国内第一

发布时间:2020-07-05作者:智汇龙龙

近日,在第六届国际权威声学场景和事件检测及分类竞赛 (Detection and Classification of Acoustic Scenes and Events, DCASE 2020) 中,腾讯多媒体实验室天籁音频研究团队首次参加了声学场景识别 (Acoustic Scene Classification, Task 1) 任务竞赛,并从47支来自全球顶尖学术界和工业界的声学研究队伍中脱颖而出,取得双项指标国内第一、国际第二的成绩。


此次参赛是腾讯多媒体实验室领衔美国佐治亚理工大学信号与信息处理中心实验室,中国科技术大学语音及语言信息处理国家工程实验室联合参与,从最终评估的结果上看,在综合Task 1a (不限制声学模型大小评估识别性能)与 Task 1b (限制模型大小条件下评估识别性能)两个任务中,取得了综合第一名的成绩,在两个子任务中分别位列第二名,与第一名分数相比仅差0.3%。


DCASE 比赛是由伦敦玛丽女王大学(Queen Mary University of London)在2013年首次发起的声学场景识别挑战,后续由坦佩雷理工大学(Tamper University of Technology)持续发起,近些年引起了国内外众多尖端声学研究界的广泛关注,包括谷歌、纽约大学等。


本次DCASE 2020比赛,共设置六个任务,包括声学场景识别、异常机器声音的非监督识别、声学事件检测、声学事件分离、城市声音标记和自动为音频生成标题纪要,吸引了包括亚马逊、英特尔、高通骁龙等国际公司和清华大学、新加坡南洋理工大学、香港中文大学等顶级高校的共138 个队伍、473个有效系统参赛。


其中,多媒体实验室所参加的声学场景识别任务 (Task 1),共有47支队伍与179个提交系统参与,是所有任务中参赛队伍最多、提交系统最多、竞争程序最激烈的任务。清华大学、北京大学(深圳)、新加坡南洋理工大学等国内外顶级高校,以及高通人工智能研究院(首尔)、 美国 Intel 研究院(加利福尼亚)等知名通信、科技公司均在其中。


Task 1包含了两个子任务,子任务task 1a的声学场景识别系统要求识别不同终端设备,比如手机、ipad或其它录音设备采集的音频,识别成不同的类别。如下图(左)所示,将不同设备不同场景采集的信号正确分类成“地铁站”、“公园”和“公共广场”。采用不同设备来评估场景识别系统就是为了验证系统对多种设备的鲁棒性。子任务task 1b的声学场景识别系统限制性的将模型大小压缩在500k以内,在此条件下,需要场景识别系统尽可能高效的识别“室内”、“室外”、“交通”这三种常见的声学大场景。 这里对声学模型大小提出要求的初衷就是为了更好地将现有科学研究方法迅速转换成可以真正意义的落地产品,以克服设备上运行深度学习网络高CPU消耗的难题。


本次声学场景识别任务,涵盖机场、室内购物、地铁站台、街道行人、公共广场等10个通用声学场景。在现实生活中,这些通用声学场景,通常同时存在多个声音,并且会被环境噪声干扰。此次任务,通过研究来识别真实场景的声音场景和声音事件,对于让声音场景识别应用落地具有重要意义。


声学场景识别就是利用机器学习模仿人脑,对周边的环境进行有效及时的判断。随着深度学习的高度演化,声学场景识别的正确率有了飞跃提升。高识别率的场景识别系统则更进一步扩大其在生活中的应用场景。如智能“婴儿哭声”监控,可以有效帮助父母及时照看突然惊醒孩子,“枪声场景检测”可以应用在各类安防设备上,“鸟类啼叫场景”检测可以有效监测自然界生态的变化,“马路上警笛场景”检测可提醒路行人及车辆让出交通空间,“地铁”场景检测和“睡眠质量监测”等。


实际上,DCASE2020的声学场景识别任务,与多媒体实验室自研的音视频实时通信产品——“腾讯会议”中的声学场景识别落地应用最为贴近。基于领先的腾讯天籁音频解决方案,腾讯会议可以让不同地点、场景、设备终端同时远程接入,让远程在线沟通可行高效。但由于不同入会者处的场景环境千变万化,或在安静办公室,或在嘈杂的公共场所,不同场景需要对音频流进行不同处理。如会议入会方检测到街道环境,需要对风声和交通噪音进行处理;如在开重要会议,如果某参会方所处嘈杂声学场景并忘记关闭麦克风,系统可提醒主持人或自动禁止嘈杂端麦克风;如检测到音乐场景,则不启动降噪算法,保证音乐可以高质量的传输到对端;如检测到漏回声场景,特别是一些移动端设备大音量外放声音时,可以开启残留回声消除算法。


作为腾讯顶级的科技实验室之一,腾讯多媒体实验室将继续致力于端到端实时语音通信、音频引擎、音频处理、音频场景事件检测识别等业界领先的人人通信基础理论,加大在关键技术和应用系统的研究和开发的投入,提供基于云和客户端的多种行业解决方案,让声学场景识别更广泛落地应用。


公司简介

宜科(天津)电子有限公司是中国工业自动化的领军企业,于2003年在天津投资成立,销售和服务网络覆盖全国。作为中国本土工业自动化产品的提供商和智能制造解决方案的供应商,宜科在汽车、汽车零部件、工程机械、机器人、食品制药、印刷包装、纺织机械、物流设备、电子制造等诸多领域占据领先地位。宜科为智慧工厂的整体规划实施提供自系统层、控制层、网络层到执行层自上而下的全系列服务,产品及解决方案涵盖但不局限于云平台、MES制造执行系统、工业现场总线、工业以太网、工业无线通讯、机器人及智能设备组成的自动化生产线、自动化电气控制系统集成、智能物流仓储系统等,以实现真正智能化的生产制造,从而带来生产力和生产效率的大幅提升,以及对生产灵活性和生产复杂性的管理能力的大幅提升。多年来,宜科以创新的技术、卓越的解决方案和产品坚持不懈地为中国制造业的发展提供全面支持,并以出众的品质和令人信赖的可靠性、领先的技术成就、不懈的创新追求,在业界独树一帜。帮助中国制造业转型升级,加速智能制造进程,成为中国工业4.0智慧工厂解决方案当之无愧的践行者。

更多详情>>

联系我们

  • 联系人:章清涛
  • 热线:18611695135
  • 电话:
  • 传真:
  • 邮箱:18210150532@139.com

Copyright © 2015 ilinki.net Inc. All rights reserved. 智汇工业版权所有

电话:010-62314658 邮箱:service@ilinki.net

主办单位:智汇万联(北京)信息技术有限公司

京ICP备15030148号-1