《Voice Activity Detection: Merging Source and Filter-based Information》,Toshiba Cambridge Research Laboratory 这篇文章主要介绍了将声源和特征滤波的方法相结合,通过互信息的评估方法表明,这种结合了声源和特征滤波的方法显示出更加强大的判别能力,并且此方法已经达到业界最高水平的声学活动检测(VAD)。实验中比较了MFCC、CGD、PLP、Sadjadidi、以及作者提出的结合声源特征CPP、SRH、SRH*新方法,得到了结论是:
1)声源特征对VAD具有十分重要的作用;
2)决策融合要比特征融合表现更出色;
3)结合了声源和特征滤波的算法刷新了业界最新评分;
4)算法的健壮性以及神经网络的通用性使得该方法在新条件下也可以工作。

《enhancing music features by knowledge transfer from user-item log data》,Seoul National University 这篇文章基于用户听音乐的日志数据来提炼出音乐特征,而这种特征可以被用于很多音乐分类的任务中,并且作者使用知识蒸馏的方法使其扩展到跨领域,即从用户交互领域到音乐内容领域。实验表明,这种知识蒸馏的方法成功地将用户交互数据应用到更多音乐内容分类的领域。

《acoustic impulse responses for wearable audio devices》,University of Illinois at Urbana-Champaign 这篇文章开放了一个包含8000多个脉冲响应的声学数据库,而这些响应都是来自跨越全身以及可穿戴设备的160多个麦克风,这些数据可以被用来分析在使用可穿戴设备时候的声音捕捉和矩阵处理系统。

《Visibility graphs for robust harmonic similarity measures between audio spectra》 本文介绍了一种基于图可视化的来评估不同声音频谱图谐波的方法,这种方法可以在宽频噪声存在的情况下,仍然对谐波具有捕捉能力。同时,作者提出了一种结构性的距离用来评估谐波偏置相似度,这种距离评估的方法在合成音频和真实音频均具有有效性。文中图2展示了传统频谱图与作者提出的图的比较,图片显示作者提出的可视化方法可以高频谐波具有出色的鉴别能力。

《Data Augmentation for Drum Tranion with Convolutional Neural Networks》,Sorbonne University 本文提出了一种在鼓声转录过程中在卷积神经网络中使用的数据增强方法,以减少人工标注数据的成本。

《Improving singing voice separation using Deep U-Net and Wave-U-Net with data augmentation》,Sorbonne Universite 当前最前沿的歌声分离的模型一般都是基于CNN的,例如U-NET,Wave U-NET,或者MS-DENSELSTM,而它们成功地关键在于大量训练数据。作者在这篇文章中运用了数据增强技巧以及对网络模型进行各种变形,来得到不同的实验结果,本文更像是一个实验报告。

《Weakly Labelled AudioSet Tagging with Attention Neural Networks》,University of Surrey 音频标签是描述一段音频所属类别,AudioSet是一个包含200多万音频片段的数据集,具有527中类别。AudioSet是一个弱标注的数据集,虽然各个音频的类别都有标注,但是关于那个类别的事件在什么时间段开始什么时间段结束的全然没有标注,为了解决弱标注的问题,作者使用了注意力网络来聚焦每个音频最显著的部分,具体而言,作者建立了注意力网络与多实例学习之间的联系,提出了决策水平和特征水平的注意力网络用于音频标签,在AudioSet数据集上实验表明,特征水平的注意力网络可以达到0.369的MAP(mean average precision),这个比最好的多实例学习(0.317)以及谷歌的深度神经网络(0.314)的表现都要好。

《Analysing Deep Learning-Spectral Envelope Prediction Methods for Singing Synthesis》,Sorbonne University 本文讲的是音乐合成中的频谱包络面的生成,通过MOS值的比较,二维卷积神经网络相比一维卷积神经网络更优,并且在训练过程中以迭代的方式预测多帧要比直接往输入数据中添加噪声要好。作者基于这些发现设计了一个新的网络,从而产生了业界最好的合成效果。

《Making Sense of Audio Vibration for Liquid Height Estimation in Robotic Pouring》,Universitat Hamburg 本文讲的是机器人倒水过程中的感知问题,作者基于深度神经网络设计了一个可以根据在倒水过程中声音振动感知来预测水杯内水的高度——PouringNet。作者实验的数据是来自人用手亲自倒水过程中收集的3000多条录音。每一条录音都是包含完整的倒水过程。作者将PouringNet用于不同的实验,结果表明,该模型可以对不同形状的容器、不同液体、不同初始高度以及录音设备的不同位置都具有较好的预测效果。

《a unified neural architecture for instrumental audio tasks》,The University of Melbourne 作者提出了一个端对端的网络用于音高识别、声源分离、超分辨、合成等任务,该网络是由wavenet和条件GAN构成,通过cGAN联合训练的频谱图输入到wavenet中。最后,作者指出这是第一次将GAN运用到可指导的乐器合成。

《KT-Speech-Crawler: Automatic Dataset Construction for Speech Recognition from YouTube Videos》,University of Hamburg 本文中作者设计了一个爬虫程序,用于从YouTube中抓取音频来进行语音识别任务。作者介绍了一系列滤波和后处理的技巧,以提取可以用于端对端语音识别的样本。值得注意的是,抓取的不光有音频,还有自动转录的文字。