ICASSP_51CTO博客
研究者们还展示了模型的可训练参数量,推理速度以及输出的分辨率大小,并和之前的 SOTA 模型进行了对比,由于使用去噪扩散概率模型,该模
ICASSP 论文发表相关问题
原创 2021-07-29 11:41:41
4577阅读
随着人工智能高速发展,智能语音交互技术正在被国内外巨头公司逐步落地和AI Labs三...
转载 2023-06-13 12:47:31
42阅读
运动估计ME是视频编码中最耗时的部分之一,本文提出基于码率的MV候选项消除策略。研究发现最优MV通常在MVP附近,通过限制MV的码率缩小运动搜索窗口从而减少计算复杂度。本文方法不局限于某种运动搜索模式,可以适用于各种ME策略。在VTM上实验结果显示和TZ search相比本文算法在BD-Rate损失0.74%的情况下可减少80%的复..
原创 2021-08-20 10:04:49
10000+阅读
本文来自ICASSP2021论文《Adaptive Dual Tree Structure for Screen Content Coding》在HEVC中,CTU采用四叉树方式递归划分,同一个CTU的亮度CTB和色度CTB采用相同的划分结构即单重树结构。而对于VVC,采用帧内预测模式的CTU的亮度CTB和色度CTB可以使用不同的划分方式即双重树结构。Fig.1是
原创 2021-08-27 11:38:04
10000+阅读
本文来自ICASSP2021论文《IMPROVED INTRA MODE CODING BEYOND AV1》AV1帧内预测简介在AV1中帧内预测模式分为角度帧内预测模式和非角度帧内预测模式,和VP9一样有8种角度帧内预测模式,在每种方向上还有7个delta角度(-3~+3)用于扩展方向的粒度,总共56个方向模式,如Fig1所示。
原创 2021-09-16 17:58:42
10000+阅读
本文来自ICASSP2021论文《Image Coding For Machines: An End-to-end Learned Approach》基于深度学习的计算机视觉在图像领域应用越来越广泛,每天产生的图像数量爆发式增长,传统的图片编码器是面向人眼视觉而不是机器处理。本文提出基于神经网络(N
原创 2021-09-06 09:29:12
10000+阅读
本文来自ICASSP2021论文《SALIENCY-DRIVEN VERSATILE VIDEO CODING FOR NEURA
原创 2021-08-15 17:23:19
10000+阅读
本文来自ICASSP2020论文《INTRA FRAME RATE CONTROL FOR VERSATILE VIDEO CODING WITH QUADRATIC RATE-DISTORTION MODELLING》本文在VVC中提出了新的二次R-D模型,在VTM2.0平台帧内编码模式下相对于默认码率控制算法在相似控制精度下可达到0.77% BD-BR。R-D模型VVC中传统的RD模型VVC中RD模型是双曲线模型,其中失真D用MSE度量,码率R用bpp(bit pe...
原创 2021-07-09 15:24:08
332阅读
本文来自ICASSP2020论文《LINEAR MODEL-BASED INTRA PREDICTION IN VVC TEST MODEL》论文使用含3个参数的线性模型进行帧内预测 Linear Model-based Intra Prediction (LMIP),在VTM4.0平台上AI配置和RA配置下分别取得0.30%和0.14%的BD-Rate增益。基于线性模型的帧内预测LMIP文章提出了包含3个参数的线性模型,通过待预测块的邻域像素值和邻域像素位置训练该模型,然后通过这...
原创 2021-07-09 15:24:10
233阅读
本文来自ICASSP2021论文《Decision Tree Based Inter Partition Termination For AV1 Encoding》AV1引入了很多新的编码工具,导致其计算复杂度非常高。论文通过决策树在帧间预测进行块划分时预测划分方式,从而及早停止划分以减少时间。简介AV1的superblock的大小为128x128,
原创 2021-09-10 15:24:28
10000+阅读
Paper之ICASSP&TASLP:2018~2019年ICASSP国际声学、语音和信号处理会议&IEEE-ACM T AUDIO SPE音频、语音和语言处理期刊最佳论文简介及其解读目录ICASSP国际声学、语音和信号处理会议&IEEE-ACM T AUDIO SPE音频、语音和语言处理期刊简介ICASSP国际声学、语音和信号处理会议IEEE-ACM T AUDIO SPE音频、语音和语言处理期刊简介历年经典论文ICASSP国际...
原创 2021-06-17 11:22:05
2943阅读
1点赞
阿里云视频云视频编码与增强技术团队最新研究成果论文《基于可变形卷积的压缩视频质量增强网络》(DeformableConvolutionDenseNetworkforCompressedVideoQualityEnhancement)已被ICASSP2022Image,Video&MultidimensionalSignalProcessing主题会议接收,并受邀在今年5月的全球会议上向工业界和学术
原创 2022-03-11 14:33:17
540阅读
近日,阿里云视频云音频技术团队与新加坡国立大学李海洲教授团队合作论文《基于时频感知域模型的单通道语音增强算法》(TimeFrequencyAttentionforMonauralSpeechEnhancement)被ICASSP2022接收,并受邀于今年5月在会议上向学术和工业界做研究报告。ICASSP(InternationalConferenceonAcoustics,SpeechandSig
原创 2022-03-03 16:53:53
669阅读
本次挑战赛共收录18篇相关论文,其中,6篇论文被ICASSP2021收录。
原创 2021-06-24 18:57:08
1560阅读
Nokia研究中心对各种语音编码器进行主观测评的结果
原创 2021-07-29 15:41:59
90阅读
2020年,爱奇艺联合多家单位在ICASSP2021举办多说话人多风格音色克隆大赛——M2VoC,旨在提供一个通用的数据集以及一个公平的测试平台,对语音克隆任务进行研究。  大赛上线以来,全球共有153支队伍报名参赛。近日,根据已提交的方案,竞赛组委会审核并公布了ICASSP2021 M2VoC高分队伍排名。 3月10日下午2点,我们邀请了本次四个赛道的四支高分排名top2队伍代表,一起齐聚“云”
原创 2021-06-25 10:41:55
930阅读
爱奇艺联合ICASSP2021举办多说话人多风格音色克隆大赛(M2VoC)
转载 2021-07-14 11:27:29
10000+阅读
会议:ICASSP 2019 论文:Hotword Cleaner: Dual-microphone Adaptive Noise Cancellation with Deferred Filter Coefficients for Robust Keyword Spotting 作者:Yiteng Arden Huang ; Turaj Z. Shabestary ; Alexander Gru
北京时间2023年1月14日凌晨2点半左右,ICASSP2023审稿意见出炉。Rebuttal时间为2023.1.13-24,录用通知时间为2023.2.15。Rebuttal时间较长,可以给大家一个相对宽松的修改时间。不过由于最后几天和春节重合度高,届时赶deadline可能节奏不容易调整,望读者朋友们注意。过去几年ICASSP录用数均稳定在1750篇左右,投稿量在3600-3950左右浮动。不
  • 1
  • 2