文章详情
ARTICLE DETAILS

北京大学信息工程学院——张健课题组在计算机视觉方面取得重要研究进展

  CVPR全称IEEE国际计算机视觉与模式识别会议(IEEE Conference on Computer Vision and Pattern Recognition),该会议始于1983年,每年举办一次,是计算机视觉和模式识别领域的国际顶级会议。根据谷歌学术公布的2021年最新学术期刊和会议影响力排名,CVPR在所有学术刊物中位居第4,仅次于Nature,NEJM和Science。张健助理教授课题组分别在图像隐写/高光谱图像重建/自然图像重建等底层视觉研究方向共有3篇论文被CVPR 2022录用。

  图像隐写术(Image Steganography)旨在隐秘地将隐藏信息嵌入到一张与宿主图像近似的容器图中。此前的隐写方案通常将隐写和重建视为两部分网络进行构建,难以同时保证可靠的重建质量和隐秘性;现有技术对网络传输中的噪声和压缩也相当敏感,容器图上轻微的干扰即可能影响重建质量。如图1所示,论文“Robust Invertible Image Steganography”提出了一种可逆图像隐写方法,通过设计条件标准化流模型(Conditional Normalizing Flow),将图像的隐写和解密视作一对逆问题加以联合高效求解。为了提升隐写容量和重构质量,论文提出了分布映射模块,能够给重建过程提供有效引导,从而保留隐藏图的更多高频信息。同时,在端到端训练中引入了对各类失真的模拟,在重建网络中设计了图像增强模块以提升鲁棒性。综上,论文构建了一个强鲁棒性的高效图像隐写框架,在水印鉴权、换脸检测、屏显隐藏图像等方面有着广泛应用。该工作由课题组独立完成,论文通讯作者为张健助理教授,信息工程学院为第一作者单位,许佑民同学为第一作者,合作者还包括课题组的牟冲同学、胡妤婕同学、谢静芬同学。

  光谱压缩感知被广泛地应用在成像系统上,其目的是利用二维传感器来捕捉三维的高光谱信号,进而取得低带宽、高计算通量的优势。成像系统通过硬件编码器压缩二维信号,随后运用重建算法实现高维信号的复原。然而,现有的方法均存在一定的局限性,如基于模型的方法迭代时间较长,实时性差;基于网络的方法又缺乏一定的可解释性。论文“HerosNet: Hyperspectral Explicable Reconstruction and Optimal Sampling Deep Network for Snapshot Compressive Imaging”研究的内容是可解释深度神经网络在光谱压缩感知上的应用。课题组的研究表明,基于深度展开的方法能够很好地利用两种方法的优势,并有效解决现有深度展开方法中缺乏跨阶段特征交互和自适应参数调整的问题。该研究结果所设计的深度展开网络受优化方法中的近邻映射启发,网络结构如图2所示,能够联合实现掩膜优化和高光谱重建。该网络通过引入动态梯度下降模块来模拟采样矩阵,自适应地更新迭代步长;该网络通过层级特征交互模块,融合之前阶段的特征用以重建当前阶段的图像。论文通讯作者为张健助理教授,信息工程学院为第一作者单位,张轩宇同学为第一作者,合作者还包括香港中文大学孙启霖助理教授、哈尔滨工业大学(深圳)张永兵教授和北京大学熊瑞勤教授。

  自然图像重建具有广泛的应用价值,可以显著提升图像或视频的视觉质量。现有图像重建方法在性能和模型可解释性上都存在一定的缺陷。论文“Deep Generalized Unfolding Networks for Image Restoration”针对现有的缺陷研究了可解释性网络在自然图像重建上的应用。研究表明,优化启发式的网络设计在提升模型可解释性的同时也可以提升模型性能。如图3所示,论文设计的新型深度展开网络由近端梯度下降算法(PGD)展开而成,每个阶段的网络结构由数据模块和先验模块交替堆叠而成,其中引入级间跳跃连接来个改进传统算法中存在的信息损失。通过可学习模块替换传统算子,所设计的模型具有良好的自适应能力,同时保持了良好的可解释性,在多个自然图像重建任务中取得了领先性能。该工作由课题组独立完成,论文通讯作者为张健助理教授,信息工程学院为第一作者单位,牟冲同学为第一作者,论文合作者还包括课题组的王茜同学。

  以上三项研究成果得到了深圳市基础研究专项以及国家自然科学基金的支持,在算力方面得到了深圳鹏城实验室的“鹏城云脑”支持。

0/300
精彩留言
暂无数据
暂无留言