网站首页 > 科技论文> 文章内容

商汤科技入选 CVPR 2018 的 44 篇论文都研究什么?

※发布时间:2018-5-24 5:07:13   ※发布作者:habao   ※出自何处: 

  全球计算机视觉会议 IEEE CVPR 2018 (Computer Vision and Pattern Recognition,即 IEEE 国际计算机视觉与模式识别会议) 即将于六月在美国盐湖城召开,本届大会总共录取来自全球论文 979 篇。CVPR 作为计算机视觉领域级别最高的研究会议,其录取论文代表了计算机视觉领域在 2018 年最新和最高的科技水平以及未来发展潮流。

  CVPR 官网显示,今年有超过 3300 篇的大会论文,录取的 979 篇论文,比去年增长了 25%(2016 年论文录取 783 篇)。这些录取的最新科研,涵盖了计算机视觉领域各项前沿工作。CVPR 2018 包括 21 场 tutorials、48 场 workshops,并且有来自全球各地超过 115 家企业将入驻今年 CVPR 工业展览。

  商汤科技、中文大学-商汤科技联合实验室以及其他商汤科技联合实验室共有 44 篇论文被本届 CVPR 大会接收,其中包括口头报告论文 3 篇(录取率仅 62/3300 = 1.88%),亮点报告论文 13 篇,论文录取数量相较于 CVPR 2017 的 23 篇又有大幅度提高,成绩斐然。全球领先的科研展示了商汤科技智能视觉领域强大的人才储备、科研底蕴和创新能力。

  商汤科技 CVPR 2018 录取论文在以下领域实现突破:大规模分布式训练、人体理解与行人再识别、自动驾驶场景理解与分析、底层视觉算法、视觉与自然语言的综合理解、物体检测、识别与、深度生成式模型、视频与行为理解等。这些新颖的计算机视觉算法不仅有着丰富的应用场景,使得更多的智能视觉算法能应用于日常生活之中,还为后续研究提供了可贵的经验和方向。

  本文致力于解决深度神经网络结构的自动设计问题,与一般人工的结构设计不同,本文提出了一种高效算法,通过强化学习来自动设计最优的网络结构。传统的神经网络结构设计通常需要大量专家的知识和试错成本,并且甚至还需要一些灵感,每年仅有几个重要的网络结构被设计出来,因此,人工设计网络结构是一个难度极高的工作。近期的网络结构自动搜索的算法通常需要巨大的计算资源(数百块 GPU,近一个月的训练),并且生产的模型可迁移性不强,难以做到真正的实用化。

  本文提出了一种基于强化学习的网络结构自动设计算法,通过「网络块」的设计思想,让搜索空间大大降低,并且使设计的网络具有非常强的可迁移性。同时,本文使用「提前停止」和分布式架构来加速整个网络结构学习过程,达到了百倍于之前算法的速度(32 块 GPU,3 天的训练)。实验表面,其生成的网络结构在 CIFAR 数据集上达到并且超越人类设计的网络结构的精度,并且其结构可以迁移到大规模的 ImageNet 数据上,取得良好的性能。

  行人再识别是新一代智能安防系统中的重要组件之一。给定一幅行人图像,行人再识别要求跨不同摄像头,对同一行人基于其视觉外观进行准确匹配和识别。现有深度学习算法通常使用过于局部的约束损失函数进行行人特征学习,因而不能精确的学习行人图像之间的视觉相似度。本文针对该问题提出一种新颖的组一致性约束条件,并通过连续条件随机场对该约束条件进行建模。将该连续条件随机场加入深度神经网络,从而实现该深度模型的端对端训练。实验结果表明该一致性条件在训练与测试中均能够大幅度提升最终视觉特征的鲁棒性与判别性,实现高精度的行人再识别。

  本文关注面向自动驾驶场景的视频实时语义分割问题,虽然近年来图像语义分割取得很大的进展,但是对于面向视频的语义分割任务仍然存在挑战。其主要困难在于:1)视频需要更多的计算量;2)许多实时的应用如自动驾驶需要实现低延迟性。

  本文致力于解决这两方面的难题,同时尽可能的分割的精度。在视频分割问题中,邻近帧之间的语义标签的变化相对较小,因此不必每帧都使用一个完整的网络来提取语义标签。基于这种认识,本文提出了一个如图所示的语义分割的框架,把整个网络分为高层部分和低层部分,低层部分消耗较少的计算;本文的框架只在关键帧运行完整的网络来提取高层特征进行语义分割,而在其他帧则从上一个关键帧特征来进行语义分割。相应的框架由两部分组件构成:1)关键帧调度模块,以及 2)特征跨帧模块,其都基于低层特征进行相应的计算,因此相对完整的网络计算量小很多。同时为了减少延迟,在检测到当前帧为关键帧时,使用了一个低延迟的调度策略。本文提出的方法在两个数据集上均验证了我们方法的有效性,取得了较低延迟并保持精确的分割精度。

  面向自动驾驶场景的单目深度估计方法,通常利用一个视角的图像数据作为输入,直接预测图片中每个像素对应的深度值,这就导致了现有方法通常需要大量的带深度信息标注的数据。近期的研究提出了在训练过程引入了几何约束的改进,但是在测试过程仍然缺乏显式的几何约束。本文提出把单目深度估计分解为两个子过程,即视图合成过程以及双目匹配过程,通过这样分解之后,使得所提出的模型既可以在测试阶段显式地引入几何约束又可以极大的减少对带深度标注数据的依赖。实验证明,本文提出的方法仅利用少量的深度数据就可以在 KITTI 数据集上超过之前的所有方法,并首次仅靠单目图像数据就超过了双目匹配算法 Block Matching,进一步推动了单目深度估计技术的落地。

  本文提出了一种新颖的深度学习图像复原方法。大部分已有复原算法仅面向解决某类特定的图像复原问题,因而对各种不同类别的降质图像缺乏普适性。针对该问题,本文提出的 RL-Restore 算法先训练一系列针对不同降质图像的小型神经网络;同时设计一种评价图像复原质量的励函数,使用增强学习算习如何将这些小型神经网络进行合理组合。针对不同的降质图像,获得不同的复原算法组件的组合,实现对复杂降质图像的有效复原。

  针对式视觉问答(Open-ended VisualQuestion Answering)中训练数据过少的问题,本文提出了一种「可逆问答网络」。该模型可以通过重组不同模块,使一组模型同时完成「问题回答」和「问题生成」两种互逆的两个任务。该模型通过充分利用视觉问答和视觉问题生成的对偶性,提升模型对于有限训练数据的利用效率。该方法采用两个任务同时训练同一模型,使网络能够对问题和图片之间的联系有更深的理解,从而在问题生成和问题回答两个任务上都取得了更好的精度和效果。

  本文同时解决人脸识别、属性分类和任意人脸生成这三个问题。大多数人脸特征学习的工作通常能够让网络学习得到一个具有极强身份或属性区分度的特征,以应用于人脸识别、属性分类等任务;或者学习一个具有全局信息的特征,以应用于人脸生成和编辑等应用。为什么不能学习到一个完备的特征空间并使得语义信息高度区分化,进而实现一个特征能够完成所有的任务呢?本文提出了一个信息蒸馏与网络的框架,只使用身份 ID 作为监督信息,学习到了一个同时具有极强信息区分度且包含全局信息的稠密凸特征空间。在 LFW、LFWA 和 CelebA 等数据集上的实验表明,人脸在该特征空间下的投影具有极高的身份、属性识别能力,且该空间内的任意一个点均具有较强的身份和属性语义,并可生成具有该语义的人脸图像。

  本文提出一种基于边缘的人脸关键点检测算法,将人脸边缘线所描述的结构信息融入到关键点检测中,极大地提升了算法在大侧脸、夸张表情、遮挡、模糊等极端情况下的检测精度。文章主要解决了两大问题:1. 人脸关键点在各个数据集间歧义性,定义不一致问题。文章通过捕捉对于人脸更通用的边缘线信息,将其作为人脸到关键点的中间媒介,使得不同数据集即使存在关键点差异,仍然可以相互辅助训练。2. 复杂情况下关键点检测精度问题。本文首先通过消息传递结合对抗学习得到高精度的边缘线检测结果,再将边缘线信息多语义层次地融合到关键点检测中,使得算法在复杂情况下的鲁棒性大幅提升。

  另外,文章还提出了一个新的人脸关键点检测数据集 Wider Facial Landmarksin-the-wild (WFLW),包含 10,000 张带有 98 点和 6 属性标注的人脸数据,旨在帮助学界更有效的评估关键点算法在各种条件下的鲁棒性。

  本文提出一种基于端到端深度学习框架的高性能单目标算法。现有的单目标算法通常较难兼顾性能和速度,仅能在某一指标占优。本文利用孪生(Siamese)网络和区域候选网络(Region Proposal Network),构建了一种高速高精度的单目标算法。两个子网络通过卷积操作升维,统一在一个端到端的深度神经网络框架里。训练过程中,算法可以利用拥有密集标注(VID)和稀疏标注(YoutubeBB)的数据集进行训练。相较于现有方法,稀疏标注的数据集大大增加了训练数据来源,从而可以对深度神经网络进行更充分的训练;区域候选网络中的坐标回归可以让框更加准确,并且省去多尺度测试耗费的时间。实验方面,本文提出的算法能在 160 帧速度下达到 VOT2015 和 VOT2016 数据集上目前的先进水平。

  本文首次提出了端到端的多角度文字检测与识别方法。文字检测与识别 (OCR) 是计算机视觉领域的经典问题,过去的做法将文字检测与识别看做两个问题分别解决。本文提出了一个端到端的方法同时进行文字检测与识别,验证了这两个任务相辅相成,共同监督网络训练可以让这两个任务取得更好的精度。由于两个任务共用一个特征提取的网络,速度也是分别进行文字检测与识别的两倍左右。同时本文也提出了 RoIRotate 操作,其扩展了 RoIAlign,可以应用于旋转物体的检测。本文在多个数据集上超过了现有方法。

  目前针对图像风格化的实时应用,大多需要针对特定的风格图来设计特定的风格迁移模型;如果需要实现对于任意风格图的迁移,计算复杂度和迁移效果大多不能得到。本文提出一种实时零点图像风格迁移模型,实现对于任意风格图像的多尺度高质量风格化迁移。该方法基于名为风格装饰器的特征迁移网络结构,可以容易地嵌入图像重构网络中来达到多尺度的风格特征迁移。该网络结构使得生成的风格化图像充分表达风格图中的具体纹理模式,同时保留原图中的语义信息。实验表明,该网络对各种类别的风格图都有较高的风格化能力,并且可以有效扩展到多风格迁移和视频风格迁移等应用中。

  本文来源于ipfs