上海交通大学倪冰冰教授访谈
2019年1月3日,专委秘书处采访了上海交通大学青年千人倪冰冰教授。下面是采访实录。
倪老师,您好!您在计算机视觉、机器学习与多媒体计算领域做出了很多高水平研究工作,获批中组部第十一批青年千人专家,发表了一系列高水平的论文。您能跟我们详细介绍一下您的研究经历,分享一下获得成功的经验,以及您取得这些成就的动力么?
大家好。我是2010年在新加坡国立大学获得博士学位,2015年底回国工作的,目前在上海交通大学电子工程系任教。从博士研究生阶段开始,我的主要研究内容都是围绕智能视频媒体分析这个主题,取得了一些进展。我觉得对于计算机视觉研究来说,想要取得一点成绩,创新性是比较重要的因素。我认为创新有三个层次,第一个层次创新是能够发掘一个前人没有发现的新的有价值的问题,比如过去我们大多数研究者都在图像与视频的识别方面开展工作,而近两年来,图像与视频的生成这个全新的主题变得越来越popular,这个就是好的创新的例子。第二个层次是对已有的问题,提出颠覆性的、非常有效的解决方法,比如深度卷积神经网络的提出一下子把大规模图像识别的问题从较低的准确率提高到超过人的识别水准,对于整个领域起到了极大的推动作用。当然还有第三种创新是对已有的算法、方法做一些增量性的改动,提高性能,这样的创新,对于研究者来说,风险比较小,但是影响力也是有限的。我认为对于一个研究者来说,应该更加关注于前两种的高层次创新。诚然,这需要有更大的探索耐心与毅力,但我相信回报也一定是很厚重的。
您“十年来专注智能视频分析研究”,能跟大家分析一下这方面的研究难点所在,以及近几年在这方面所存在的市场空间么?
我从博士阶段开始,主要关注的研究方向就是视频内容的智能分析。主要是对图像视频中的人、车、物的静态属性(例如人脸、物体检测定位、人脸识别、物体细粒度标签识别、人群密度估计等),以及动态属性(个体行为识别,群体互动行为识别等)进行智能分析。视频理解有很多挑战。首先因为摄像机角度、复杂背景光照、复杂物体运动等原因,我们在识别过程中会遇到目标尺度变化大,目标的外观变化大等问题,因此如何提取、构建具有较强分辨力的、又能兼容目标尺度、外观等变化的统一视觉表征,是本领域的最重要的难点。第二,因为视频是运动变化的,因此如何对视频内的各种目标进行跨时间空间的关联,也是比较关键,在很多大型视频监控问题上,得到同一目标的时空路径,对于可能发生的事件推理,是相当关键的。第三是目前视频理解的困难之一在于存在有标注的数据量还是比较少,而视频内容的变化又是巨大的,使得很多有监督模型的训练比较困难,所以很多视频理解的算法,特别是复杂的行为识别算法,目前工业界还没有广泛的落地应用。最后是计算的问题,因为视频数据体量很大,目前通用的深度学习模型也比较庞大,如何压缩这些模型,使得效率与精度兼备,这也是目前以及将来很长一段时间在视频领域需要解决的问题。
除了这些传统的智能视频分析的研究,目前我的团队更加关注与聚焦于互动创意视频媒体领域。近期我们在智能的视频生成方面做了一系列的工作,比如基于空间约束的人物运动视频生成、人脸的实时3d表情迁移和从sketch到动画的自动生成等。我们认为新媒体的重大需求就是内容的智能产生,以及内容的个性化产生,而目前人工智能在视频方向的发展,恰恰能够满足这两个方面的需求。我们可以看到未来有更多的媒体内容是计算机程序自动编辑产生的,而且对于不能的观众,它能根据观众的喜好产生不同的内容。我们团队最近的一个非常有趣的工作是根据nba视频自动产生体育解说,目前效果非常好,几乎到了以假乱真的地步,在很多国际主流科技媒体上,也被广泛报道。当然,这些技术的难点在于生成内容的解空间非常巨大,因此如何进行有效的空间约束和空间分解,可能是提高内容生成质量的关键所在,我们也在这个方向进行努力探索。
您多次参加行为识别、检测竞赛,并获得了2012年国际模式识别旗舰会议icpr行为识别竞赛第一名、2014年国际计算机视觉旗舰会议eccv行为识别竞赛第二名、2015年thumos 2015行为检测国际竞赛第一名等,能跟大家分享一下您参加这些竞赛的经历和经验么?
我觉得参加竞赛,与学术研究有一定的相通点,也有很大的不同。比如相通点是都是要对于算法进行一定的创新设计,目前深度学习的时代,很多开源的工具、算法,对于竞赛的参赛者来说,起点和基础都是类似的,这个时候,如果能对模型进行一定的创新,更加能够适应场景的问题,最后一定会脱颖而出。异同点在于对于竞赛来说,最后的工程细节也非常重要,比如你用模型融合的方法提高性能,那么如何融合,如何给合适的融合系数,在何阶段进行模型融合,是否应该对于子问题进行建模,数据应该如何前处理以及后处理,这些细节都能够极大地影响到最后的成绩。对于参赛者来说,事先如何规划好团队