北京科技大学殷绪成教授访谈
2021年1月12日,《ccf-cv专委简报》在线采访了北京科技大学计算机与通信工程学院模式识别与人工智能技术创新实验室主任殷绪成教授。下面是采访实录。
殷老师,您好!首先,请您跟大家分享一下您的个人研究经历。
我2006年博士毕业于中国科学院自动化研究所,博士论文为“金融票据识别系统的应用研究”,针对金融票据(银行票据、保险保单等)文档图像分析与文字识别进行方法研究,并结合汉王ocr产品与系统进行了技术应用,率先在国内研制了大规模应用的银行票据识别系统。
2006年至2008年,在富士通研究开发中心担任研究员(scientific researcher),主要从事手机拍照文档图像分析与识别研究,发明了文档图像透视形变快速矫正技术,研发了业内首款手机文档拍照自动在线矫正处理应用程序(f905i/f906i/f01a,2007年)。
2008年6月,回到北京科技大学计算机系从事教学科研工作,从事模式识别、文字识别、计算机视觉研究,先后任副教授、教授,担任模式识别与人工智能技术创新实验室、北京科技大学-亿智电子科技人工智能联合实验室主任。十多年来,一直以大规模、强复杂自然场景/网络图片/复杂视频文本检测、跟踪与识别为中心,开展方法研究与技术创新,研制了网络图像文本识别技术超大规模应用系统。
您在文字识别及文档图像分析与识别领域取得了很大成就,能否分享一下您对这个领域的研究现状和未来发展情况的认识?针对这个领域的研究者,您有什么建议?
文字识别、文档图像分析与识别是模式识别、计算机视觉中的一个经典领域,也是整个人工智能中最早的一个热点研究领域之一。20世纪60年代初,ibm推出了世界上首个商业化ocr产品,也是世界上早期商业化人工智能产品的代表。80、90年代,文字识别相关论文占据了ieee t-pami期刊的小半边江山。
目前,随着移动互联网、智能物联网、人工智能的迅猛发展,涌现了海量的自然场景图像、网络图像视频、历史文化文档、财务财会票据、法律法规文件等电子化文档图像数据,文字识别又一次成为模式识别中一个重要的热点研究领域。其中,自然场景、网络图像文本检测与识别,特别是多语言文本检测与识别,依然是当前及将来的热点研究。同时,个人认为,文字识别研究未来发展还包括以下几个问题:
(1)小样本学习方法及可解释性问题,不仅是模式识别、机器学习、人工智能中的核心问题,更是多语言、跨场景文字识别研究中现实的基础问题;
(2)自然语言处理技术及多模态信息融合问题,即嵌入自然语言处理技术、融合文本/图像/视频等多模态信息,服务于文档图像分析与识别,将是未来文字识别研究的一个趋势;
(3)复杂中文手写文档图像分析与识别问题,一直都是文档图像分析与识别领域的一个难点问题,也是中国文字识别科研工作者当仁不让的责任,需要国内学术界、产业界大力支持与通力合作。
您作为第一完成人,负责的“网络图像视频大数据的智能识别关键技术及应用”项目获得了2019年度北京市科技进步一等奖,能否分享一下这项成果?您的感受或者“获奖感言”是什么?
我们的“网络图像视频大数据的智能识别关键技术及应用”项目有幸获得2019年度北京市科技进步一等奖,虽然本人是第一完成人,主要还是团队、尊龙凯时官方入口的合作伙伴大家一起努力的结果。
项目提出了鲁棒模型构建、快速增量匹配等新方法,突破了文字、目标、视频智能识别等关键技术,构建了先进的文字识别及多媒体大数据智能分析平台架构,建设了面向国家互联网信息实时分析的图像识别与信息管理应用系统、面向城市物联网的智能感知与市政城管应用系统等多个超大规模技术应用系统,有力地保障了国家网络信息规范利用和城市管理,产生了重要的社会效益和经济效益。
该项目是一个典型的产学研深度融合实例。自从2008年回到北京科技大学从事教学科研工作以来,本人及团队以应用研究为主,针对模式识别、文字识别、计算机视觉领域中的共性技术挑战,先后和富士通、三星、汉王、科大讯飞、腾讯等单位,进行了良好的技术交流与合作研究,产学研成效明显,不仅推进了人工智能技术创新与成果落地,也提升了学校人工智能人才培养质量。
您连续四届(2013、2015、2017和2019年)荣获国际文档分析与识别大会技术竞赛文本检测和文本识别等15项冠军,这非常难得,请问您是如何做到的?能传授一下您的经验么?
国际文档分析与识别大会robust reading技术竞赛是国际模式识别领域代表性的重要经典赛事;从2003年设置以来,几乎世界上学术界、工业界所有重要的文字识别研究团队都参与了该项赛事,累计几百支团队参加了评测。
2013年是我们第一次参赛,当时我们提出了一种快速的文本检测新方法,比较幸运地赢得了那届比赛自然场景文本检测和网络图片文本检测双料冠军;同期,我们的新方法论文投稿ieee t-p