华为诺亚方舟实验室（华为诺亚方舟实验室待遇）_传播推广

12月6-8日，为期三天的“2019世界创新者年会”在北京顺利举办。本次大会由中国企业联合会指导，由亿欧·EqualOcean、工业和信息化科技成果转化联盟联合主办，本次大会以“科创4.0:共建全球化新未来”为主题，集结了来自美国、英国、印度、新加坡、印尼、尼日利亚、巴⻄、日本、以色列等十余个国家或地区的6000名创新者，总结2019年世界科技与产业创新的成果，预测2020年最新创新趋势。

本次论坛邀请了华为诺亚方舟实验室计算视觉首席科学家田奇教授、氪信科技创始人兼CEO朱明杰博士、文安智能创始人陶海教授、魔珐科技创始人兼CEO柴金祥教授、MINIEYE创始人兼CEO刘国清博士、联想创投董事总经理王光熙、达观数据创始人兼CEO陈运文博士、踏歌智行创始人兼首席科学家余贵珍教授、小鹏汽⻋首席科学家郭彦东博士，共同探讨和分享作为科学家创业者在创业路上的收获与感悟，探索科学技术与商业化的结合机会，助推产学研领域协同发展。

其中，华为诺亚方舟实验室计算视觉首席科学家田奇带来了主题为“科学·企业家科技成果推广方案，双重身份下何为我眼中创新者?”的演讲，演讲的核心观点有:

学术界和工业界具有互补性，学术界对工业界价值就为工业界源源不断的输送人才，为工业界提供前沿的方向，同时学术界对性能的极致追求为工业应用打下坚实的基础。工业界对学术界的价值是反馈学界人才回流。学术界和工业界的侧重点不一样，学术界更关注方法的理论化、通用性、探索未来和启发式的认知水平。但是工业界更注重于商业价值，更注重方法的使用性。创新应以人才为核心，人才培养是其中最大的中心。

以下为演讲实录:

各位嘉宾早上好，非常感谢组委会对我的邀请，我今天报告的题目是“双重身份下何为我眼中的创新?”我来自华为诺亚方舟计算视觉实验室。这是我报告的目录，第一部分是我学术和工业界的背景以及诺亚方舟实验室的介绍;第二部分是“在前沿创新的研究和业务落地之间的AI使能鸿沟”，以三个例子来说明一下;最后从学术界和工业界的⻆度来思考什么是创新?

刚才也介绍了我2002年博士毕业于伊利诺伊香槟分校，从2012年开始加入德州大学分校，从计算系助理教授到副教授，再到教授一共做了17年的老师。

在2008年到2009年我利用学术休假，在微软亚洲研究院，担任主任研究院做了一年多的工作;2010年至 2015年受清华大学张华老师邀请，回到清华大学神经与认知中心做客座教授;2011年到2014年在 NECChina当顾问;2016年获评IEEE;2017年获评教育部⻓江学者。这就是我在学术界的一些经历。

2018年夏天，我利用学术休假加入到华为诺亚方舟计算视觉实验室，在今年9月份辞掉了在美国的终身教学职位，现在全职加入了华为，所以我现在身份是在工业界。当然大家可以看到我大部分时间是在学术界，在工业界的时间还不算⻓，所以只能在这里谈一些个人的浅⻅，算是抛砖引玉吧。

我供职在诺亚方舟计算机视觉实验室，诺亚方舟目前有几个组:计算视觉、自然语言处理、搜索、推荐、决策推理、机器学习，仿真学的人机交互。以支持产品部⻔、企业智能、网络智能、终端职能、终端智能手机拍照大屏，还有一些信息的业务，例如无人驾驶对我们来讲也是微感知传感器融合。

华为的AI使能鸿沟，通过和全世界25所高校的合作，很多研究人才加入了这方面的合作。诺亚方舟的愿景就是让AI使能鸿沟、世界级的产出建立顶级的AI大学，来帮助公司实现AI战略的转型。

我们在欧洲、伦敦、巴黎、莫斯科、加拿大多伦多、蒙特利等地都有布局。在中国的深圳、上海、北京、⻄安、香港等都有相关的研究同事。

下面介绍一下我们前沿的创新研究和业务落地之间，发现所谓的AI使能鸿沟，我讲几个例子:

首先，学术界和工业界的侧重点不一样，大家都知道学术界更关注方法的理论化、通用性、探索未来和启发式的认知水平。但是工业界更注重于商业价值，所以更注重方法的使用性，针对某一个特定的问题，提升用户体验，带来实际的价值。所以学术界和工业界优化的目标不一样。其实在华为，可以借助华为的大算力、大数据的平台，应用华为AI芯片支持我们前沿的视觉研究。

我们的视觉研究分成六个方向:底层视觉、语义、理解三维视觉、数据生成、视觉计算、视觉多模态的融合，这是我们聚焦的基础研究方向。应用场景包括自动驾驶、平安城市、终端视觉等。由于前沿研究和应用场景它之间的优化目标不一样，所以存在着AI使能鸿沟。

下面我以自动驾驶的的目标检测、平安城市中的行人站识别和终端识别中轻量级网络的设计，来讲一下 AI使能鸿沟的问题、工业界是怎么处理的。

首先以自动驾驶的检测为例，左边是学术界研究的目标检测，它的数据标注比较干净、准确，但是工业界的场景更加复杂，有很多有噪声的标签。比如右图的Car被标注成了巴士了，左边有一个巴士被错误的标记成了Car了。

处理带有大量噪声的数据有两种办法，一种是直接处理噪声的数据，从设计惯性的算法，自动分类反应上升的标签从而进行修正或者丢弃;另外一类就是设计半监督和无监督的方法，使得我们的模型能更好的泛化在这一弱标签或者无标签的样本上。

学术界的目标检测，从目前使用最为广泛的来讲，类别和类别之间分类比较清楚，图像比较清晰，一般都有比较良好的光照条件，准确率可能是唯一。但是工业界的自动驾驶中，我们收集到的数据类别可能分布不均匀，也就是标记成本比较高，想象层比较多，所以一些⻩灯和交通锥桶等这目标标注样本比较少。

同时，不同应用场景分类的语义有时候比较难以确定，需要组合标签。例如载人三轮⻋，首先要进行人的标注，再进行三轮⻋的标注，最后再形成一个组合标签。

在数据采集的时候，反而要采集一些图像资料比较模糊，光照条件比较差的图像。比如暗光和误报的一些场景，这样是为了让更好的训练我们的算法、提升系统的性能。

在评价标准上，主要看一些具体的应用，比如检测一些关键的障碍物来制定我们的产量、存量和评价标准。

学术界中目标检测，以最常用的目标检测模型，不太考虑数据分布的不均衡性及各任务之间的依赖关系，我们的解决方案是要设计考虑一些计算量小的网络模块，采用多目标、多分枝的设计来解决目标检测。

第二个例子我以平安城市中的使能站识别为例，左图是学术界做行人站的识别，它的场景相对比较单一，是城市或者上空。行人站识别两个最大的图像数据集就是多场景、多时间段的两个数据集，都是我们这几年做的工作。

但是工业界使能站的识别，是针对城市群的大规模复杂场景，所以它的条件很难被约束成为理想的条件。那么以这个多场景、多时间跨度的数据集为例，包括4101个行人，标注行人大概12万方有15台摄像机，采集了室内、室外两种场景的情况，行人的假定能够被很好的解析出来，准确率是唯一一个评价指标。

在工业实际场景中，要面对的是几十万个这样的行人ID、几千台甚至几万台这样的摄像机、几万张亿级别甚至更多行人的智能图像，针对校园、社区、街道等多种场景。我们也有园区的项目，经常出现检测不准或者错误非常严重的情况，所以不光是准确率，我们还要考虑模型的大小和速度等。

在行人识别中这是一个非常常用的识别模型是基于人体、部件等等。这是我们在2018年的工作，主要是说一个图片整体分成多个模块，让不同ID之间能够区别开来，从而提升系统的鉴别能力。

工业场景中如果用这个方法就比较危险，因为工业数据量特别大，不同的ID之间存在非常相似、甚至相同的一种模块，如果还是把相似的模块完全分开，就有损特征的提取，从而导致系统性能的急剧下降。

另外，我们如果把预训练的系统部署到新的场景下，这一系统的性能会下降很快，一个解决方法就是场景迁移，所以在2018年我们华为学生提出了一个方法来缩短数据的鸿沟。这一种算法提出来后，当然对系统性能是有一些提升的，但是如果应用到实际的工业场景中，生成的图像的质量还是比较差的。同时也引入了大量噪声，虽然对系统性能带来一定的提升，但是它的天花板效应还是比较低，不能满足工业界的要求。

我们的解决方案解决的是如何把一个新的系统探索和部署到新的场景下来，过去它是偏重于跨摄像机的标注，因为人被不同的摄像机捕捉到，多进行标注。但是我们的解决方案将跨摄像机的标注转为单摄像机、单摄像头的训练模式，我们只标注行人再一个摄像头下的数据。因为在一个摄像头下，行人的检测会变的高速自动化，从而极大的减少数据标注的成本和时间。

最后以华为终端视觉轻量的神经网络为例，在学术界轻量级网络在保持准确率的同时，注重如何减少计算量或者减少模型的参数和模型的大小。但是在工业界要考虑真实硬件的一些指标，比如能耗、速度和内存等，所以很难用理论的指标。

那么学习计算机的网络，例如计算量和模型参数的方法，虽然计算量和模型参数降低了，但是实际的速度还是比较悲观的，现在工业界的一些轻量级计算偏重于像谷歌、V2这类引入深度分裂的模型，这就提出了通耗混排的操作，在A3使用NASS的技术进行网络结构搜索。但是存在一些问题，我们要充分的利用特征之间的融性，适配特定的一些硬件。

2018年轻剂量级模型常用的思路，就是交叉通道。交叉通道之间的信息可以得到更好的应用，但是交叉的操作对硬件的实现是不友好的。这种操作对于内存和存量存在着不连续性，所以会导致硬件运行效率的降低。

我们在今年提出了以廉价的线性变换来换取更多的特征，这样对计算资源的需求同时因为廉价的线性变换对硬件友好，所以可以更好的达到这一个目标。

最后，我主要从学术界和工业界的⻆度来看什么是创新?学术界和工业界显然具有互补性，学术界对工业界价值就为工业界源源不断的输送人才，为工业界提供前沿的方向，同时学术界对性能的极致追求为工业应用打下坚实的基础。

工业界对学术界一个价值是反馈学界人才回流，我觉得人才相互流动是一个正常的现象，而且在实践中给学术界带来一种新的方向，最后系统的整合学术界提供一种全局的布局。所以学术界和工业界应该形成互补互益、⻬头并进的状态。

在领域中也存在很多双重身份，从学术界到工业界的人，他们的思考我也来分享一下。颜水成是新加坡国立大学的终身教授，也是前360AI分院的院⻓，现在是依图科技首席技术官。他认为学术界的研究是否成功，关键是要看技术。另外需要提炼解决问题的方法。学术界节奏可以放慢一点，一个输出需要几个月甚至半年的时间，但是工业界只要能解决问题就是好的人工智能。

香港中文大学的汤晓欧，也是商汤科技的创始人，他说中国的人工智能要做好三件事:第一要坚持，把基础做好;第二要创新，要做新的东⻄;第三要把飘在上面的东⻄落地、做产业化。香港中文大学的贾佳是亚腾讯优图的杰出科学家，他的观点就是“技术要上天、产业要落地”。

还有大家更熟悉的李⻜⻜，是斯坦福大学教授，前谷歌云人工智能的首席科学家。她认为科学到科技再到产品就像一个4×100接力赛，每一棒都有它特别的功能，学术界应该是4×100的第一棒，工业实验室是第二棒，产业和投资是第三棒、第四棒。

最后是纽约大学图灵奖的获得者，现在也是Facebook的科学家。他认学界和业界的双重联盟，可以同时为学界和业界做出贡献，不仅推动了云识别、图像识别、文本理解和语言翻译技术的进步，同时也带来了理解智能的基础科学进展。

这是业界其他双重身份的人的真知灼⻅。在我看来创新的核心要素是什么?我认为创新应以人才为核心，人才培养其实是

试看结束，如继续查看请付费↓↓↓↓

打赏0.5元才能查看本内容，立即打赏

来源【全网营销】自媒体，更多内容/合作请关注「辉声辉语」公众号，送10G营销资料！

华为诺亚方舟实验室（华为诺亚方舟实验室待遇）

相关推荐