眼擎科技代勇:抛弃传统ISP成像架构,让视觉成像能力将全方位超越人眼

韩璐 1年前 (2018-05-08)

在其看来,日常生活中,如若不能解决弱光、逆光、反光等环境中的自适应成像问题,AI视觉产品便无法大规模落地、进行产业化。

4月25日,由硬科技第一产业媒体镁客网主办,苏州市科学技术局指导,苏州工业园区人工智能产业协会、苏州国际科技园、蒲公英孵化器协办的“M-TECH主题论坛——AI创新带来的智能革命”在苏州南园宾馆圆满落幕。

现场,眼擎科技商务总监代勇带来了主题演讲《成像引擎芯片:AI视觉的最后一公里》。过程中,其详细结构了当前成像技术的痛点——在传统的摄像头领域,最大的痛点就是不能像人眼一样,能够适应各种各样的复杂光线。

眼擎科技代勇:抛弃传统ISP成像架构,让视觉成像能力将全方位超越人眼

以下为代勇演讲的要点摘录:

1、很多计算机视觉系统的识别率可以达到99.9%,甚至更高。但是,这里面有一个重要的前提——所有图像的成像效果是正常的;

2、在传统摄像头领域,它最大的痛点是不能像人眼一样,能够适应各种各样的复杂光线。不管是手机还是摄像头,它的成像能力比人脸至少差30倍以上;

3、日常生活中,如若不能解决弱光、逆光、反光等环境中的自适应成像问题,AI视觉产品便无法大规模落地、进行产业化;

4、成像分为三个年代,第一个是以美国柯达公司为代表的30年代,那时候的成像是光和化学的转化;第二个是以日本成像架构为代表的数码时代;第三个则是以AI为代表的成像时代;

5、以前,传统的成像设备为了“人看图像”而做的研发,现在,给机器看的视觉时代开始了;

6、当你要做一个原创芯片产品的时候,一定要做心理准备——前三年甚至更长时间,就是老老实实的做技术研发,然后两年的市场推广,才很有可能迎来接下来两年的大规模收割。

7、中国以前做芯片,大部分是从中低端产品开始做起,比如说有一个数字控制芯片,我们做的是美国或者欧洲价格的十分之一,性能差一点,可靠性差一点没有关系,最后有市场,所以我们看到的市场就是做进口替代的生意。

以下为代勇演讲全文:

今天很亲切看到合作伙伴和朋友从深圳和北京来到今天的现场。

我们现在可以看到,从视觉来看,我们所熟知的AI公司,如商汤和旷视等等,就像在做人类大脑的事情,即认知分析层面的事情。而眼擎科技要解决的是“AI视觉成像的最后一公里”,做类似于“人眼”的东西。

AI视觉里面,今天看到许多媒体报道,很多计算机视觉系统的识别率可以达到99.9%,甚至更高。但是,这里面有一个重要的前提——当这些产品在实验室里,所有图像的成像效果是正常的。

在现实生活中,我们自己有很深的感受,就比如淘宝的买家秀和卖家秀。

在卖家秀的照片中,层次分明、颜色丰富、光线很正常。但是买家秀的照片,往往很黑、没有细节。这时候就出现问题了,AI算法该怎么识别呢?

其实,在这方面,包括语音在内,都可以看到比较大的问题。当语音算法非常优秀的时候,最受制约的就是前端的麦克风,后者比算法落后了十年。

为什么有这个问题?就有一个现象——在传统的摄像头领域,它最大的痛点是不能像人眼一样,能够适应各种各样的复杂光线。不管是手机还是摄像头,它的成像能力比我们人脸至少差30倍以上。

前一段时间,Uber自动驾驶汽车在美国道路上行驶的时候撞死行人,这个事已经众所周知了。虽然事故的原因仍在调查,但在公布的视频里,在撞人的一瞬间,这个行人非常不凑巧的是从大灯的暗光部走到亮光部,对于传统的摄像头就意味着亮度不够。

我们自己开车也有一个体验,因为道路有路灯,汽车有大灯,人在那儿肯定能看到这个行人。但是,当机器的眼睛的能力不够时,就做不到这一点。

因此我们认为在AI视觉的产业中,如若不能解决弱光、逆光、反光等环境中的自适应成像问题,AI视觉产品便无法大规模落地、进行产业化。

还原一下,从历史的成因来看,成像分为三个年代:

一个时代是以美国柯达公司为代表的30年代,那时候是光和化学的转化;

80年代,日本开始做起来,整个成像产业进入了日系统治时代,我们可以看到今天所有的设备、摄像机都是日系的。还有一个奇怪的现象,当日本开始数码时代之后,美国和欧洲都没有踏足成像技术。目前,所有成像ISP技术的核心全部是日本的。同样,成像技术的架构革新能不能适应AI时代的需要,如果日本不做,大家就一直要等待;

到2018年,以AI为代表的时代来临,很多兴起的产业都是在中国。我们认为,数码相机ISP架构是没有办法解决高动态范围内复杂的光线问题。

为什么会这样?传统的ISP架构有一个致命缺陷,那就是基于8位的数据处理导致大量RAW 数据信息丢失,从而让图像细节丢失严重。喜欢玩单反的朋友们都知道,很多专业的摄影师,其实在拍照的时候,是不用JPG格式的图片的,更多是是基于后期的软件修图,最后把照片调的非常漂亮。在日系成像架构里,传统的ISP架构有一个非常不好的地方,它所有出来的RAW数据,第一步进入ISP处理的时候,直接就把16位的裁成8位,,RAW数据是一个单独的数据流,如果是16位的信息被ISP裁成8位,那么JPG格式照片比原始RAW数据信息少256倍。就是通俗理解的,这个图片在传统的架构上给到算法识别的时候,这个图像的信息少了接近200多倍,这就导致了图片出现问题,为什么图像的质量那么差,那么不清晰,为什么逆光拍的不清楚。这个里面有一个大概的结构,包括镜头、CMOS传感器,还有成像引擎,我们就是要专门解决这个问题。

眼擎科技是一家致力于研发比人眼更强的成像引擎公司。我们可以看到左边的图片,这是实验室现场图景,很黑,但是经过成像引擎的处理之后,在现场没有任何辅助光源的前提下,我们可以把照片中物体的颜色进行还原,让成像很清楚。

左边有一个短视频,没有成像引擎的时候,整个场景都是很黑的,但是我们开启成像引擎的时候,就可以把图像的颜色和亮度,物体的细节就都可以被看清楚。

通过努力,我们可以做到在实时的弱光、逆光等复杂光纤环境下,让设备的成像能力超越人眼,并且帮助算法进行正常的识别。目前成像引擎暗光能力比人眼高8倍,降噪能力比摄像头高64倍,逆光能力比摄像头高32倍。未来三年,眼擎科技的使命就是让视觉成像能力将全方位超越人眼。

我们怎么做到呢?刚才讲传统ISP核心的问题,就是不管图像信息多丰富,我进来先给你裁剪成8位数据,信息量就少了200多倍。我们第一天就彻底抛弃了日系的传统架构,在成型引擎架构中,当一个CMOS 14~20位RAW数据进来的时候,我们直接基于Raw数据进行处理,最后在把它压缩成8位的JPG图像,保留所有图像细节信息让AI机器可以识别出来,不管是什么样的光线环境下,都可以很好的处理。

这里跟大家分享一下:AI的革新带给成像产业的变革是什么?

以前传统的成像设备都是基于“人看图像”在做研发,现在,给机器看的视觉时代开始了。首先,AI视觉不需要美化图像,需要的是高精度的视觉测量仪器,即图像准不准,颜色准不准。另外,颜色是AI视觉测量世界的根本依据,包括信噪比也是衡量颜色准确度的关键指标。

我们眼擎科技的产品是eyemore×42成像芯片,是AI机器的视觉中枢。比较传统的成像能力,我们在有20倍的算力提升、20+算法以及500多种光线场景的验证数据。

明年,我们会做到28纳米,2020年我们会做成一个14纳米的SOC,这样的话,我们的算力将更加强大,功能更加丰富。

做一个芯片挺难的,更难的是怎么把芯片卖出去。从第一天开始,我们就深刻认识单独做一个芯片很难形成一个产业,当一个客户有一个新场景的时候,最先用的是开发套件验证性能和场景,然后,会用你的模组进行小批量试产,等到规模稳定之后才考虑用你的芯片,后面还有IP授权,行业定制等模式,这是我们建立起来的完整商业模式。

我们是一个“3+2+2”模式,怎么说呢?当你要做一个原创芯片产品的时候,一定要做心理准备——前三年甚至更长时间,就是老老实实的做技术研发,然后两年的市场推广,才很有可能迎来接下来两年的大规模收割。

我们成立于2014年,几年来专注做一件事情,就是开发超越人眼的成像引擎。我们今年是第四年,市场推广的第二年,我们彻底抛弃传统的ISP成像架构,从解决复杂光线下的成像品质角度起步,形成单点突破,最终超越人眼。

分享一个案例,4月20日我们发布了针对自动驾驶和辅助驾驶的DX120汽车成像方案,产品系统整个都是车规级要求的。我们第一天做的时候就是从非常成熟的产业角度去做的这个事情。其中,120dB是什么概念呢?这个是个欧洲车规标准,这个动态范围基本与我们人眼的能力等同,我们先将汽车的视觉能力提升到和人能力等同,以后路上汽车也可以很安全的看路而行。

视觉其实是一个很直观的事情,可能大家不是做这一块的,就不了解我们的技术,在这就分享一个在深圳道路实测的视频。右边是我们的DX120拍的,过隧道非常典型的场景,有逆光,还有道路漆黑,左边对比的情况下,大家看不清楚的时候,其实可以看到DX120 视频流中图像的层次,轮廓和车牌都可以看得很清楚,这就是我们讲的120dB的概念。

这个是北京实验室拍的,很多人都知道逆光是很头疼的事情,你想拍清楚人的时候,背景过度曝光,左边就是可以看到人和背景,同时也可以看得非常清楚。

产业布局也是一样的,我们的技术会重点放在自动驾驶、安防、工业检测、无人零售和机器人、深度相机六个领域。

2018年,我们的市场策略是针对行业领域树立标准,同时兼顾战略客户、行业标杆客户和落地客户的市场战略,欢迎大家跟我们建立合作。

这是我们产业布局的分布。芯片产业现在比较有意思,以前受制于产业格局的局限,所有的东西都是CPU一家独大,现在所有的算法基于GPU,它的重要性就被体现出来了。当GPU的算力达到很高标准,算法很丰富的时候,前端摄像头这个眼睛的成像能力好坏,就成了“最后一公里”的关键问题,也是我们现在在做的事情。

最后跟大家分享一个中兴的事情。很多朋友问我,说中国航母都造出来了,火箭也造出来了,为什么一个芯片会这么困扰大家?

中国人做芯片只能做很简单的,比如说有一个数字控制芯片,我们做的是美国或者欧洲价格的十分之一,性能差一点,可靠性差一点没有关系,最后有市场,所以我们看到的市场就是做进口替代的生意。以前想做芯片其实没有空间,现在AI的兴起,对AI芯片需求逐渐多样化,全球都在统一起跑线上,大家才有机会,我们第一天起就很清楚要做这个领域属于自己的原创数字的高端芯片,将来成为成像引擎芯片产业的领导者

这个是我们的创业团队,创始人是朱继志,1998年在北大电子系毕业,他后来在中兴做了十年的视频图像产品研发和管理,接着在国内最大的芯片分销商做了八年,负责包括汽车、手机、工业等芯片推广,所以我们在视觉、芯片都有比较资深的经验。另外,我们CTO余博士专注成像领域技术20年,在图像领域和成像算法研发都有丰富的经验。

也希望更多合作伙伴能够与我们一起探索AI视觉时代的新成像市场。

我的演讲到此结束!谢谢大家。

最后,记得关注微信公众号:镁客网(im2maker),更多干货在等你!

镁客网


科技 | 人文 | 行业

微信ID:im2maker
长按识别二维码关注

硬科技产业媒体

关注技术驱动创新

分享到