热搜
您的位置:首页 >> 科技

本文发于新智元作者胡祥杰经亿欧供行业人士2019iyiou

2019年05月14日 栏目:科技

【编者按】在本文中,你将看到以下几个方面:英特尔中国研究院院长宋继强讲解做AI芯片的“XPU”公司需要具备什么素质;英特尔中国研究院院长宋继

【编者按】在本文中,你将看到以下几个方面:英特尔中国研究院院长宋继强讲解做AI芯片的“XPU”公司需要具备什么素质;英特尔中国研究院院长宋继强透露英特尔招聘芯片人才标准;英特尔中国研究院院长宋继强深度解读AI时代ASIC、神经元芯片、FPGA这三类根据需求多样化应运而生的芯片;英特尔中国研究院认知计算实验室的主任陈玉荣介绍在计算机视觉上的研究成果和前沿方向……

本文发于新智元,作者胡祥杰;经亿欧,供行业人士参考。

在这篇文章里面,我们将会看到一个与平时出现在公众眼中不太一样的英特尔。

英特尔中国研究院其实是计算机视觉的一支老牌劲旅

宋继强演讲的句话就是,“今天给大家爆个料,英特尔已经不是一家芯片公司了,我们是一家数据公司。”但是,对于许多人来说,当天会议现场一个更大的料是,英特尔中国研究院其实是一只以计算机视觉见长的团队。

作为英特尔中国研究院的院长,宋继强告诉新智元,英特尔在软件算法上也有非常深厚的积累。具体到人工智能这一块以视觉为主。

“我们中国研究院其实做三件事:一个是人工智能比较通用的算法,陈玉荣博士他就带领这个方向。而这条路线又是以视觉计算为主,因为我们强项在这儿,做了十几年了。具体来说,视觉和人脸技术就是从识别、跟踪,到表情分析,物体检测,场景理解等等,怎么样去把它们对应到我们的一些硬件形态上,比如说对应到Movidius上面去,对应到FPGA上面去”,宋继强对新智元说。

英特尔中国研究院认知计算实验室总监陈玉荣在演讲中也提到,研究院主要是做人脸分析,识别,物体检测,DNN的压缩,以及视频描述相关的一些工作,这一块做得还是比较好的。他们与清华大学合作的研究成果RON:Reverse Connection with Objectness Prior Networks for Object Detection被今年的CVPR接收。研究者包括孔涛、孙富春、Anbang Yao、刘华平、Ming Lu和陈玉荣。

英特尔中国研究院在做的第二件事是智能机器人技术:一个是硬件系统,采用异构的系统架构,CPU+FPGA再加上一些Asic这些方式,做一个硬件的平台,然后在上面搭建软件的层次。

宋继强在接受新智元专访时表示,机器人技术是人工智能的集大成者,可以认为是人工智能“皇冠上的明珠”。他引用MIT学者罗德尼·布鲁克斯的话说,人工智能领域不要老是纠结于某一个具体的算法,一定要把它综合起来看,这个能做成一个什么样的系统,能够产生什么样的价值。近这一波人工智能浪潮,有可能产生价值的是两个点,时间点就是五年左右,也就是智能驾驶汽车;第二个点是十年左右,就是做智能养老的机器人。

第三件事是做基础设施,所有的基础设施其实是两样:一是通讯,一是智能存储。

不过正如大家所熟知的那样,英特尔中国研究院还是以“研究”为主要任务,关注年内可以产品化的技术。与在中国拥有3000多人的英特尔研发团队相比,研究院的人数只有人。5年之外的技术布局,他们会让大学去做,寻找合作渠道可以把一些技术转化成产品。

华为都在做AI芯片,说明有很多机会

宋继强对新智元说,英特尔在AI芯片上的特色是提供端到端的解决方案。他说:“我们提供AI芯片不是说只提供某一个点上的,比如只训练或者只推理,而是训练和推导都要兼顾的。因为前端价格便宜,体积小,但是它的量非常大,而且它的好处是可以通过前端的很多小的智能设备,把数据带进来。”

具体来说,他看好FPGA,因为现在很多络并没有定型,而是需要经常换,在换的过程中你并不清楚底下有什么样的硬件方式合适,所以在大家纷纷尝试的时候,FPGA反而在硬件的层面代价比较小,因为不需要等一个完全定义的ASIC出来。我们还属于这一波人工智能当中的早期阶段,还没有完全定型,所以你要提供多样性的解决方案,给多种不同的使用人群去使用。

对于做专用芯片的公司,宋继强认为要具备三种能力:1、考虑工具链怎么做;2、有预测能力,因为芯片的产出是一个长期的事;3、要了解这个专用领域它的一些特殊要求,比如要拥有算法专家、视频解码专家等等。

随着苹果、谷歌和微软,甚至华为都宣布自己在AI芯片上的战略。英特尔感觉如何?

宋继强说,现在这些自己做AI的,自己做这些行业的巨头他都敢于去砸钱做芯片,这就意味着这个行业真的是很有前景。谷歌肯定一般不会看错,他知道这个算法很有用,知道这个值得去做芯片。华为也是英特尔很重要的合作伙伴,如果华为确定这个东西值得做,那就说明其实这个我行业其实已经有非常多的机会,不能缺失。

他说:“巨头砸钱去做专用AI芯片,意味着这个行业很有机会。对英特尔会有一定影响,但是整个市场是变得越来越大了,所以不必担心。”

院长说,怎样才算是真正的芯片人才

采访中,新智元与宋院长聊到了一个很有意思的话题。在招聘芯片研发人员的时候有哪些标准?或者说一个好的芯片研发应该具备哪些能力?

宋院长说,站在英特尔角度来讲,其实做芯片研发的人员,要具备芯片设计领域比较长时间的从业经验,要实际去走过几次流程:从早期的产品说明、定义到中间的模拟器,然后到仿真平台,再去做测试样片到调试,并且是要得调试过出问题的芯片才行,然后再跟软件做适配,就是做过量产芯片。

他说:“高水平的芯片研发人员,现在其实国内真的是不多。我刚才为什么讲这么长的流程,而且这个流程通常走一遍还不行,要两三轮才算是一个的芯片的设计人员。因为芯片有前端设计还有后端设计,前端设计跟功能有关,后端设计跟具体的工艺,跨界有关,甚至是跟你选择在哪个厂生产有关,所以就是说这些必须是有经验的人走过之后,他脑子里整个过程的问题他才知道。

如果说是比较年轻的,比如只做前端设计,他可能认为做个芯片就像编的程序一样,把这些逻辑搞通就行了,但实际上不是的,你放在不同的后端去做,他会产生不同的芯片的问题。这对后面调试这些芯片也会有很大的影响,这些经验不是说一出学校就有的,而是一定要经过真正做过两轮以上的这种芯片研发,你才会碰到一些这样的问题。”

他说,芯片这个行业不是说跳进来就能做的。为什么中国多的就是那种做比较简单的SOC芯片,但是做这种复杂度很高的芯片的公司都在美国。就是美国有这样的环境让他去走好多遍,你比如英特尔、英伟达,还有其他这些大公司,他是真的有量产的芯片去反复的走,每一年都在滚,所以这种工程师他进去以后他就会参与到,他就会学到,研发人员就会学到。如果说是在一个环境里面这个机会很少,比如说你很少有机会去参与到大规模量产的芯片,那你从哪儿去学这个经验?

除了在采访中充满洞见的分享外,闭门论坛现场,宋继强院长还进行了长达1小时的演讲分享,他在演讲中具体介绍了AI芯片的多种选择。详细对比了ASIC、神经元芯片、FPGA等多种形态的芯片优缺点。以下是演讲实录和PPT:

宋继强:“未来终端数据是石油”,芯片巨头在转舵

数据是“未来的石油”未来的各种的技术,包括芯片也好、软件也好,通讯技术也好,都是为了处理数据。

到2020年,保守估计,全世界会有500亿设备互联。500亿设备从数量上看是人所使用设备的10倍,未来的数据来源于各种设备终端。不再靠我们人打、玩、发邮件这些数据。无人车、智能家居,摄像头等都在产生数据。我们需要用技术去处理数据这些使其对客户产生价值。在这个过程中无疑芯片是及其重要的。芯片除了内存在存储之外,还有各种处理的芯片在去挖掘数据的价值。英特尔的芯处理有很多种类,这么些芯片是为了帮助这些新的领域实现新的技术突破。

从工业界开始,比较传统的数据较好去处理,数据来源明确。规格标注都相对来说比较容易获取。

但是如果说继续往c端走,去渗透到生活的方方面面对于人工智能的概念就要放宽,数据的处理是非常多样化的,除了云端还有移动的边缘计算,到我们所说的终端领域,其实都需要各种各样的芯片去加速处理数据。

“ASIC、神经元芯片、FPGA”需求多样化应运而生的三类芯片

ASIC应该来说是任何要去普遍应用场景里面的选择,一旦这个场景已经非常的确定,它的算法也已经稳定下来,而且它的量又够大,那就是ASIC的天下,比如说我们常见的视频的编解码,每一代反正都是ASIC。现在你会看到我们做人工智能,在算法还没有完全稳定的情况下,其实我们也有一些ASIC在产生,因为这其实也是在解决能效比的问题。

还有一类是神经元芯片,不是通过传统指令级的方式,去构建硬件实现某一特定功能。它只是模拟人脑的神经元互相组织,连接的机制,又有计算,又有存储,存储里面又会描述连接的关系,它只是构造了这个硬件的东西实现在这儿,里面怎么去慢慢形成不同的功能是要靠训练出来的,要靠慢慢的训练才会逐渐形成一块一块的,所以它的使用方法是不一样的。

如果给它做一些比较,这个比较其实有很多种比较的方法,可以先看灵活性,它到底是多任务、多算法的适应性是高还是低。如果像陈天石总不需要听这个了,ASIC一旦说我定下来以后,我一般来讲很难去改变它里面有些功能,除非ASIC本身设计就很灵活,它是允许可编程序,否则通常来讲ASIC的意思就是说这个芯片固定就是干这个的。

FPGA比它要好那么一些,它底下提供的一些基本的硬件电路,让你通过一些编码的方法去随时可以改变上面的逻辑连接和这些电路底下到底构成的是存储还是构成了计算,还是构成了IO通讯,所以它是具备可以在一定的现场时间里面去改变它的功能的这种能力。

举个例子,在数据中心的应用里面其实还是挺有用的,淘宝或者京东,咱们玩双十一什么这些的时候,你会知道那个时候在接近交易的那种大量人去买单,那个时候对交易时候所必须要的很多的认证,加解密是非常多的需求,平时这个需求不多,平时大家一天24小时都可能需要。那这个高峰期的时候它就可以把原来很多做其他事的FPGA进行支持,就可以响应那么多的需求,而这个高峰期过去可以把FPGA配上支持其他的功能。

像众核处理器还有CPU都是偏向通用的,那都是通过指令级去提供硬件的支持功能,所以灵活度,干什么其实都可以,GPU还是相对来说更希望那些比较规整的数据,同时流过一个执行的步骤,所以它通常称为多指令的方式去获取。如果我们做的一个事情经常需要跳转,经常需要判断该做A还是该做B还是该做C,这个就不适合让GPU去做。

从成本层面判断,部署成本来讲主要看云,一个是成本价格,第二就是要看部署了以后要花多长时间去学习怎么去用它,还有部署以后相关配套的整个系统的一些开销,来构造它的IO,构造一些东西,然后还有用电的问题,这都是部署成本。

部署成本来讲像ASIC这种已经基本固化了一些功能,例如像编码解码,你只需要把数据留给它就行了,这边你送进去编码好的出来就是原始的图像,所以这种是使用起来简单的。对于上面就是众核,这个处理器,它的使用的成本其实都是稍微高一些。

然后能效比你会看到越是红的它其实做同样的一个任务它要消耗的能量,比如说电就会越多,这也是做数据中心的人要考虑的一个指标。对于这几个领域其实英特尔这种独立的芯片有这么几种,ASIC我们有Movidius是在前端使用的,在数据中心可以用LAKE CREST,FPGA是两个系列,众核处理器是XEON PHI。

对于未来我们要去构造一个完整的做一件任务的解决方案的话,实际上来讲我分析不外乎两种情况,一种就是说先讲数据处理需求比较传统的情况,比如是很确定的小的设备,像无人机这种它只需要去检测有没有障碍,有没有人脸,做人脸的拍照或者做人体的跟踪,实际上它的任务是相对来说比较简单确定的,它用一个小的CPU+ASIC就可以了。

但是如果是复杂应用的例子,像无人驾驶,它有太多的任务要做,既要做外面环境的建模识别做避障,又要做车内人员信息的识别等功能。它肯定是一个异构的多种处理器混合在使用。像医疗也是一样的,假如说我在一个医院里上一套系统支持这么多的科室,又做实验室数据采集的一些分析,还做基因测序,还要通过人工智能算法去自动的读那些片,X光片,核磁共振片什么的,那我其实也需要这样的系统,使用起来的实时性可能就没有无人驾驶那么高。

这两种情况我们就会看到实际上我们怎么着都会需要异构的系统来去合理的一个范围。即使是异构的系统慢慢也会往更高层发展。开始大家都是在原形阶段在试,现在很多在做无人驾驶都是多模块系统,就是多个板子先连起来把功能试试,这个板子是CPU,那个板子是FPGA,那个板子是ASIC什么的,如果把它都做在一个半子上,这样减少成本,也减少之间的开销。如果再进一步其实就是能够把它集成到一个芯片的封装里面,这样效率是。

SIP也是一个比较高级的技术,在英特尔我们把++至强和FPGA++封装到一个芯片里面。两个不同的功能,一个做多任务的灵活的控制,第二做硬件级别加速低功耗的方案。

人工智能从技术突破早期阶段到经济正循环的产业升级

而且未来因为我们是说现在人工智能还属于早期阶段,大家刚刚被技术进步的喜悦所鼓舞,实际上来讲现在属于一个技术主导的阶段,在这个解的时候我们可能更多的关注是KPI,具体的技术点到底突破到了什么程度。人脸识别可以做到多少准确度?表情识别什么程度,物体检测什么程度,场景分析什么程度,这是具体的一些技术点。学术指标上大家可能在拼,几个点几个点在慢慢拼,拼到95%以上的那个点就开始越来越强。

慢慢开始我们讲要部署,你这些技术的升级一定要落到产业升级里面去,才能变成一个正循环,到这一步的时候其实就是经济因素在主导,如果差别只是一两个点其实无所谓,要看整个系统是不是很完整的构造起来,要看系统的运营效率,这种情况下关注构造系统的价格,整体运营功耗,让普通工程人员去学习,去使用和维护这样的系统哪个容易,这些都是考虑的因素。

应用场景下的芯片,异构计算、软硬协同是趋势

所以在早期来讲我们认为在技术因素主导的时候大家就是什么方便用什么,CPU、GPU这个连起来方便,做学术研究方便,但是真的到了市场因素来主导我去看怎么样部署的时候大家会去评估到底是怎么样一个异构的结合是。

为什么有多种不同的应用场景,无人驾驶是全球大家非常看好的领域,这个领域升值是说会带来千亿级别的市场,所以汽车里面本身它就要具备很多的硬功能,传感器的融合,建环境的模,并且能够检测到异常,所以它本身是一个很强的服务器,所以以后每一台无人驾驶汽车都是一台服务器,因为每台车每天会超过4000个GB的数据,这些数据都不可能通过5G来传输,所以一定很多数据是在本地处理和分析然后选择性的往上走,本地你会使用很多技术,超越现代服务器的技术。

计算你会用到像至强、FPGA这种技术,存储会用到像3D XPoint这种非易失的芯片。做到前端的检测可能用到Movidius做车内的情况,都有可能,这是一个完全的很综合的系统。然后云端,云端是非常重要的,因为这些车本身它可能只能去发现某一些场景的情况,然后云端可以帮他去综合一些他发现的东西或者不是这个车发现的而是别的车重新发现的,在云端重新升级这个模型,然后再把所有车更新,提高它的能力,所以云端要不断地做大量的训练,去形成新的模型不断改善前端的能力。

络也很有用,因为络侧以后不光做数据传输,有一个词叫移动的边缘计算是5G里面很重要的功能,就是在前端的接入这个位置要加入计算能力和加入存储能力。干什么?就是帮助这些连入络的设备做快速的低延迟的计算和存储。举个简单的例子就是说如果一个车开到一个场景里面,它可能自己并没有那个场景的高清地图或者说附近周围的车联的信息,或者说交通的信息,这些都可以从边缘计算数据拿到。

所以你会看到这里面除了我们要使用各种不同的芯片之外,很多情况下成功的关键是把软件和硬件协同优化,硬件毕竟我们觉得在AI的这个时代还不太适合做视频编解码一样完整的黑盒子给你,很多时候还要算法的演进,所以即使定制加速硬件也留有让软件做编程控制的余地,所以视觉算法要配合合适的定制加速硬件,这样才能的完成任务。

举个例子,这个例子是在我们云端做大规模的芯片和做大规模训练的芯片,这就是LAKE CREST,它中间的这些是提供运算的,提供了很高的计算密度,同时为这些计算提供快速的内存的反应,这些高带宽内存其实是另外的芯片,他们把这个封装在一个技术,这样他们才能以很高的速度和中间的计算单元通讯。

同时你可能也注意到ICL有一堆,这12个ICL也是我们私有的一种协议,去把不同的LAKE CREST芯片可以直接互联起来,形成12维的超格,这样可以很高速的互联并且构造很大的络去做训练,所以它同时要解决计算密度加上高IO速度还有可扩展性的问题,同时到底里面的算法怎么样,性能什么样,是要靠软件去调优的。也就是在这个上面运行的软件还是由人工智能算法的高手去写的,但是要能够了解这样的硬件能给你提供的加速的性能。因为这个里面的设计是没有cache的,这个内存的管理由程序人员或者算法人员来管理。

还有一个例子,就是至强融合,它实际上是用很多X86的核放在一起,并且给它也加上了一些并行处理加速指令,每一个小的蓝色块实际上是这样的,有两个core都是X86内核,每个core还有支持矢量运算的VPU,组合在一起形成一个片,里边有64个或者72个这样的片,所以它的可以同时去执行很多个不同的任务,可以把它切成四份,每份干一件事,也可以把它切成两份,这是由软件去控制配置的,同时它里面采用了的连接,也可以让它很容易的连接几百个节点,而且通讯信息会保持增强。

讲一个前端的,前段现在其实还蛮稀缺的,它里面实际上是基于Movidius的芯片,这里面做三维的查找表,这是做的固化。这些就不是固化,底下这12个是矢量的计算加工引擎,而且为了低功耗,每一个都有单独的电域,如果你现在不需要这么多可以关掉6个,纯粹是为了前端设备能省电。

而软件上面还是需要做蛮多的工作去把算法相应的做一些转化,放到这个上面很好的去分配起来,哪些是用这种灵活的矢量的数据去做,我觉得这个也是一个非常典型的,就是软硬件协同优化的,而且这种前端的设备是非常多的,我们知道未来真的部署AI的时候,后边的云和前边的设备比可能是1:100设备以上的关系,所以前面的更需要低功耗有能力的芯片,而且这边需要很多压缩一些训练好的神经络的能力,络压缩技术,同时保持很好的识别的精度。

作为英特尔中国研究院认知计算实验室的主任,陈玉荣也在会场上分享了英特尔在算法层面,特别是计算机视觉上的研究:

陈玉荣:揭秘英特尔中国研究院在计算机视觉上的前沿研究

陈玉荣:我们先看一看数据,现在大家都知道可以拍照,基本上视觉的数据在云端还有终端上都能计算。整个互联上,视频流量占据了所有消费者流量的80%以上,而且这个比例还在持续增加。留下一个问题就是,这么多海量的数据人基本上看不过来,的办法就是用机器去看,机器看主要就是要采取一些视觉理解的一些技术。

为了解决视觉数据爆炸的问题,实际上我们成立了一个跨多个实验室的研究规划,它研究的内容基本包括了视觉理解的每一个方面,还包括一些基础组件,包括视觉索引等等。

我们英特尔中国研究院在这个规划下面做一些前沿的视觉理解、视觉认知等等工作,目前我们主要涉及三个方面:人脸分析和情感识别;针对视觉识别高效的CNN视觉压缩;视觉和语言和知识融合。这样我们不光能够做人脸检测、识别物体,还能对物体的关系进行描述,把视觉识别一直到视觉理解对应起来。

下面我介绍一下我们的主要工作。我们对人脸的技术进行了长期的研究,从人脸的识别到性别、年龄、表情识别都有,实际上我们这些算法上都是我们有自己IP的,然后我们用这些算法和一些BU合作,来帮助英特尔的硬件、软件、应用和一系列解决方案。像比如说人脸检测,实际上它已经在英特尔的显卡里面有东西。另外软件里面我们有SDK。

另外就是情感识别,实际上情感识别是人工智能很重要的一块。对于我们人来说表情是我们表达情感直接的方式,2015年我们就做了一个算法,对人脸肌肉的运动和内在交互关系进行解码。基于这个算法我们参加了一个会议——有个比赛叫做自然环境下的情感识别比赛,我们获得。

去年我们实际上也有开发了一个新的解决方案,采用了的设计,它对络的低层、中层、高层结构进行了设计,终在一百个团队里面获得了第二名,

当时,我们的算法是新的,因为名他们都是没有太多的创新,所以我们这个工作实际上被选为有影响的工作,我们的速度是其他团队的200倍以上,因为我们本身是一个非常高效的模型,这个就满足了很多适应性的需求,比如在机器人,在自动驾驶里面,驾驶舱的乘客还有驾驶员都可以用。

另外就是物体检测这一块,传统方法都是基于大数据分析,实际上近年来基于机器学习算法基本处于一个基本算法。分两类,一类是区域算法,这里面有一个算法是我们做的HyperNet,这个工作实际上我们让BU做了一个开源的代码叫PVNet,它是基于HyperNet做的标准算法。

另外一个算法就是不需要区域的算法,我们把两类算法的一个点结合在一起做了一个新的算法叫RON,这个工作作者是我们英特尔,所有的IP都是使用我们的。

RON它实际上是基于一个减速区域络连接的侦查结构,解决了两个问题,一个是采用连接的络来使用在多层占比目标定位,这样就在CNN多个方面进行目标检测。另外采用了接线络的挖掘算法,通过这两个方式来提高它的精度和速度问题。这个是我们的一个工作。

当然我们还有别的新工作,目前像谷歌、Facebook都有很重要的络,我们也有自己的络,所以希望在这方面拼一把。另外,很重要的一点就是一般的检测算法都是基于一个模型去做检测,我们近有一个工作,不需要对model,只要有一个少量的标准就可以做一个模型,这个实际上对类别,物体检测算法会有一个全新的改变,就是说你可以定制自己的结构,不会依赖于找一个对称的模型,这样可以解决一些应用场景的需求。

另外很多络都有IP的,虽然大家不说但是你在商用会涉及到IP问题,这个会避开IP的问题。

上面是基于我们的算法做的一个模型,目标是在复杂场景里面进行多类物品检测,要实现实时性和准确性的要求。另外一个就是模型压缩,大家知道深度学习它的精度很高,但是它的复杂性比较高,因为它的模型参数上百万、上千万、上亿,这样除了高效的络结构设计另外就是对模型结构压缩,这里我们提出了深度压缩的解决方案,它可以实现把一个DNS模型转化成低精度的,实现近百倍的压缩。

这个解决方案包括三个部分,一个是DNS,主要是优化对DNS的结构。中间是INQ,优化完结构要对它的位置进行压缩,用二进制表示,这样我们也是通过一些巧妙的设计,包括一些机制来保证它。一个是VLE,可以实现对机器学习的加速。

这个是一个简单的对比,我们和目前的深度压缩解决方案的比较,实际上它的所有位置都做了硬件。我们实现上百倍的稍微有点损失,但是也是基本上可以达到上百倍的压缩,如果不损失精度的话差不多也是70倍的压缩。

我们一个方向是做视觉相关的工作,我们在CVPR上面做的工作可以产生对一个短视频的描述,简单看一看它的一个例子。这个是一个简单的视频,在这个视频上可以产生一个描述,分为三段:段就是穿红衣服的女士在给孩子们拍照,下面这一段孩子们在接受采访。另外还有一种方式就是说对于同一个视频可以产生不同的视频区域的序列,对于不同的区域序列可以用这个产生不同的描述。这就是我们今年的一个工作。

这个工作不光是在DVC,另外也在深度描述里面获得了的结果,我们看一看它的一个例子,这是一个Demo,下面的字母都是我们产生的,基本上你看它这个算法差不多是30帧做一次,而且基本上符合效果。所以这个离我们的水平还差很远,但是已经可以在一些视频站上做一些标注,所以这个还是很重要的设计。

2018年上海生鲜食品战略投资企业
2012年长沙生活服务C轮企业
2010年呼和浩特B2B/企业服务天使轮企业