财神彩票 > 技术支持 > 自动驾驶芯片迭代速度正在超越"摩尔定律"

原标题:自动驾驶芯片迭代速度正在超越"摩尔定律"

浏览次数:177 时间:2020-04-15

深度学习已经达到了不可思议的效果。但是深度学习的方法,要求计算机在摩尔定律放缓的时代背景下,精确处理海量数据。深度学习是一种全新的计算模型,它也需要一种全新计算架构的诞生。

谷歌声称TPU(以下简称TPU 1)的运算速度“比当前CPU和GPU快15-30倍”,但很快遭到黄仁勋及其拥护者的“打脸”,他们纷纷表示,谷歌是拿自己新出的产品跟英伟达两年前的旧产品TeslaK80做比较,不太厚道。甚至,直到谷歌在2017年推出新一代TPU即TPU2时,英伟达方面也称,他家的最新款GPU Tesla2V100在计算性能可以秒杀TPU2。

在这一时期,谷歌也设计了一款定制化的加速器芯片,名为“张量处理单元”,即 TPU。具体针对数据推理,于 2015 年部署。

我们如此看好汽车产业在自动驾驶时代的前进速度,并不是因为汽车制造商掌握了什么绝技,而是自动驾驶系统所使用的核心芯片,正在以远超”摩尔定律“的速度孜孜不倦地自我迭代着。

而昨晚英伟达 CEO 黄仁勋就亲自撰文回应了这一“比较”,文章第一段就以谷歌 TPU 开头,炮击意图十分明显,随后更是扔出了 Tesla P40 GPU 与 TPU 的性能对比图,可谓针尖对麦芒。图片 1

作为佐证的是,9月27日上午,在NVIDIA全球GTC北京站上,黄仁宇特别强调:“我们不会做那些每一次好一点点的通用性的处理器,而是要做在一些专门的领域,性能极好的处理器。” 在黄仁勋眼里,摩尔定律下CPU性能的“每18-24个月翻倍”居然只是“每次只好一点点”,这是在公然羞辱英特尔吗?

如今的世界经济运行在全球的数据中心之上,而数据中心也在急剧发生改变。不久之前,数据中心服务支撑网页、广告和视频。现在,它们能够从视频流里识别声音、检测图片,还能随时让我们获得想要的信息。

图片 2

加速张量处理可以显着减少现代数据中心的建设成本

图片 3

全球科技正处于一场被称为“AI 革命”的历史性转变中。如今这场革命影响最深刻的地方,就是阿里巴巴、亚马逊、百度、Facebook、谷歌、IBM、微软、腾讯等公司所拥有的的超大规模数据中心。这些数据中心,需要加速 AI 工作负载,不必花费数十亿美元用新的CPU节点来打造新的数据中心。如果没有加速计算,大规模 AI 实现根本不可能。

从发布时间上看,Drive PX Pegasus比在2016年1月份的CES展上亮相的Drive PX 2晚了21个月。21个月计算能力增强12倍,这算是彻底震撼了“摩尔定律”——根据摩尔定律,21个月以内计算性能翻一倍才是“正常”的。

深度学习的开拓者Geoffrey Hinton最近在接受《纽约客》采访时说道:“凡是任何一个有很多数据的分类问题,都可以用深度学习的方法来解决。深度学习有几千种应用。”

一点疑问

上周,谷歌团队发布了关于 TPU 优越性的一些信息,称 TPU 比 K80 的推理性能高出 13 倍。但是,谷歌并没有拿 TPU 与如今最新一代的 Pascal P40 做比较。

在收购Mobileye之前,英特尔曾以4.08亿美元收购了AI芯片创业公司Nervana Systems,并声称将在2020年之前将深度学习训练速度提升100倍。在摩尔定律主宰的“旧时代”里待久了的人,可能会觉得“提升100倍”是吹牛逼,但在AI时代的“黄仁勋定律”下,三年提升100倍,其实不是多困难的事情——

数据基于谷歌 Jouppi 等人论文“In-Datacenter Performance Analysis of a Tensor Processing Unit”[Jou17],以及英伟达内部基准分析。K80 与 TPU 的性能比数据来源于论文[Jou17]里 CNN0 和 CNN1的加速性能比,其中比较的是性能减半的 K80。K80 与 P40 性能比基于 GoogLeNet 模型,这是一种可以公开使用的CNN 模型,具有相似的性能属性。

很早之前,谷歌就意识到GPU更适合训练,却不善于做训练后的分析决策,因此,它得自己开发一款专门用于做分析决策的AI芯片。在低调使用了一两年后,在2016年5月份召开的Google I/O大会上,这款专用芯片TUP终于闪亮登场了。

张量处理处于深度学习训练和推理性能的核心位置

下图为Mobileye EyeQ系列芯片的“迭代”路径:

所以,我们必须开发出新一代GPU架构,首先是 Maxwell,接着是 Pascal,这两种架构都对深度学习进行了特定的优化。在Kepler Tesla K80 之后四年,基于 Pascal 架构的 Tesla P40 推理加速器诞生了,它的推理性能是前者的 26 倍,远远超过了摩尔定律的预期。

从以往的规律看,新开发芯片的可以通过出货量的增长降下了,只是,不太确定,TeslaV100从天价降到“平民价”,需要达到怎样的出货规模才可以实现?需要等待的周期是多长?

全球的 AI 研究员都发现了,英伟达为计算机图形和超级计算应用所设计的 GPU 加速计算模型,是深度学习的理想之选。深度学习应用,比如 3D 图形,医疗成像、分子动力学、量子化学和气象模拟等,都是一种线性代数算法,需要进行大规模并行张量或多维向量计算。诞生于 2009 年的英伟达 Kepler GPU 架构,虽然帮助唤醒了世界在深度学习中使用 GPU 加速计算,但其诞生之初并非为深度学习量身定制的。

从EyeQ2到EyeQ3,计算能力在5年里增长至原先的10倍,虽然速度变慢,但跟摩尔定律相比并不算太逊色(按摩尔定律,24个月翻一倍的话,应该是48个月翻两番,计算能力增长至原来的4倍,或者,18个月翻一番,应该是54个月翻三番,增长至原来的8倍);

谷歌最近的TPU论文给出了一个十分明确的结论:如果没有高速计算能力,大规模AI实现根本不可能。

6-12个月,芯片的新能就曾提升10倍,实在可怕!由于GPU基本上是英伟达的天下,在这里,恐怕已经有一个“黄仁勋定律”了吧?IT界的其他人困惑“如果摩尔定律消失,我们该何去何从”的时候,大多充满了忧虑,而黄仁勋在说“摩尔定律太老了,太慢了,GUP才是全新的‘超级摩尔定律’”的时候,应该是志得意满的吧?——言外之意是,属于英特尔的时代已成为过去,属于我黄仁勋的时代正在到来。

以谷歌为例。谷歌在深度学习里突破性的工作引发了全球关注:Google Now 语音交互系统令人吃惊的精确性、AlphaGo在围棋领域历史性的胜利、谷歌翻译应用于100种语言。

尺有所长,寸有所短,TPU是满足特殊功能的专用芯片,那它去跟GPU做PK,似乎也不太妥当。现在,我们放下这种不同产品之间的横向比较,只在同种产品的代际间做纵向比较。

一段时间以来,这种 AI 计算模型都是运行于英伟达芯片之上。2010 年,研究员 Dan Ciresan 当时在瑞士 Juergen Schmidhuber 教授的 AI 实验室工作,他发现英伟达 GPU 芯片可以被用来训练深度神经网络,比 CPU 的速度快 50 倍。一年之后,Schmidhuber 教授的实验室又使用 GPU 开发了世界上首个纯深度神经网络,一举赢得国际手写识别和计算机视觉比赛的冠军。接着,在 2012 年,多伦多大学的硕士生 Alex Krizhevsky 使用了两个 GPU,赢得了如今蜚声国际的 ImageNet 图像识别竞赛。(Schmidhuber教授曾经写过一篇文章,全面梳理了运行于GPU之上的深度学习对于当代计算机视觉的影响 http://people.idsia.ch/~juergen/computer-vision-contests-won-by-gpu-cnns.html)

不过,英特尔的另一个孩子Mobileye所造的芯片,在进步速度上却“很争气”。

以上提到的各种能力,都在愈来愈依靠深度学习来支撑。深度学习是一种算法,从海量数据里学习形成软件,来处理诸多高难度挑战,包括翻译、癌症诊断、自动驾驶等等。这场由AI引发的变革,正在以一种前所未有的速度影响着各种行业。

从EyeQ4到EyeQ5,计算能力再在1年内增长至原先的将近5倍......

GPU加速计算为深度学习和现代AI 供能。大家可以在 5 月 8-11 日到加州圣何塞参加我们的 GPU Technology 大会。你将会听到 AI 开拓者们谈论他们突破性的发现,并且获悉 GPU 计算的最新进展是如何在变革一个又一个行业。

在AI领域,FPGA因具有“可编程”、灵活性强及功耗低的特性,在某些方面具备跟GPU一争高下的能力。然而,从“代际更新“的角度看,FPGA仍然跳不出摩尔定律的”局限性“。

张量处理是一个重要的新工作负载,企业在建立现代数据中心的时候,要考虑这一问题

图片 4

图片 5

下图为英特尔旗下Soc FPGA产品的Arria 系列

雷锋网按:前不久谷歌发布了关于TPU细节的论文,称“TPU 处理速度比当前 GPU 和 CPU 要快 15 到 30 倍”。当时就有人对此种“比较”表示质疑,因其拿来的比较对象并非市场里性能最好的。

最近,无人驾驶初创公司地平线创始人余凯在新智元举办的一次论坛演讲中谈到“新摩尔定律”。“最近大家也发现在物理上面,可能摩尔定律已经在逼近它的物理极限,英特尔本身自己也在减少自己往前递进的速度。这里打一个问号,我们怎么样保持摩尔定律?”

当时TPU论文甫一发布,雷锋网就论文中的比较对象问题咨询了AI人士意见,感兴趣的读者可戳《谷歌公布TPU细节之后,AI业界怎么看?》。以下为黄仁勋发表全文,原文标题为“AI 驱动数据中心加速计算的崛起”(AI Drives the Rise of Accelerated Computing in Data Centers),由雷锋网编译。

因为,6*6*6=216,再不济,也可以通过5*5*5=125来提前实现目标。

P40 在计算精度和吞吐量、片内存储和存储带宽之间达到了良好平衡,不仅在训练阶段,也在推理阶段达到了前所未有的性能表现。对于训练阶段,P40 拥有 10 倍于 TPU 的带宽,32 位浮点性能达到 12个 TFLOPS 。对于推理阶段,P40 具有高吞吐的 8 位整数和高存储带宽。

图片 6

我们创建了如下的图表,对 K80、TPU 和 P40 的性能进行量化,看看 TPU 与如今的英伟达技术之间的较量。

从EyeQ3到EyeQ4,计算能力在两年内增长至原先的10倍;

不过 P40 和 TPU 的售价差距很大(P40 24GB版本售价5千多美元,TPU 成本估计在几百美元),尺寸和制程也不一样,也有人觉得这样的对比未免也是不恰当的。但黄仁勋不惜亲自撰写长文,摆事实摆数据,意在表明英伟达在 AI 芯片领域的强势姿态和技术领先的骄傲。

余凯自己给出的答案是:实际上还是可以做到的,手段不是通过物理上的工艺提升,而是通过软件算法的变革带来研发一些新的架构。随着摩尔定律越来越接近工艺极限,芯片的架构设计变得越来越重要。

虽然谷歌和英伟达选择了不同的发展路径,我们有一些共同关切的主题。具体包括:

9月19日,在北京举行的“英特尔精尖制造日“活动上,英特尔向公众展示了10nm晶圆,并透露他们已经前瞻到了5nm制程。通过展示这些看家本领,英特尔旨在强调“摩尔定律不仅没有过时,而是一直在向前发展’。

AI 需要加速计算。在摩尔定律变慢的时代背景下,加速器满足了深度学习海量数据处理需求

汽车产业已经“死气沉沉”好久了,与“一年一小变,三年一大变”的互联网产业相比,过去的几十年来,它都没有发生多少颠覆性的变化。然而,三十年河东,三十年河西,在即将到来的自动驾驶时代,汽车产业或将成为互联网产业“羡慕嫉妒恨”的对象。

本文由财神彩票发布于技术支持,转载请注明出处:自动驾驶芯片迭代速度正在超越"摩尔定律"

关键词:

上一篇:苹果起诉高通对芯片要价太高:索赔10亿美元 -

下一篇:没有了