财神彩票 > 技术支持 > AI时代的芯片之战

原标题:AI时代的芯片之战

浏览次数:191 时间:2020-03-14

图片 1

车云按:在昨天《英伟达的深度学习:Tesla P100、Drive PX2与DGX-1》一文中,车云菌提到GPU在深度学习领域的优势,凭借着其强大的并行计算能力,以GPU为主打产品的英伟达也尝到了甜头。但是,希望成为领跑者的从来不止一家。在深度学习及其应用领域,芯片厂商以及非芯片厂商都在试图寻找第二个答案。本文来自于新智元,车云菌略有删减,从谷歌TPU到FPGA,逐个分析了各家芯片的优势与生存状态。

近日占据报端的中兴事件已尘埃落定,中兴的教训让我国各大企业感同身受,「研不如买」的理念将成为过去,芯片涉及到的产业安全受到各大企业的高度重视。

智能时代就要到来,芯片市场格局一变再变。两个典型例子:引领处理器市场 40 多年的英特尔 2015 年底收购完 Altera,今年 4 月就宣布计划裁员 1.2 万;另一方面,GPU 巨头英伟达今年 3 月推出加速人工智能和深度学习的芯片 Tesla P100,投入研发经费超过 20 亿美元,据《华尔街日报》报道,今年5 月英伟达售出的 GPU 比去年同月增长 62%,公司当前市值 240 亿美元。

与此同时,国内近两年来涌现出一批优秀的智能芯片企业,例如寒武纪、地平线、云知声、深鉴科技、中天微等,也有一些大型企业如华为、阿里等也加入这一领域,这使我国智能芯片领域处于国际第一阵营。但环顾国际,英伟达、谷歌、英特尔、ARM、高通、赛灵思等传统大牌企业在智能芯片领域也同样虎视眈眈。

深度学习应用大量涌现使超级计算机的架构逐渐向深度学习应用优化,从传统 CPU 为主 GPU 为辅的英特尔处理器变为 GPU 为主 CPU 为辅的结构。不过,未来相当长一段时间内,计算系统仍将保持 CPU + 协处理器的混合架构。但是,在协处理市场,随着人工智能尤其是机器学习应用大量涌现,芯片厂商纷纷完善产品、推出新品,都想成为智能时代协处理器的领跑者——但问题是,谁会担当这个角色呢?

进入今年以来,各家企业相继推出各自的智能芯片产品,这标志着智能芯片的研发期已过,正逐渐步入产业推广期。尽管各家都还没有量产,但一场市场争夺的战争或正悄然打响。能否夺得市场,或许不仅决定了一个企业的生死存亡,还将决定我国芯片产业是否能实现追赶和突破。

TPU:始于谷歌,终于谷歌

智能芯片的兴起

要说新的芯片,首先不得不提谷歌在刚刚结束的 I/O 大会上披露的 TPU。

伴随着人工智能的再次兴起,智能芯片近几年得到了大力发展。

有舆论称,谷歌自己打造芯片,势必对芯片制造商产生巨大影响。确实,面向机器学习专用的处理器是芯片行业的发展趋势,而且未来其他大公司也很有可能组建芯片团队,设计自己专用的芯片。

什么是智能芯片?正如「智能」不好定义一样,想给「智能芯片」下一个精确的定义也十分困难。CCAI2018分论坛“智能芯片”主席、中国科学院计算所研究员韩银和认为: 从广义上讲,能够提供特别智能能力的芯片都可以称为智能芯片;而我们当前通常所说的智能芯片,是一类针对人工智能算法进行器件、电路或体系结构定制的芯片,特别是针对深度学习的智能芯片。

图片 2谷歌TPU芯片

GPU 最初是用在个人电脑、工作站、游戏机等设备上进行专用图像计算的微处理器芯片。后来研究人员发现其海量的数据并行计算能力与深度学习的应用特征高度匹配。2011年吴恩达率先将 GPU 应用于谷歌大脑中,取得了惊人效果;结果表明,12颗英伟达的 GPU 可以提供相当于2000 颗 CPU 的深度学习性能。之后,纽约大学、多伦多大学以及瑞士人工智能实验室的研究人员纷纷在 GPU 上加速其深度神经网络。作为 GPU 行业的佼佼者,英伟达也迅速成为人工智能风口的巨无霸,实现一年股票翻6 倍的增长。

TPU 团队主要负责人、计算机体系结构领域大牛 Norm Jouppi 介绍,TPU 专为谷歌 TensorFlow 等机器学习应用打造,能够降低运算精度,在相同时间内处理更复杂、更强大的机器学习模型并将其更快投入使用。 Jouppi 表示,谷歌早在 2013 年就开始秘密研发TPU,并且在一年前将其应用于谷歌的数据中心。TPU 从测试到量产只用了 22 天,其性能把人工智能技术往前推进了差不多 7 年,相当于摩尔定律 3 代的时间。

而另一方面,伴随着深度学习的兴起,许多学者想到开发深度学习加速器,也即通过硬件实现方式加速神经网络的计算。在 2009 年起, Y. LeCun、O. Temam 等在卷积神经网络加速器设计上开展了一些起步性工作后,2014 年至 2016 年,中科院计算所陈云霁研究团队陆续在计算机体系结构领域顶级会议 ASPLOS、MICRO、ISCA 上发表多篇深度学习加速器方面的论文,点燃了学术界对深度卷积神经网络加速芯片研究的热情。基于这些研究,陈云霁他们研发的 DianNao 芯片取得了 100 倍性能的加速。随后在 2016 年 3 月,北京中科寒武纪科技有限公司注册成立,基于 DianNao 项目技术框架,寒武纪又陆续推出了「寒武纪 1 号」芯片、寒武纪 1A 处理器等产品。其中后者是目前最早量产、出货量最多的 AI 芯片;在 2017 年华为海思的第一款人工智能手机芯片麒麟 970 上就集成了神经网络处理器。目前麒麟 970 已经搭载了在华为 Mate 10、P20、荣耀 V10 这三系列手机产品上,累计出货量已达数千万台。

有媒体评论称 TPU 不仅为谷歌带来了巨大的人工智能优势,也对市面上已有的芯片产品构成了威胁。

同期,谷歌也看到了深度学习在实际应用中的巨大潜力。不同于 DianNao 采用的是乘加树体系结构,谷歌所研发的针对数据中心的张量处理器 TPU,采用了脉动阵列的组织方式。脉动阵列 1970 年代由哈佛大学孔祥重教授提出。2016 年 5 月,谷歌在 I/O 大会上首次公布了 第一代TPU,并介绍TPU 正是 AlphaGo 能够击败李世石的「秘密武器」之一。2018 年初,谷歌宣布开放其 TPU 云服务平台,售价 6.5 美元/小时;但基于其商业模式的需求,目前谷歌所研发的 TPU 仅供自己内部使用,并没有售卖芯片的打算。

这后半句话值得商榷。GPU 巨头、英伟达 CEO 黄仁勋日前告诉《华尔街日报》,两年前谷歌就意识到 GPU更适合训练,而不善于做训练后的分析决策。由此可知,谷歌打造 TPU 的动机只是想要一款更适合做分析决策的芯片。这一点在谷歌的官方声明里也得到了印证:TPU 只在特定机器学习应用中作辅助使用,公司将继续使用其他厂商制造的CPU 和 GPU。

图片 3

谷歌云服务副总裁 Diane Greene 也表示,谷歌并没有对外销售 TPU 的打算——抛开 TPU 本来就是为了谷歌自己设计的这个事实以外,谷歌对外销售芯片的可能性很低,就像Facebook 主张全球提供免费互联网,也并不是自己要做运营商。

当然,智能芯片种类繁多。芯片的应用场景不同,其设计也不同。例如谷歌的 TPU 正式根据他们云计算的应用场景而设计的,其功耗较大,但对它来说更重要的则是性能要足够高;再例如华为的麒麟 970 由于要嵌入到手机当中,因此要求功耗低,性能适中;而地平线主要针对无人驾驶设计的芯片则要求针对视觉做一些特殊处理。

因此,TPU 再好,也仅适用于谷歌,而且还是用于辅助CPU 和 GPU。

从2014年算起,人工智能芯片的研究迄今已有四年。在这一领域,我们国家出现了一批企业,例如寒武纪、地平线、云知声、深鉴科技、中天微等;这些企业也都相继推出了各自适应于场景的智能芯片产品。除了前面介绍的寒武纪,地平线于 2017 年年末发布的「旭日 1.0」和「征程 1.0」则主要面向于智能摄像头和智能驾驶等。所以在这一波智能芯片的浪潮中,我们国家至少现在看来并不落后。

TrueNorth 坐山观虎斗?

首页<上一页12下一页>尾页

第二个要说的是 IBM TrueNorth。IBM 在 2014 年研发出脉冲神经网络芯片 TrueNorth,走的是“类脑计算”的路线。类脑计算的假设是,相似的结构可能会实现相似的功能,所以类脑计算研究者使用神经形态器件制造与人脑神经网络相似的电子神经网络,希望后者具有与人脑类似的功能,并进一步反过来理解人类智能。

图片 4带有IBM TrueNorth的DRAPA SyNAPSE

TrueNorth 一张邮票大小,有 54 亿个晶体管,构成的神经元阵列包含 100 万个数字神经元,这些神经元之间又通过 2.56 亿个电突触彼此通信。由于采用了异步架构,TrueNorth 的能耗很低,54 亿个晶体管仅用 70 毫瓦;而且,只有在特定神经元被开启并和其他神经元通信时才会产生能耗。TrueNorth 设计师 Filipp Akopyan 表示,TrueNorth 的目标是 Edge-of-the-Net 和大数据解决方案,所以必须要能够用超低功耗实时处理大量数据。

在此基础上,2016年 4 月 IBM 推出了用于深度学习的类脑超级计算平台 IBM TrueNorth,含 16 个 TrueNorth 芯片,处理能力相当于 1600 万个神经元和 40 亿个神经键,消耗的能量只需 2.5 瓦。

将低能耗芯片用于深度学习无疑是一大重举,美国LLNL 数据科学副主任 Jim Brase 表示,类脑计算与未来高性能计算和模拟发展趋势一致。但是,新智元芯片群的几位专家讨论后一致认为,TrueNorth 虽然与人脑某些结构和机理较为接近,但智能算法的精度或效果有待进一步提高,离大规模商业应用还有一段距离。

因此,未来 10 年芯片市场群雄逐鹿,TrueNorth 大概不会有亮相的机会。

寒武纪:中国的智能芯片

寒武纪是国际首个深度学习专用处理器芯片。2012 年,中科院计算所和法国 Inria 等机构共同提出了国际上首个人工神经网络硬件的基准测试集 benchNN。这项工作提升了人工神经网络处理速度,有效加速了通用计算,大大推动了国际体系结构学术圈对神经网络的接纳度。此后,中科院计算所和法国 Inria 的研究人员共同推出了一系列不同结构的DianNao 神经网络硬件加速器结构。

图片 5寒武纪芯片板卡

2016 年 3 月,中科院计算所陈云霁、陈天石课题组、寒武纪公司提出的寒武纪深度学习处理器指令集 Cambricon被计算机体系结构领域顶级国际会议 ISCA2016 接收,在所有近 300 篇投稿中排名第一,在深度学习处理器指令集方面取得了开创性进展。指令集是计算机软硬件生态体系的核心,英特尔和 ARM 正是通过其指令集控制了 PC 和嵌入式生态体系。

2016 年 4 月,寒武纪进入产业化运营,陈天石也从中科院计算所的副研究员变成了北京中科寒武纪科技有限公司的 CEO。陈天石表示,寒武纪产业化运营的主要方向将是高性能服务器芯片、高能效终端芯片和服务机器人芯片。

本文由财神彩票发布于技术支持,转载请注明出处:AI时代的芯片之战

关键词:

上一篇:发力Android Go:高通骁龙429/439处理器曝光 - 高通

下一篇:没有了