科技网

当前位置: 首页 >智能

英伟达CEO手撕谷歌TPUP80性能比它

来源: 作者: 2018-07-27 11:03:34

英伟达CEO手撕谷歌TPU:P80性能比它强2倍!

上周,Google发表论文,详解了神经络推断专用芯片TPU的架构,还展示了一些性能数据,比如说:在推断任务中,TPU平均比英伟达的Tesla K80 GPU或英特尔至强E v3 CPU速度快15至30倍左右。

英伟达CEO黄仁勋坐不住了:为什么跟K80比?不知道我们后来出了P40吗?

Google在论文中提到的Tesla K80和老黄要拿出来比的Tesla P40,都是英伟达推出的适用于服务器的GPU加速器。

K80发布于2012年(老黄说的),使用了Kepler(上上代)架构,英伟达对它的定位是超级计算领域的性价比之选;P40则是去年发布的,使用了Pascal架构,专为加快超大规模的混合工作负载和具备强扩展能力的 HPC 数据中心的运行速度而设计。

这两款处理器之间,隔了三年,隔了一代Maxwell架构的产品

英伟达CEO手撕谷歌TPUP80性能比它

。在深度学习推断性能上,P40比K80高了26倍。

老黄看了Google的论文,表示不服。于是,老黄在公司官方博客上发了题为《人工智能推动数据中心加速计算技术崛起(AI Drives the Rise of Accelerated Computing in Data Centers)》的文章,高度赞扬了Google的人工智能技术。

然后用P40跟Google的TPU做了个对比,帮Google更新了一下数据:英伟达Tesla P40在GoogleNet推断任务中的性能比Google TPU高2倍。

不过,老黄更新的数据遭到了Twitter友的无情吐槽,因为无论是能耗还是价格,P40都比TPU高出了不止2倍。

以下是老黄的手撕全文:

谷歌最近发表的TPU论文得出了一个明确结论如果没有加速计算,就无法扩大人工智能的应用范围。

如今的经济很大程度上依赖于世界各地的数据中心,而数据中心都在发生快速变化。但不久之前还不是这样,彼时的数据中心主要为页、广告和视频内容服务。可如今,它们还要负责识别声音,探测视频流里的图像,并在我们有需求时提供有用的信息。

这些能力都源自一种名为深度学习的人工智能技术。深度学习可以通过对海量数据的学习生成一种软件,从而解决语言翻译、癌症诊断无人驾驶等各种挑战。人工智能的变化正在以我们行业前所未见的速度加速推进。

作为深度学习领域的开创性研究者,Geoffrey Hinton最近对《纽约客》说:任何一个需要大量数据才能完成的分类问题,都可以用深度学习来解决。今后会涌现数以千计的深度学习应用。

不可思议的效果

以谷歌为例。该公司在深度学习领域的开创性应用已经吸引了全世界的关注:Google Now服务拥有令人惊讶的准确度;他们还战胜了全世界最优秀的围棋选手;谷歌翻译甚至可以处理100种不同的语言。

深度学习的效果达到了不可思议的程度。然而,这种方法却要求计算机在摩尔定律逐渐放缓的情况下处理海量数据。深度学习是一种新的计算模型,需要发明新的计算架构。

英伟达尝试改变人工智能计算模型的架构已经有一段时间。2010年,在Juergen Schmidhuber教授的Swiss AI Lab工作的研究员Dan Ciresan发现,英伟达GPU可以用于训练深度神经络,速度达到CPU的50倍。

一年后,Schmidhuber的实验室使用GPU开发的第一个纯深度神经络赢得了国际笔迹识别和计算机视觉竞赛。

随后,当时还是多伦多大学研究生的Alex Krizhevsky使用一对GPU赢得了如今著名的ImageNet大规模图像识别竞赛。Schmidhuber还专门记录了GPU深度学习影响现代计算机视觉的历史。

针对深度学习优化

世界各地的人工智能研究人员都发现,英伟达为计算机图形和超级计算应用开创的GPU加速计算模型非常适合深度学习。

就像3D图像、医学成像、分子动力学、量子化学和天气模拟一样,深度学习是一种线性代数算法,需要针对张量或多维向量展开大规模的并行计算。虽然英伟达2009年推出的Kepler GPU让整个世界意识到,可以在深度学习中使用GPU加速计算,但它却并非针对这项任务优化的。

我们开始着手工作,开发一代代的新型GPU架构,先是Maxwell,然后是Pascal,其中包含了很多种专门为深度学习设计的架构进步。在基于Kepler的Tesla K80推出短短4年后,我们就发布了基于Pascal的Tesla P40推断加速器,将深度学习推断性能提升了26倍,远超摩尔定律的预测。

在此期间,谷歌设计了名为TPU的定制加速器芯片,专门用来处理推断,并在2015年部署使用。

该团队上周披露了TPU的优势。他们认为,TPU有很多好处,例如,其推断性能达到K80的13倍。但却并没有将TPU与基于Pascal的P40进行对比。

更新谷歌的对比数据

为了更新谷歌的对比数据,我们制作了如下表格,对K80到P40的性能发展进行了量化,同时对比了TPU与英伟达当前的技术。

P40在计算精度与吞吐量、片载内存和内存带宽之间实现了平衡,在训练和推断方面达到了空前的性能。具体到训练,P40拥有10倍的带宽,32位浮点性能达到12 teraflop。具体到推断,P40拥有高通量8位整数和高存储带宽。

虽然谷歌和英伟达选择了不同的发展路径,但我们的模式还是有一些共同点。具体如下:

人工智能需要加速计算。在摩尔定律放缓的时代背景下,加速器提供了有效的深度学习数据处理需求。

张量处理是实现深度学习训练和推断性能的核心。

张量处理是重要的新工作负荷,创业者必须在开发现代化数据中心时考虑这一问题。

加速张量处理可以大幅削减现代化数据中心的建设成本。

科技行业身处历史转折之中,很多人将此称作人工智能革命。它的影响表现最为突出的领域当属阿里巴巴、亚马逊、百度、Facebook、谷歌、IBM、微软、腾讯等公司的超大规模数据中心。他们需要加快人工智能工作负荷,但却不想投入数十亿美元的建设费,也不想用CPU节点来驱动新的数据中心。没有加速计算,就无法扩大人工智能的应用范围。

友反应

英伟达前市场营销员工James Wang在Twitter上发布了老黄博文的链接,说黄仁勋回应Google TPU的性能,称P40比TPU快两倍。

在评论中,有友表示这怎么可能?然后各位友和James Wang把P40从价格到性能吐槽了一遍:

Jedd Haberstro:显然是2倍性能,不止2倍的能耗啊

James Wang :完全是两类不同的产品,P40要卖到1万美元,TPU就几百刀。

Tapabrata Ghosh:P40就不该超过150刀。

相关推荐