泸水| 巴马| 安阳| 庆安| 民权| 丁青| 长清| 金州| 休宁| 大新| 革吉| 河间| 高明| 广宁| 都匀| 元氏| 习水| 藤县| 荣昌| 台安| 迁安| 那曲| 福州| 新宾| 华蓥| 锡林浩特| 萧县| 大同县| 带岭| 花都| 吉水| 南昌市| 藁城| 漯河| 宁南| 户县| 金阳| 湖南| 桂林| 佳木斯| 科尔沁左翼中旗| 长兴| 苍溪| 深州| 日照| 达州| 文登| 济宁| 焉耆| 抚顺市| 盐田| 金山| 新源| 都匀| 平邑| 红岗| 京山| 乌什| 扎囊| 保定| 楚雄| 镇远| 天柱| 民和| 奇台| 理塘| 东兰| 曹县| 思南| 海门| 崇明| 上犹| 东营| 龙江| 天津| 慈利| 凌海| 台北市| 于都| 永善| 广灵| 君山| 利辛| 筠连| 呼伦贝尔| 平塘| 临湘| 金堂| 华池| 贞丰| 容县| 廊坊| 自贡| 沙雅| 淮阳| 岐山| 白云| 岢岚| 余干| 海阳| 铅山| 水城| 泊头| 大港| 怀宁| 金秀| 开封市| 沁源| 宁强| 皮山| 马边| 泸州| 克山| 德钦| 湛江| 舒城| 怀集| 榆树| 内丘| 东平| 灵台| 云林| 科尔沁右翼中旗| 乐山| 神农顶| 呈贡| 福鼎| 吉林| 岢岚| 罗田| 桓台| 零陵| 吉木萨尔| 松江| 图们| 平凉| 津市| 菏泽| 召陵| 南投| 长安| 仁寿| 高青| 新乡| 济阳| 临夏县| 安县| 九寨沟| 睢宁| 于田| 洱源| 嘉禾| 额尔古纳| 内蒙古| 松江| 澎湖| 南靖| 环县| 博鳌| 汤原| 晋城| 昭苏| 四会| 浑源| 乌拉特前旗| 漳县| 浏阳| 突泉| 安溪| 淮安| 新城子| 雷波| 双辽| 钟山| 长顺| 嘉黎| 南京| 山西| 琼结| 武鸣| 唐山| 沁水| 夹江| 沈丘| 西乡| 迁西| 潞城| 成安| 图木舒克| 沂南| 彭泽| 武宣| 基隆| 陕县| 蔡甸| 库车| 青川| 印江| 东丽| 呼兰| 乐平| 奎屯| 库尔勒| 台东| 泰兴| 闻喜| 宁波| 来凤| 嘉峪关| 巴彦淖尔| 丹东| 肃宁| 江宁| 忻城| 华山| 万安| 富阳| 梁平| 汝阳| 万全| 长泰| 韩城| 灵山| 阳原| 巫溪| 象州| 雅江| 盐池| 铜川| 阳东| 沁源| 甘南| 英德| 平武| 广灵| 乡城| 绵竹| 偃师| 江川| 台前| 阿克苏| 会昌| 上虞| 息县| 安义| 成都| 古丈| 丰顺| 察哈尔右翼前旗| 镇雄| 佛坪| 长治市| 安泽| 和平| 永靖| 双阳| 靖安| 科尔沁右翼中旗| 广德| 哈尔滨| 高平| 台江| 榕江|

神华福建罗源湾电厂年底投用 系福州最大火电厂

2019-09-15 23:10 来源:红网

  神华福建罗源湾电厂年底投用 系福州最大火电厂

  叠石桥纺城核心交易区地处家纺市场中心,占地面积约20万平方米,有3000多家商户,具有一定的典型性和代表性。(霂雪薛洋苏娅)(责编:唐璐璐、张鑫)

“环岛式”航法和“红绿灯”规则,将六圩河口水域以往9股船流合并为5股,形成了“隐形环岛”缓冲区,减少了高峰期船流叠加交汇,大幅降低了六圩河口水域事故险情发生率。遂判决被告仪征市刘集镇文金百货商店立即停止销售、并销毁侵害广东原创动力文化传播有限公司美术作品《灰太狼Basic版》著作权的产品,赔偿原告广东原创动力文化传播有限公司经济损失3500元。

    会上,陈俊祥介绍了互联网龙虾节情况;阿里业务方简要介绍了业务概况;双方还就合作事项进行了沟通。房某等人主动投案供述犯罪事实,并赔偿相关企业15万元。

  问题圆满解决。通过PPP模式的推广运用,对加快地方基础设施和公共服务项目建设,提升公共服务的供给效率和质量,激发民间投资活力,深化财政管理改革,促进政府职能转变,都有着重大而深远的意义。

兴隆乡农技站站长朱青松告诉记者:“兴隆乡全面组织实施‘虾稻共生综合种养’工程,全力打造兴隆乡的‘精品种养、精准扶贫’和强村富民先行区。

  ”曹国庆感慨,政策的红利让行业可以实现突破。

  江苏在知识产权创造、运用、保护、管理和服务能力等方面均在全国名列前茅。(沈慧刘玉宝)(责编:陈天源、张鑫)

  通过找准党风廉政建设和反腐败工作的着力点,以重点带全面,以关键促整体,确保主体责任落到实处。

  “一对多的金融机构专场服务”即为给企业和银行提供互动交流的平台,市开发区组织单家金融机构与多家企业的专场融资交流会。  斗龙港生态组团总体面积约21平方公里,空间布局突出以荷兰花海、梅花湾为两核,226省道、老斗龙港为双轴的“一区两核双轴”,在核心区及周边实施生态提升、旅游度假、基础设施、文化教育、健康养生等五大类20项重点工程。

  创新引领,纾解难题为缓解辖区水上安全监管压力,支部党员运用“查研定改评”工作法,大胆开拓,在全国海事系统率先探索破解洋口港、风电建设安全监管难题,创造性地构建责任体系网、预防预控网、数据信息网三张网,串起压力传递链、风险利益链、应急反应链三条链,把住隐患排查关、船舶准入关、现场检查关三道关,“三三制”的监管模式被业界赞为“如东监管模式”。

  每个乡镇都有1~2个百亩连片龙虾生态养殖示范基地。

  盱眙龙虾自17年前首创举办龙虾节庆活动以来,已经成为风靡大江南北、红遍五湖四海、具有相当规模和实力的国内水产第一品牌。客汽渡信息化、规范化管理不断提档升级,相关管理单位主体责任进一步压紧压实,有效促进渡运本质安全水平全面提升。

  

  神华福建罗源湾电厂年底投用 系福州最大火电厂

 
责编:
您正在使用IE低版浏览器,为了您的雷锋网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
雷锋网 读懂智能&未来
人工智能 正文
发私信给程弢
发送

0

谷歌硬件工程师揭秘,TPU为何会比CPU、GPU快30倍?

本文作者:程弢 2019-09-15 14:03
导语:从这次发布的测试结果来看,TPU似乎已经超出了业界的预期,但是藏在这一芯片背后的内部架构究竟有什么秘密呢,我们从Jouppi此前发布的论文当中,可以找到答案。
“今天集中开工的17个项目,总投资达到亿元,投资规模大、科技含量高、产出效益好,既是我们高度重视农业、积极发展农业结下的丰硕成果,更为实现全年项目建设开门红、当好全市现代农业排头兵打下坚实基础。

谷歌硬件工程师揭秘,TPU为何会比CPU、GPU快30倍?

在谷歌发布TPU一年后,这款机器学习定制芯片的神秘面纱终于被揭开了。

昨日,谷歌资深硬件工程师Norman Jouppi刊文表示,谷歌的专用机器学习芯片TPU处理速度要比GPU和CPU快15-30倍(和TPU对比的是英特尔Haswell CPU以及Nvidia Tesla K80 GPU),而在能效上,TPU更是提升了30到80倍。

从这次发布的测试结果来看,TPU似乎已经超出了业界的预期,但是藏在这一芯片背后的内部架构究竟有什么秘密呢,我们从Jouppi此前发布的论文当中,可以找到答案。

据雷锋网(公众号:雷锋网)了解,早在四年前,谷歌内部就开始使用消耗大量计算资源的深度学习模型,这对CPU、GPU组合而言是一个巨大的挑战,谷歌深知如果基于现有硬件,他们将不得不将数据中心数量翻一番来支持这些复杂的计算任务。

所以谷歌开始研发一种新的架构,Jouppi称之为“下一个平台”。Jouppi曾是MIPS处理器的首席架构师之一,他开创了内存系统中的新技术。三年前他加入谷歌的时候,公司上下正在用CPU、GPU混合架构上来进行深度学习的训练。

Jouppi表示,谷歌的硬件工程团队在转向定制ASIC之前,早期还曾用FPGA来解决廉价、高效和高性能推理的问题。但他指出,FPGA的性能和每瓦性能相比ASIC都有很大的差距。他解释说,“TPU可以像CPU或GPU一样可编程,它可以在不同的网络(卷积神经网络,LSTM模型和大规模完全连接的模型)上执行CISC指令,而不是为某个专用的神经网络模型设计的。一言以蔽之,TPU兼具了CPU和ASIC的有点,它不仅是可编程的,而且比CPU、GPU和FPGA拥有更高的效率和更低的能耗。

TPU的内部架构

谷歌硬件工程师揭秘,TPU为何会比CPU、GPU快30倍?

该图显示了TPU上的内部结构,除了外挂的DDR3内存,左侧是主机界面。指令从主机发送到队列中(没有循环)。这些激活控制逻辑可以根据指令多次运行相同的指令。

TPU并非一款复杂的硬件,它看起来像是雷达应用的信号处理引擎,而不是标准的X86衍生架构。Jouppi说,尽管它有众多的矩阵乘法单元,但是它GPU更精于浮点单元的协处理。另外,需要注意的是,TPU没有任何存储的程序,它可以直接从主机发送指令。

TPU上的DRAM作为一个单元并行运行,因为需要获取更多的权重以馈送到矩阵乘法单元(算下来,吞吐量达到了64,000)。Jouppi并没有提到是他们是如何缩放(systolic)数据流的,但他表示,使用主机软件加速器都将成为瓶颈。

谷歌硬件工程师揭秘,TPU为何会比CPU、GPU快30倍?

256×256阵列缩放数据流引擎,经过矩阵乘法积累后实现非线性输出

从第二张图片可以看出,TPU有两个内存单元,以及一个用于模型中参数的外部DDR3 DRAM。参数进来后,可从顶部加载到矩阵乘法单元中。同时,可以从左边加载激活(或从“神经元”输出)。那些以收缩的方式进入矩阵单元以产生矩阵乘法,它可以在每个周期中进行64,000次累加。

毋庸置疑,谷歌可能使用了一些新的技巧和技术来加快TPU的性能和效率。例如,使用高带宽内存或混合3D内存。然而,谷歌的问题在于保持分布式硬件的一致性。

TPU对比Haswell处理器

在和英特尔“Haswell”Xeon E5 v3处理器来的对比中,我们可以看到,TPU各方面的表现都要强于前者。

在Google的测试中,使用64位浮点数学运算器的18核心运行在2.3 GHz的Haswell Xeon E5-2699 v3处理器能够处理每秒1.3 TOPS的运算,并提供51GB/秒的内存带宽;Haswell芯片功耗为145瓦,其系统(拥有256 GB内存)满载时消耗455瓦特。

相比之下,TPU使用8位整数数学运算器,拥有256GB的主机内存以及32GB的内存,能够实现34GB/秒的内存带宽,处理速度高达92 TOPS ,这比Haswell提升了71倍,此外,TPU服务器的热功率只有384瓦。

谷歌硬件工程师揭秘,TPU为何会比CPU、GPU快30倍?

除此之外,谷歌还测试了CPU、GPU和TPU处理不同批量大小的每秒推断的吞吐量。

谷歌硬件工程师揭秘,TPU为何会比CPU、GPU快30倍?

如上图所示,在小批量任务中(16),Haswell CPU的响应时间接近7毫秒,其每秒提供5482次推断(IPS),其可以实现的最大批量任务(64)每秒则可以完成13194次推断,但其响应时间为21.3毫秒。相比之下,TPU可以做到批量大小为200,而响应时间低于7毫秒,并提供225000个IPS运行推理基准,是其峰值性能的80%,当批量大小为250,响应时间为10毫秒。

不过需要注意的是,谷歌所测试的Haswell Xeon处理器似乎也不能完全说明问题,英特尔Broadwell Xeon E5 v4处理器和最新的“Skylake”Xeon E5,每核心时钟(IPC)的指令比这款处理器提升了约5%。在Skylake是28核,而Haswell为18核,所以Xeon的总体吞吐量可能会上升80%。当然,这样的提升与TPU相比仍有差距。

最后雷锋网需要强调的是,TPU是一个推理芯片,它并非是要取代GPU,可以确定的是,TPU与CPU一起使用对训练分析更加有益。但对于CPU制造商而言,如何研发出像ASIC一样兼顾性能和能效的芯片是现在以及未来要做的。

可以确定的是,谷歌已经逐渐在自己的数据中心部署TPU,但是上述测试数据只是理论结果,实际应用表现如何?我们还不得而知。

Via nextplatform,雷锋网编译

雷锋网版权文章,未经授权禁止转载。详情见转载须知

谷歌硬件工程师揭秘,TPU为何会比CPU、GPU快30倍?
分享:
相关文章

文章点评:

表情

略懂技术的小编

关注一切有未来感的产品及技术!
当月热门文章
最新文章
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
孝河口 干家庙 林上 石图山 浔美
策勒乡 荷城街道 马仔石 双林南路 羊三木乡