图灵奖得主展望新黄金时代,拿什么拯救摩尔定律?
![]() |
![]() |
本文将先从两位图灵奖得主的报告讲起,总结会议关键技术趋势,展现与会专家的观点与评论,最后对论文接收和子领域热度等会议情况进行介绍。
从这届会议中可以发现四大关键技术趋势,
专用架构与软硬件协同设计将是未来专有化架构研究趋势,也将是走出摩尔定律困境一个富有前景的方向;
神经网络加速器开始从设计走向落地;
由于Meltdown和Spectre,硬件安全性得到更多关注。安全领域的研究方法除软件、系统,也需要从体系结构的层面来进一步加强;
RISC-V为敏捷开发提供了可能,未来可能成为开源硬件的基础。
![]() |
Turing Lecture:体系结构迎来新的黄金时代
在本次大会的图灵讲座(Turing Lecture)上,2017年荣获图灵奖的John L. Hennessy和David A. Patterson首先简要回顾了计算机体系结构的发展史,总结了目前体系结构研究的两大挑战:通用处理器性能提升的停滞和体系结构安全的问题。
两位演讲者提及到上世纪80年代是体系结构发展的黄金时期,诸如RISC、超标量处理器(superscalar)、多层缓存(multilevelcaches)、预测技术(speculation)、编译器优化(compileroptimization)等等体系结构创新,使得计算机性能每年提升约60%。在上世纪90年代到21世纪初,由于体系结构创新的放缓,计算机性能的提升主要依赖于工艺技术的进步、更高的时钟频率和更大的缓存。[page]分页标题[/page]
目前,随着摩尔定律(Moore’s Law)和登纳德缩放比例定律(Dennard Scaling)的放缓甚至停滞,单处理器核心的性能每年的提升已降为3%左右。与此同时,近来的计算机漏洞幽灵(Spectre)和融毁(Meltdown),均利用了体系结构设计的缺陷,而体系结构的安全性问题在近几十年来没有得到体系结构研究者和设计者的足够关注。
![]() |
对于这些挑战,两位演讲者总结了体系结构新的机遇:(1)软硬件协同设计(Hardware/Software Co-Design)和高层专用语言(High-Level and Domain-Specific Languages);(2)计算机体系结构安全性的提升;(3)开源体系结构设计(Free and Open Architectures and Open-Source Implementations);(4)创新的敏捷芯片开发(Agile Chip Development)。
![]() |
非硬件公司存在感增强,机器学习影响架构和编程语言
在keynote方面,本次大会邀请了Kim Hazelwood(Facebook Research),Kunle Olukotun(斯坦福大学)以及Doug Burger(Microsoft Research),分别针对Facebook的机器学习、软件2.0(机器学习怎样影响架构和编程语言)和数据流架构(Explicit Dataflow Execution)进行了介绍。
![]() |
今年Eckert-Mauchly Award的获奖者是华盛顿大学(University of Washington's Paul G. Allen School of Computer Science & Engineering)的Susan Eggers教授,基于她对同步多线程体系结构和多核共享和一致性问题的贡献。她也是首位获此殊荣的女性。Susan Eggers本身经历比较传奇,她在本科拿到经济学学士后,在其他领域工作了十年才转到计算机领域,47岁时博士毕业到华盛顿大学开始教职生涯。[page]分页标题[/page]
此外,Gabriel Loh本次因在三维堆叠架构领域的杰出贡献,获得Maurice Wilkes奖,Wilkes奖每年一次,主要表彰推动体系结构工业发展的个人。Gabriel Loh于 2010年加入AMD,2013年成为AMD Fellow。
![]() |
技术趋势预测:专用领域架构全栈设计和软硬件协同,神经网络加速器从设计到落地
1、专用领域语言 (Domain Specific Language) 与专用领域架构(Domain Specific Architecture)计算模型与架构硬件能力的抽象至关重要。
针对专用领域或者应用的架构设计仍是今年ISCA的一大焦点,随之而来的是专用领域语言与硬件的设计又被带入了大众的视野。随着专用领域架构的发展,对这些架构进行支持的编程语言也受到了广泛的关注。这种考虑专用应用领域的架构与语言的软硬件协同设计方法将会是未来专有化架构研究的一个趋势,以及这将成为走出摩尔定律带来的困境的一个富有前景的方案。
在图灵奖演讲中,2017年图灵奖获得者John Hennessy教授指出了,随着摩尔定律的终结,我们需要新的计算机架构研究方法。他预言,计算机架构团队纵向整合的时代即将复兴,体系结构设计者将如过去一样,不仅需要了解底层器件,工艺,以及电路的知识,也需要有着对编程语言以及编译器的了解。John在总结中慷慨激昂地提到:“一切旧的东西又是新的!(Everything old is new again!)”
![]() |
在ISCA第二天的keynote中,来自斯坦福大学的Kunle Olukotun教授介绍了他们对于软件2.0时代的计算机系统研究。他们指出了神经网路应用对计算机硬件设计带来了极其难得的机遇,最重要的是,该应用对于硬件的一些正确性指标有着相对强大的容错能力,比如内存一致性与计算精确度。同时,在他的演讲中,Kunle也强调了全栈优化的重要性。在他们的研究中,他们提出了若干并行计算的模式,并针对这些专用模式进行专用领域硬件的设计,极大提升了在专用领域硬件的性能,以及通过开发专用领域语言减轻了软件开发者在新兴架构上开发高性能程序的压力。
专用领域带来了新的机会,这些新的机会帮助我们设计新硬件,也让软件开发变得更加高效。从这些研究中,我们也看到了软硬针对专用协同设计的未来!
2、神经网络加速器从设计到落地:加速器落地真实物理系统及全系统优化
纵观近两年神经网络加速所采用的模型压缩算法,主要包括对于神经元状态和权重连接参数的稀疏化和低比特量化,以及加速器硬件优化策略,主要包括处理单元数据复用、存储计算一体化、存储器优化等,对加速器性的提升几乎已经做到了极致的优化。从最初的纯硬件优化到如今的算法和硬件协同优化,使得神经网络加速器的优化空间逐渐收缩,基于现有方法和技术很难再实现大幅度的性能改善。在这样的情况下,未来会逐渐发生从如何设计加速器到如何使用加速器的转变,从设计加速器本身到设计全系统,并最终落地现实应用场景。[page]分页标题[/page]
一方面,需要尽快构建神经网络加速器的编程抽象模型、编程语言和编译器,从而促进加速器的模块化、标准化和易用性;另一方面,需要根据不同应用场景,选择对应特性的加速器进行真实物理系统设计、优化和实现,从而促进加速器落地于现实生活。正如两位图灵奖获得者JohnL. Hennessy and David A. Patterson在演讲中提到的两大热点:专用域架构(Domain-specific Architecture)和专用域语言(Domain-specific Language),接下来学术界和产业界会更加关注上层语言的设计和开发。
同时,在移动平台分会场,来自康奈尔大学的Mark Buckler和来自罗彻斯特大学的Yuhao Zhu在演讲中均展示了如何把神经网络加速器作为一个IP模块进行移动视觉系统设计和优化。由此可见,神经网络加速器的标准化或开源化,对于加速器的推广和应用至关重要。
3、安全性受到关注。安全领域的研究方法除软件,系统,也需要从体系结构的层面来进一步加强
针对最近的体系结构安全性问题(Meltdown& Spectre Design Flaws),本次大会的专家讨论(panel discussion)邀请了5位专家和教授:Mark Hill作为主持人,Paul Kocher, Ruby B. Lee, Simha Sethumadhavan和Timothy Sherwood作为嘉宾对安全问题展开了讨论。Paul指出了现有系统设计主题思想是面向性能,而缺乏安全性分析和设计。虽然性能的量化指标丰富且成熟,但安全性指标的量化体系并没有建立,比如缓存行为,预测器,debug模式,以及功耗,内部传感器等等对安全性的影响。由于量化分析方法的缺乏,加上微体系结构设计本身对软件开发者不开放,导致系统构建时存在一些错误的安全性假设,也无法做性能和安全性的联合优化和管理。Ruby Lee,Samira和Tim都认为体系结构社区需要对安全性投入更多关注,设计安全性能感知的计算机体系结构十分重要。
4、RISC-V为敏捷开发提供了可能,未来可能成为开源硬件的基础
从两位图灵奖得主的演讲当中,我们可以看到RISC-V作为开源精简指令集对专用领域架构的重要性。随着数据中心定制化硬件的普及,例如谷歌TPU和微软Brainwave,硬件架构师不能仅模拟单节点而把问题留给流片后的测试,也需要模拟定制化部分。然后缺少高效和可扩展的模拟环境阻碍着新一代Warehouse-Scale Computers (WSCs) 的发展。
来自加州大学伯克利Krste Asanovi教授团队的FireSim填补了这一项空白;也正是主推RISC-V的团队。通过利用云端FPGA,FireSim结合基于RISC-V的Rocket Chip和cycle-accurateC++ switch模型可以模拟多达4096个核心和16TB存储器。
同样是来自伯克利的另一项工作,针对GarbageCollection设计了硬件加速器,并且集成到RocketChip 当中。整个系统从JavaVM到Linux再到FPGA全面地展示了端到端模拟能力。同时,在关于RISC-V对计算机体系结构研究的workshop(CARRV)当中,基于RISC-V 的工具链在包括模拟器,加密,和数字信号处理中都影响着学界和业界。
大会概况:28%的论文有关神经网络加速器,清华大学入选一篇
1、神经网络加速依旧火热
神经网络加速器依旧持续火热,除两个机器学习系统分会场外,还分布于云数据中心、新型应用加速、新型计算范式、内存持久性、新型存储器、移动平台等各大分会场。
![]() |
论文主要来自于美国,包括微软、伊利诺伊大学香槟分校(UIUC)、威斯康星大学、密歇根大学、康奈尔大学、罗彻斯特大学、乔治亚理工学院、加州大学圣地亚哥分校(UCSD)、加州大学伯克利分校(UCB)、佛罗里达大学、ARM、高通(Qualcomm)、英伟达(NVIDIA)等,4篇来自于亚洲:清华大学、首尔国立大学(SNU)和新加坡国立大学(NUS),2篇来自于欧洲加泰罗尼亚理工大学(UPC)。
本届大会对于DNN推理阶段的加速优化呈现多样化,以DNN推理加速的10篇论文为例,3篇针对稀疏网络(解决自动语音识别系统中由于网络裁剪导致的分类置信度下降和执行时间增长的问题;通过预测零状态输出神经元从而去除与其相关的冗余计算)、3篇针对低比特量化网络(利用数据量化后状态有限的特性从而共享重复的神经元激活状态和权重参数状态,达到减小计算的目的;设计支持量化比特数可变的加速器方案,提高对量化网络支持的通用性)、2篇进行SRAM缓存计算(Processing in SRAM)、1篇进行eDRAM刷新优化(对于生命周期较短的数据不进行刷新,从而极大降低功耗)、1篇面向FPGA数据中心(提升数据中心对于用户推理需求的响应时间)。
2、机器学习与系统得到深入探讨
机器学习与系统设计之间的关系也在此次大会中进行了深入的探讨,主要包括两个方向:1)为机器学习应用构建加速系统;2)使用机器学习方法加速系统设计。大会第一天keynote由Kim Hazelwood介绍Facebook在第一个技术方向的尝试和探索。Kim认为除计算瓶颈外,存储瓶颈和软件瓶颈也是系统构建时要考虑的关键因素。AIDArchworkshop讨论了第二个技术方向。DanielSchanwz 教授和Cliff Young介绍了体系结构领域中使用机器学习方法来优化系统设计,以及软硬件联合优化的重要性和可能性。
3、基础框架和模拟器
DNN加速器模拟:来自Gerogia Tech和NVIDIA Research的团队在这次ISCA tutorial公布了两个支持快速高效DNN加速器设计的工具:MAESTRO和MAERI。MAESTRO是针对不同卷积dataflow的分析工具。用户可以通过改变loop-ordering,loop unrolling, spatial tiling和temporal tiling来模拟不同的dataflow,并且能在用户定义的处理单元数目和缓存大小下估计运行时间和能耗。参数化和模块化的DNN加速器生成器MAERI可以输出RTL,并且通过ASIC或者FPGA设计流程估计性能功耗和面积。目前MAERI支持卷积,LSTM,pooling,和全连接层,已经完整的DNN模型运行。
GPU模型。AMD Research在gem5中扩展了APU模型。该模型使用基于GCN gen3ISA 的GPU时序并且支持开源Radeon OpenCompute Platform (ROCm)。用户可以在gem5APU 模拟器上运行C++,OpenMP,HIP,和OpenCL编写的应用,包括传统的GPU workloads和机器学习应用。由于APU中GPU直接与主存交互,针对GPU的访存优化得以更方便在gem5中验证。除此之外,来自康奈尔大学的研究人员在workshop中展示了在gem5中基于RISC-V的多核心模拟器。
4、其他方向
对于编程语言的动态功能以及系统进行从体系结构层面进行支持,在今年ISCA的论文中受到了广泛的关注。在编程语言的动态功能支持上,来自UCB的Martin Maas等人展示了针对Java内存管理中垃圾回收的硬件优化。对于系统层面的支持,本次ISCA录用文章的关注点仍然在内存,包括内存模型,虚拟内存,内存一致性,内存持久性(Memory Persistence)。
除此之外,新型互连架构也受到了一定程度的关注,这些互连架构有一些关注于芯片间的互连,另一些则关注分布式系统中的网络互联。最后,关于资源分配,一个传统操作系统最关键的任务之一,来自UIUC的Josep Torrellas教授等人提出了基于健壮控制理论(Robust Control Theory)的分层资源控制方法,极大提升资源分配的效率。[page]分页标题[/page]
综上所述,在今年ISCA中,从体系结构对于操作系统以及编程语言的支持,尤其是内存系统的支持,仍然有广泛的关注。这其中的许多研究,都围绕着基于加速器的异构系统以及基于持久性内存的系统所带来的问题。我们期待这些研究对于实际的新兴架构部署能提供强有力帮助。
本文首发于微信公众号:新智元。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。

- AMD助力微软Windows 11 为用户带来强大、可靠的计算能力2021-10-09 16:20
- 游戏玩家为之疯狂!Chinajoy2021 AMD展台那些火爆的瞬间2021-08-02 15:39
- 全场最佳 AMD Chinajoy2021展台圆满收官2021-08-02 15:38
- AMD 锐龙5000G系列处理器正式亮相Chinajoy20212021-08-02 11:50
- 极速制胜 制霸游戏 AMD携多款游戏神器扬威Chinajoy2021-08-02 11:44
- 央视《新闻联播》头条聚焦铁建重工,聚力攻克“卡脖子”技术难题2021-03-22 11:08
- 刚刚!我又上央视新闻联播头条了!2021-03-22 11:04
- 中国电科(3月1日-3月7日)要闻回顾 | 资讯轻阅读2021-03-22 10:47
- 我国将建第一个国家公园:为何是三江源2021-03-22 10:43
- 美国硅谷上演“大逃亡”:郊区成科技精英避难所2021-03-22 10:41

- 17:41南京先进制造产业专项母基金公布子基金遴选结果
- 17:20五力赋能 破浪笃行——东方药林第十一届初级晋级训练营圆满落幕
- 11:24未来更「耀」在一起 —— 2026康力燃梦启新年度盛典璀璨收官!
- 09:48南京市创投集团直投企业贝耐特完成数千万元融资
- 11:32金海汇成投资有限公司如何以创新路径重构产业生态
- 11:31东方药林第4期研修班圆满落幕 以学习型组织建设驱动企业高质量发展
- 17:2240万债权击穿10亿资产酒企?徽酒集团双轮酒业二次破产背后的博弈
- 19:40南京市创投集团合作子基金投资企业壁仞科技成功登陆港交所
- 15:12降价超75%!纳米晶体甲地孕酮医保落地,为肿瘤CACS患者送来诊疗福音
- 14:51纳米晶型甲地孕酮(美适亚)纳入2026医保,为CACS患者打破“厌食-死
- 10:57「山谷奇技,声乐造艺」 全新宝珀北京王府中環旗舰店盛大启航
- 10:57宝珀“大音乐家-四音四锤双旋律大小自鸣”超复杂功能腕表
- 18:57南京先进制造产业专项母基金子基金遴选结果揭晓
- 17:38东方药林:携手第四小组成员单位共推行业党建提质增效
- 12:32兑现“好房子”承诺:解读九牧的“场景答案”
- 20:05全美世界紧急捐赠100万港币 支援香港火灾善后重建
- 19:55皙之密护肤套装测评:秋冬干燥肌的水润守护
- 18:36市占率第一!九牧领跑中国“好房子”卫浴赛道
- 10:41智界潮改车共创大赛:从“用户共创”到“生态共生”的品牌文化构筑新范式
- 13:36南京市紫金生物医药产业投资基金合伙企业子基金遴选结果揭晓
- 14:40前沿技术赋能全域数据安全 安全防控可信数据空间 V1.0 版正式发布
- 14:38第一届濮院电竞节,今日启幕!
- 15:04助推产业链高质量发展·创投实录|清普生物:长效新药破“痛局”
- 11:38响应高质量发展,九牧为“好房子”拓路:从部委示范到全域智慧生态
- 10:28万亿市场税收变局 紫竹药业避孕药份额面临调整压力
- 17:18金海汇成投资有限公司创新路径与全球视野
- 14:22广州易萃享:立足羊城匠心,打造精准营养新标杆
- 14:05易萃享健康:数智驱动,让健康管理触手可及
- 10:11创投集团直投企业他山科技完成新一轮融资
- 09:36易萃享健康:全周期管理,筑起家庭健康屏障












