2017年的第一场顶会,AI 产业巨头都带来了哪些技术干货

简介:

2017年 2月4日到8日,IEEE 高性能计算架构会议( HPCA 2017 )在美国的奥斯汀举行,这是计算机体系结构的国际顶级会议之一,一起召开的还有编译和算法领域的CGO以及PPoPP。


中科院计算所研究员韩银和总结说, 今年大陆有3篇论文入选,不到总论文数的1/10,和其他方向相比,体系结构还是美国难以撼动的优势领域,追赶的路还很长。


根据中科大神经网络架构研究团队的博士王超的统计,在HPCA会议(1995-2016)上发表过论文的知名华人学者包括来自UCSB的谢源教授(9篇),佛罗里达大学的李涛教授(8篇),匹兹堡大学的张有弢教授(7篇),以及UCSD的周源源教授(6篇)。


韩银和同时带来一个消息:UCSB的谢源教授当选明年(HPCA2018)的程序主席。这是华人学者在体系结构体系上地位提升的一个标志性事件。


中国在体系结构研究实力


在计算机体系结构的三个顶级会议中,来自中国大陆的团队研究论文非常少。据统计,大陆第一单位在ISCA会议上发表的论文共18篇,其中陈云霁和陈天石研究员团队在ISCA上发表了4篇论文。而对HPCA会议来说,大陆第一单位会议上发表的论文共17篇。MICRO会议,1994年之前中国有9篇论文,然后从2009年至今有10篇论文,共19篇。 不过总体来看,大陆第一作者的论文数量呈现上升趋势。

 

然而值得注意的是,近年来,不仅仅大陆第一作者论文数量的提升,第一作者是华裔学生及研究人员的论文数量也大幅提升,显示出华人研究人员在未来体系结构研究领域的实力。例如ISCA 2016在所有的57篇论文中,有21篇论文的第一作者是华人研究人员,HPCA 2017的一作华人论文有19篇,MICRO 2016也有19篇,大体占到了论文总数的三分之一左右。


HPCA 2017 最佳论文归属英特尔团队


2月8日,新智元从谢源教授处得到消息, HPCA 2017 本年度的最佳论文已经公布。来自英特尔的论文《Near-Optimal Access Patitioning for Memory Hierarchies with Multiple Heterogeous Bandwidth Sources》摘下桂冠。




摘要


存储墙仍然是性能的瓶颈。虽然小型管芯缓存到目前为止的性能尚足以隐藏这个瓶颈 ,但是现代的应用中不断增加的占用使得这样的缓存效果越来越差。近年来,内存技术,比如嵌入式DRAM(eDRAM)和高宽带存储(High Bandwidth Memory)的进步,使得在 CPU 封装上集成大型存储,作为一种额外的带宽资源而不是DRR 主存储成为可能。由于容量的限制,这些存储一般都会被当成一个内存侧的缓存。受到传统思路的启发,许多致力于提升系统性能的优化都在尝试将内存侧的缓存的命中率最大化。一个更高的命中率能让人更好地利用缓存,进而被认为能带来更高性能的表现。


在本论文中,我们队这种传统的思路进行了挑战,并提出了一个动态存取分割(Dynamic Access Partitioning)算法,也称DAP。它牺牲了缓存的命中率,来利用主存储中未被利用的带宽。DAP 通过使用一个轻量的学习机制,只需要额外硬件的16个字节,便能在内存侧缓存和主内存之间获得一个近似最优化的带宽。模拟的结果显示,在一个片叠式(die-stacked)内存侧DRAM 缓存上采用DAP,可以获得13%的性能。我们还证明了,DAP 在不同的实现、带宽点和内存侧缓存的容量点上都能带来较大的性能优势,使得它对任何超越芯片上SRAM 缓存层次的、基于多相带宽资源的当下或者未来系统都是有价值的。


不容忽视的最佳论文提名:跨平台深度学习架构


不过,在本届会议中,另一篇被提名最佳论文的研究《Toward  Pervasive and User Satisfactory CNN across GPU Microarchitectures》引起了我们的注意。这篇论文来自佛罗里达大学电子和计算机工程系的教授李涛和他的该校的同事。论文提出了 Pervasive CNN (P-CNN)——一个注重用户满意度的CNN 推理框架。P-CNN 在不同的推理任务中能提供最佳的用户满意度。



摘要


在GPU 上加速卷积神经网络通常包含两个步骤:训练和推理(Inference)。传统上,这两步处理都在含高端GPU配置的服务器中进行。台式机和手机GPU计算力的不断增长,使得在各种各样的平台上进行推理的兴趣不断地增长。与训练阶段所需要的高吞吐量和高精度不同,在与推理相关的任务中,终端用户面临着更多样化的要求。


为了跟进这一新兴趋势,满足新的要求,我们提出了 Pervasive CNN (P-CNN),这是一个注重用户满意度的CNN 推理框架。P-CNN 有两个组成部分:跨平台离线编译(compilation)和运行时间管理。根据用户的需求,离线编译使用架构独立技术,比如自适应批处理量大小选择(adaptive batch size selection )和协同微调(coordinated fine-tuning)来生成最佳内核(optimal kernel)。运行时间管理阶段由准确率修正、执行和校正组成。首先,准确率修正会在可接受的准确率下动态地确定最快的内核。然后,运行时间内核调度器会为每一层神经网络分配出最优的计算资源,调度GPU 线程。如果获得的准确率对于终端用户来说是不能接受的,校正阶段会选择一个更慢但是更加精确的内核来提升准确率。最后,我们为 CNN 设计了一个用户满意度衡量指标,用于评估我们的 Pervasive 设计。我们的测试结果显示,P-CNN 在不同的推理任务中提供最佳的用户满意度。



李涛是佛罗里达大学电子和计算机工程系的教授。他在德克萨斯大学 获得计算机工程博士学位。他的研究兴趣包括计算机架构、微处理器/记忆/存储系统设计、虚拟技术、节约型/可持续/可依赖数据中心、云/大数据计算平台、计算机信息技术与应用以及计算机系统的评估。


  • 李涛曾获得美国国家自然基金 Faculty Early CAREER Awards。

  • 2006-2008年连续3年获得 IBM Faculty Awards。

  • 2008获得 Microsoft Research Safe and Scalable Multi-core Computing Award 

  • 2006 获得 Microsoft Research Trustworthy Computing Curriculum Award

  • 李涛博士多次在结构领域顶级会议获得最佳论文提名,如HPCA 2017, ICPP 2015, CGO 2014, DSN 2011, MICRO 2008 和 MASCOTS 2006


2017,体系结构大会在中国


今年在中国举办的两个体系结构大会:



4月在西安召开的 ASPLOS


ASPLOS(编程语言和操作系统的体系结构支持会议)是ACM开办的一个以体系结构为核心内容的多学科会议,其研究领域跨越硬件、体系结构、编译器、编程语言、操作系统、网络和应用,尤其关注这些学科间的交叉性研究课题。


ASPLOS一年仅录用20多篇论文,几乎每篇都会受到计算机领域的大量引用。



将于10月份在上海召开的SOSP


SOSP 50多年来第一次来亚洲。SOSP是一个相对古老的会议,它是由ACM下属的SIGOPS (the ACM Special Interest Group on Operating Systems)于1967年创办。这个会议是两年举行一次,迄今为止已经举办了25届,每届收录的文章在20篇左右。


文章转自新智元公众号,原文链接

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
24天前
|
人工智能 JSON 前端开发
Agentic AI崛起:九大核心技术定义未来人机交互模式​
本文系统梳理AI智能体架构设计的九大核心技术,涵盖智能体基础、多智能体协作、知识增强、模型优化、工具调用、协议标准化及人机交互等关键领域,助力构建高效、智能、协同的AI应用体系。建议点赞收藏,持续关注AI架构前沿技术。
356 1
|
1月前
|
机器学习/深度学习 人工智能 程序员
Reflexion:让AI智能体学会反思的神奇技术
想象一下AI智能体能像人类一样从错误中学习,Reflexion技术让智能体不再需要重新训练就能自我改进。本文通过一个智能体助手小R的成长故事,带你轻松理解这个改变智能体学习方式的创新技术。
|
2月前
|
数据采集 人工智能 分布式计算
ODPS在AI时代的发展战略与技术演进分析报告
ODPS(现MaxCompute)历经十五年发展,从分布式计算平台演进为AI时代的数据基础设施,以超大规模处理、多模态融合与Data+AI协同为核心竞争力,支撑大模型训练与实时分析等前沿场景,助力企业实现数据驱动与智能化转型。
259 4
|
18天前
|
存储 机器学习/深度学习 人工智能
​​解锁AI检索的7大Embedding技术:从稀疏到多向量,一文掌握!​
本文系统解析七种主流文本嵌入技术,包括 Sparse、Dense、Quantized、Binary、Matryoshka 和 Multi-Vector 方法,结合适用场景提供实用选型建议,助你高效构建文本检索系统。
148 0
|
2月前
|
人工智能 自然语言处理 机器人
智能体平台哪家值得选?盘点国内外12家AI Agent平台技术特色
智能体平台正引领人机协作新潮流,将“智能”交给机器,让“平台”服务于人。2024年被Gartner定义为“AgenticAI元年”,预示未来企业交互将由智能体主导。面对百余平台,可从三条赛道入手:通用大模型、RPA升级派与垂直场景定制。不同需求对应不同方案,选对平台,才能让AI真正助力工作。
|
2月前
|
机器学习/深度学习 人工智能 搜索推荐
思维树提示技术:让AI像人类一样思考的魔法
想象一下,如果AI能像你思考问题一样有条理,从一个想法延伸到多个分支,会发生什么?思维树提示技术就是这样一种让AI更聪明的方法,通过结构化思维引导,让AI等大模型给出更深入、更全面的回答。本文将用最轻松的方式,带你掌握这个让AI智商飞升的秘技。
|
2月前
|
存储 人工智能 算法
AI 图纸表格识别与智能文档协同处理技术介绍
针对制造业、工程建设等领域图纸表格数据提取效率低、误差高的问题,本文介绍了一套涵盖表格识别、数据导出、EBOM转MBOM及智能文档协同处理的技术方案,实现图纸数据结构化与全生命周期管理。
103 0
|
2月前
|
设计模式 人工智能 API
​​混合检索技术:如何提升AI智能体50%的响应效率?​
本文深入解析检索增强智能体技术,探讨其三大集成模式(工具模式、预检索模式与混合模式),结合实战代码讲解RAG组件链构建、上下文压缩、混合检索等关键技术,并提供多步检索工作流与知识库自更新机制设计,助力高效智能体系统开发。
249 0
|
24天前
|
数据采集 Web App开发 人工智能
如何让AI“看懂”网页?拆解 Browser-Use 的三大核心技术模块
Browser-Use 是一种基于大语言模型(LLM)的浏览器自动化技术,通过融合视觉理解、DOM解析和动作预测等模块,实现对复杂网页任务的自主操作。它突破了传统固定选择器和流程编排的限制,具备任务规划与语义理解能力,可完成注册、比价、填报等多步骤操作。其核心功能包括视觉与HTML融合解析、多标签管理、元素追踪、自定义动作、自纠错机制,并支持任意LLM模型。Browser-Use标志着浏览器自动化从“规则驱动”向“认知驱动”的跃迁,大幅降低维护成本,提升复杂任务的处理效率与适应性。
675 28

热门文章

最新文章