广发电子 | HBM何以成为AI芯片核心升级点?全面理解AI存储路线图

广发电子 | HBM何以成为AI芯片核心升级点?全面理解AI存储路线图
2024年04月29日 07:10 市场资讯

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

大模型的参数量指数级增长对与处理器匹配的内存系统提出了更高的要求,AI存储要求更大容量、更大带宽、更低功耗。内存系统自下而上可以分为单元、阵列、die、封装、系统几个层级,最重要的性能参数是容量、带宽和延迟,同时还需要考虑能耗和性价比。目前,DDR5是最新一代DDR标准,LPDDR正在成为数据中心CPU的新选择,DRAM芯片本身的性能提升越来越难,从内存模组和系统架构层面进行性能提升成为新的方向。近年来,大部分高端数据中心GPU和ASIC均使用HBM作为内存方案,GDDR在推理等场景中具备性价比优势,未来,HBM技术持续向更高带宽、更大容量发展。

 摘 要 

AI存储路线图:更大容量、更大带宽、更低功耗。随着人工智能的快速发展,大模型的参数量指数级增长,不仅推升了处理器的算力需求,同时也对与处理器匹配的内存系统提出了更高的要求。一方面,大量模型数据的传输要求更大的内存带宽,以缓解“内存墙”问题,提升HPC系统计算效率;另一方面,内存系统的容量需要大幅拓展,以存储千亿参数乃至更大规模的大模型。

如何理解内存系统层级及关键参数?对于单个乃至多个处理器组成的系统而言,内存系统自下而上可以分为单元、阵列、die、封装、系统几个层级。根据处理器设计和应用的不同,所配置的内存类型、规格选择和配置数量也有所不同,需要和处理器总线宽度、时钟频率等参数相匹配。内存最重要的性能参数是容量、带宽和延迟,同时还需要考虑能耗和性价比。不同类型的DRAM各有优势,在设计处理器系统架构的时候需要针对不同的应用,选择合适的内存系统设计。

DDR+LPDDR路线图:面向CPU,构建高效大容量内存系统。DDR是最传统、最主流的DRAM类型。广泛用于PC、服务器、HPC等领域。目前,DDR5是最新一代DDR标准,提供更高的速度、更高的效率和更大的容量。LPDDR正在成为数据中心CPU的新选择,其原因是需要在大规模AI和HPC工作负载的带宽、能效、容量和成本之间取得最佳平衡。随着前端先进制造技术接近物理极限,DRAM芯片本身的性能提升越来越难,从内存模组和系统架构层面进行性能提升成为新的方向。MCRDIMM/MRDIMM允许并行访问同一个DIMM中的两个阵列,从而大幅提升DIMM模组的容量和带宽。CXL是一种高速互连技术,提供处理器与专用加速器、高性能存储系统之间的高效、高速、低延时接口,以满足资源共享、内存池化和高效运算调度的需求。

GDDR+HBM路线图:面向GPU,HBM高带宽优势成为AI大模型训练推理关键。GDDR是专为图形处理应用设计的高速内存技术,搭配GPU用于图形处理、数据中心加速和AI等需要高带宽数据处理的场景。HBM是一种新型内存,得益于堆叠结构和垂直TSV互连,HBM具有更高的传输带宽、更高的存储密度、更低的功耗以及更小的尺寸,高带宽优势对大模型训练和推理的效率提升至关重要。近年来,大部分高端数据中心GPU和ASIC均使用HBM作为内存方案,GDDR在推理等场景中具备性价比优势。未来,HBM技术持续向更高带宽、更大容量发展,12Hi-16Hi HBM4有望2026年进入量产。

半导体行业周期性波动风险;人工智能行业发展不及预期风险;新技术进展不及预期风险。

 正 文 

一、AI存储路线图:更大容量、更大带宽、更低功耗

大模型规模指数级增长,内存带宽和容量需求激增。大模型的参数指数级增长,不仅推升了处理器的算力需求,同时也对与处理器匹配的内存系统提出了更高的要求。一方面,大量模型数据的传输要求更大的内存带宽,以缓解“内存墙”问题,提升HPC系统计算效率;另一方面,内存系统的容量需要大幅拓展,以存储千亿参数乃至更大规模的大模型。

本文旨在梳理DDR、LPDDR、GDDR及HBM四类DRAM标准的区别和联系,探讨HPC系统内存设计的内在逻辑,以理解在AI大模型时代,DRAM从芯片到系统层面的发展方向。

动态随机存取存储器(Dynamic Random Access Memory,简称DRAM)在现代计算机、服务器、智能手机和游戏机等各种应用设备中作为主存储器,负责存储处理器运算和处理的数据。JEDEC定义并开发了标准DDR、移动DDR和图形DDR三种DRAM标准类别。三类DDR标准存储数据使用的底层DRAM单元相同,但是每个类别都提供独特的架构功能,旨在最好地满足目标应用程序的要求。

标准DDR面向服务器、云计算、网络、笔记本电脑、台式机和消费类应用,支持更宽的通道宽度、更高的密度和不同的形状尺寸;移动DDR使用LPDDR标准,面向移动和汽车这些对规格和功耗非常敏感的领域,提供更窄的通道宽度和多种低功耗运行状态;图形DDR分为GDDR和HBM两类标准,面向需要极高吞吐量的数据密集型应用,例如图形相关应用程序、数据中心加速和AI。

应用场景的需求决定内存的选择和升级方向。内存系统是HPC系统最重要的子系统之一。在设计处理器的内存配置时,需要在容量、带宽、延迟、能耗和性价比中做适当的权衡,以匹配处理器芯片的性能和用途。随着AI HPC的持续发展,AI处理器的应用场景和与之相应的内存系统设计也走向多样化。HBM正在以其高带宽、高密度优势成为当前高端AI训练芯片的首选方案,同时DDR、LPDDR、GDDR也有各自的难以替代的应用场景及AI需求下的升级方向。

二、如何理解内存系统层级及关键参数?

(一)理解内存系统的层级:从存储单元到内存系统

对于单个乃至多个处理器组成的系统而言,内存系统自下而上可以分为单元、阵列、die、封装、系统几个层级。

从单元到DRAM Die:DRAM的最底层结构是存储单元,每个单元代表1 bit数据,由一个存储电荷的电容器和一个负责开关的晶体管组成,即1T1C结构。大量的1T1C单元排列自下而上组成按行(row)和列(column)排列的库(bank)。单个DRAM die往往包括多个bank。

从封装到内存系统:DRAM die经过后道工艺,制作成封装好的存储芯片。不同的DRAM标准下封装形式各有不同。LPDDR封装内往往包括多个DRAM die,GDDR封装则一般包括1-2个die。封装好的LPDDR芯片和GDDR芯片直接安装在主板PCB上,通过PCB和处理器通信,某些用于小型系统的DDR芯片也采取这种方式。

不同于LPDDR和GDDR,绝大部分DDR内存通过DIMM(Dual line memory module,双列直插式内存模块)的形式组织,封装好的DRAM芯片被安装在一个小型PCB电路板上,即DIMM模块,可以直接插入主板上的DIMM插槽,再通过主板PCB和处理器通信。

HBM则采用独特的垂直堆叠封装方式,同一封装内的多个die垂直堆叠并通过垂直的TSV(Through Silicon Via,硅通孔)互连。封装好的HBM通过CoWoS技术中的中介层(Interposer)与处理器通信,其带宽大大高于其他DRAM类型。

绝大多数CPU和GPU均配备多个DRAM芯片/DIMM组成的内存系统。根据处理器设计和应用的不同,所配置的内存类型、规格选择和配置数量也有所不同,需要和处理器总线宽度、时钟频率等参数相匹配。内存种类、规格和数量的选择直接决定了内存系统的总容量和总带宽。

(二)理解内存的关键参数:带宽、容量和延迟

内存最重要的性能参数是容量、带宽和延迟,同时还需要考虑能耗和性价比。不同类型的DRAM各有优势,在设计处理器系统架构的时候需要针对不同的应用,选择合适的内存系统设计。本章旨在厘清主流DRAM标准中如何理解及计算内容容量和带宽等关键参数,以在后文进一步理解AI处理器设计中的内存选择和演进方向。

1.带宽

内存带宽是处理器可以从内存中读取数据或将数据存储到内存中的速率,用于衡量内存的吞吐量,以GB/s为单位。对于单个处理器来说,计算其内存带宽的基本公式为:

内存带宽=处理器内存接口总位宽 × 每秒数据传输次数

对于不同类型的处理器,所使用的内存类型、相应的参数标注方式和使用的单位有所不同,但是计算带宽的基本方法是相同的。此外,计算时还需要注意数据单位之间的换算(1 Byte = 8 bit)

CPU通常搭配DDR或者LPDDR作为内存,GPU搭配GDDR或者HBM作为内存。消费级CPU内存接口一般是单通道或双通道,服务器CPU则可以为4通道或8通道。GPU具有比CPU更多的内核,更适合处理并行任务,因此GPU的内存接口设计一般支持更多的内存传输通道,具有更高的总位宽和带宽。

2.容量

相比于带宽,内存容量的计算更加直观。对于单个处理器来说,内存总容量(GB)=单封装容量密度(GB/DIMM数或颗粒数) × DIMM数或颗粒数,需要注意的是,每个处理器配置的内存芯片或模组数量并不能随意增加,而受到处理器内存接口和系统物理规格限制。JEDEC规范中,每种容量密度的DRAM die可以设计为不同的位宽,从而在内存接口总线位宽一定的情况下组成不同容量的内存系统。

一般来说,CPU可配置的最大内存容量由CPU内存通道数、适用的内存标准、每个DIMM中可容纳的DRAM die数量、每个DRAM die的容量密度决定。GPU可容纳的最大内存容量由GPU总线带宽、适用的内存标准、封装颗粒的容量密度决定。

3. 延迟

内存延迟是发送数据请求到处理器接收到数据之间的时间,决定了处理器等待数据的时间,单位为时钟周期或纳秒。根据Crucial官网,延迟一般分为CAS、tRCD、tRP、tRAS等几个部分。

相比于DDR内存,GDDR内存是为了提高带宽而设计的,牺牲了部分延迟来获得更高的数据传输速度,因此图形处理和AI训练等数据密集场景更倾向于使用GDDR以及带宽更高的HBM。而需要进行大量随机数据访问和处理的应用,则可能更倾向于使用DDR内存,以利用其较低的延迟。

三、DDR+LPDDR 路线图:面向CPU,构建大容量高能效内存池

(一)DDR5带宽和容量提升显著,LPDDR成为数据中心CPU新选择

DDR是最传统、最主流的DRAM类型。广泛用于PC、服务器、HPC等领域。目前,DDR5是最新一代DDR标准,提供更高的速度、更高的效率和更大的容量。Rambus将DDR5相比DDR4的进步总结为七大技术指标,包括带宽、能耗、电源架构、通道架构、突发长度、容量密度及智能性。

LPDDR成为数据中心CPU的新选择。一般来说,LPDDR用于手机、汽车等移动设备,很少出现在服务器中。虽然HBM能够提供大量内存带宽和良好的能效,但其每GB成本是DDR5或LPDDR5X的3倍以上。此外,HBM的密度和CoWoS封装的尺寸也限制了其最大容量。而与更传统的8通道DDR5设计相比,Grace CPU LPDDR5X内存子系统的带宽比DDR5系统高53%,并大大提高了功率效率,每GB只需要八分之一的功率。

(二)DIMM模组架构创新扩展系统容量及带宽,CXL互连协议构建高效内存池

MRDIMM/MCRDIMM通过创新模组架构大幅扩展容量及带宽。随着DRAM技术的演进,制造成本的增加、邻近效应和存储节点泄漏等问题开始限制DRAM性能的进一步提升,DRAM芯片本身的性能提升越来越难,从内存模组层面进行性能提升成为新的方向。根据SK Hynix官网,MCRDIMM(Multiplexer Combined Ranks DIMMs,多路合并阵列双列直插内存模组)与MRDIMM架构类似,由SK Hynix、Intel和Renesas合作开发,利用MCR技术安装在MCRDIMM上的数据缓冲区实现了两个Rank同时运行,MCRDIMM允许一次向CPU传输128字节的数据,而传统DRAM模块通常为64字节。每次发送到CPU的数据量增加,支持至少8Gbps的数据传输速率,是单个DRAM的两倍。根据澜起科技2023年年报,MCRDIMM也可以视为MRDIMM的第一代产品,MRDIMM(Multi-Ranked Buffered DIMMs,多级缓冲内存模组)是一种高带宽的内存模组,通过MDB芯片可以同时访问两个DRAM内存阵列(RDIMM只能访问一个),从而实现双倍的带宽。第一代产品可支持8800MT/s速率。

CXL技术推动内存池化,构建高效内存池系统。在传统服务器架构中,CPU和设备、设备和设备之间的内存存在鸿沟,特别是服务器巨大的内存池和加速器设备之间,内存的分割造成了巨大浪费。根据Synopsys官网,CXL(Compute Express Link)是一种高速互连技术,旨在提供处理器与专用加速器、高性能存储系统之间的高效、高速、低延时接口,以满足资源共享、内存池化和高效运算调度的需求。CXL3.0作为CXL协议的最新版本,于2022年8月发布,拥有更彻底的内存共享机制以及更灵活的连接结构。基于PCIe6.0,CXL3.0传输速度达64GT/s,Fabric功能使得CXL3.0设备之间可以构建网络而不局限于CXL2.0的树状结构。

四、GDDR+HBM路线图:面向GPU,HBM高带宽优势成为AI大模型训练推理关键四、GDDR+HBM路线图:面向GPU,HBM高带宽优势成为AI大模型训练推理关键

(一)HBM成为AI HPC首选存储方案,GDDR性价比具备优势

GDDR是专为图形处理应用设计的高速内存技术,搭配GPU用于图形处理、数据中心加速和AI等需要高带宽数据处理的场景。HBM相比GDDR具有更高的传输带宽、更高的存储密度、更低的功耗以及更小的尺寸。近年来,大部分高端数据中心GPU和ASIC均使用HBM作为内存方案。

虽然相比HBM,GDDR的带宽和容量密度均较低,但每GB单价显著低于HBM,因此Nvidia在推理产品线L40、L40S、L20等产品中使用GDDR,以获得更高的性价比。

高位宽是HBM的核心优势。HBM的高带宽主要得益于单个HBM封装具有超宽的1024 bit位宽,而每个GDDR封装位宽仅为32 bit,因此H100的5颗HBM3的总位宽高达5120bit,远高于4090 12颗GDDR6X的384bit,在数据速率更低的情况下,配备HBM3的H100带宽远高于使用GDDR的4090。

HBM代际间升级主要体现在数据速率和容量密度。H200配备的HBM3E的位宽仍然为1024 bit,但是提升了数据速率和容量密度,因此相比于使用HBM3的H100,H200具有更大的141 GB内存容量和4.8 TB/s带宽。

(二)HBM持续向更大带宽、更大容量升级

HBM持续向更高带宽、更大容量发展。从HBM2到HBM3E,HBM的容量和带宽都有了显著的提升。容量的提升主要得益于单个die容量密度的提升和堆叠层数的提升。带宽的提升则主要来自数据传输速率的提升。

HBM4有望2026年进入量产。据Trendforce,下一代HBM4预计将于2026年上市,规格和能效将进一步提升。HBM4堆栈层数除了现有的12 Hi外,也将往16 Hi发展。HBM4 12Hi产品预计将于2026年推出;而16Hi产品则预计于2027年问世。此外,受到规格提升带动,将首次看到HBM最底层的Logic die采用12nm制程wafer。

(一)行业周期波动风险

半导体行业具有很强的周期性,市场需求受到宏观经济、下游应用等多种复杂因素影响。若市场受到周期波动影响,相关企业的经营状况可能会受到影响。

(二)AI行业发展不及预期

AI行业当前处于快速发展阶段,行业应用前景、技术路线等仍存在较大不确定性。若后续发展放缓或技术路线改变,则对AI处理器和内存芯片的需求有不利影响,从而影响算力芯片行业整体需求。

(三)新技术进展不及预期

技术创新是半导体行业最重要的驱动力。新技术发展和推广的过程往往具有较大的不确定性,受到研发投入、下游应用、市场竞争等多种因素影响。若新技术的研发、验证、推广进度不及预期,则可能对相关企业的经营状况产生影响。

股市回暖,抄底炒股先开户!智能定投、条件单、个股雷达……送给你>>
海量资讯、精准解读,尽在新浪财经APP
带宽 内存 DDR 处理器 AI

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 04-29 瑞迪智驱 301596 25.92
  • 04-25 欧莱新材 688530 9.6
  • 04-01 宏鑫科技 301539 10.64
  • 03-29 灿芯股份 688691 19.86
  • 03-27 无锡鼎邦 872931 6.2
  • 新浪首页 语音播报 相关新闻 返回顶部