九游娱乐广告:原子级制造：AI大模型呼唤你

来源：九游娱乐广告发布时间：2025-12-19 19:20:21

详细介绍

九游体育娱乐:

编者按：最近在南京大学召开的 Nature 原子制造国际会议上，结识了本科毕业于南京大学、尽情在北美游历了一番后加入上海交大机械与动力工程学院的帅哥教授刘智崑。智崑给人总是一幅激情四射、敏锐激越的style，表达的观点新潮而又接地气。他大概是那种致力于变革性地强化学术界和工业界之间vdW联接界面的后生代！

人工智能 (Artificial Intelligence, AI) 作为一种特殊的产品与商品，人类对它的需求具有独特性。这不仅表现在人类对更高智能的渴望是无止境的，且这种需求是极度苛刻的。人类身处相互竞争的社会中，任何一个人都希望拥有最强的智能工具，哪怕只是比其它工具强那么一点点。

更特别的是，人工智能 AI 具有一种“自催化”的能力。这是说，作为工具，它能加速自身的迭代进化，很有一些人类大脑的那般模样。这种迭代，表现为优势智能体呈现非线性爆发式发展，并快速淘汰稍显落后的智能体。因此，人们对更强人工智能的需求是永不知足的。

然而，是什么在支撑这种爆发式增长呢？也即是说，在支撑与供给一侧，是什么限制了人们获得慢慢的变好的人工智能呢？

读者很快就能看到，要挣脱这一困境，高端制造业，具体而言就是围绕 AI 芯片系统的高端制造业 (统称芯片制造)，需要新的制造模式、新的赛道！

主流的 AI 大语言模型 (AI large language models, LLMs)，都是基于 Transformer 架构。该架构的运作方式，决定了其对硬件资源的特殊需求。观察 Transformer 的结构，如图1所示，我们大家可以看到，它主要由编码器(Encoder) 和解码器 (Decoder) 组成。其核心组件包括：(a) 多头自注意力机制(Multi-Head Attention) 和 (b) 前馈神经网络 (Feed-Forward Networks) [1]。在数学本质上，这些组件的运行，依赖于大规模的矩阵乘法运算。当模型进行推理或训练时，每一个输入的 Token，都需要被转换成高维向量，并与模型中数以千亿计的参数权重进行复杂的矩阵运算。特别是这个“注意力机制”，它要求模型在处理每一个词时，都要回顾上下文中的其他词，以计算相关性 (即 Query, Key, Value 的交互)。这在某种程度上预示着，为了生成哪怕一个简单的字符，硬件都需要在极短的时间内访问并搬运海量的参数数据。

这种架构，在算法层面解决了长距离依赖的问题，赋予了 AI 理解上下文的能力。但是，为了这两个目的而付出的代价是巨大的：它将计算密集型任务，转化为极度依赖内存带宽的数据密集型任务。这是典型的“芝麻西瓜”之矛盾。

图 1. Transformer 架构，作为一种基于自注意力机制的深度神经网络。它是目前大语言模型的通用底层架构 [1]。

这种对资源的消耗，使得 Transformer 模型始终处于一种“饥渴”状态。很多环节其实就是在白白“刷新”而耗费算力，以等待数据传输完成。

随着 Scaling Law 生效，这些 AI 人们发现，模型越大、参数越多，则智能涌现 (intelligence emergence) 的效果越好。这，直接引发了模型参数量从早期的几亿，爆炸式地增长至万亿级别。而这个所谓的早期或晚期，无非是几年时间而已。对于存储容量而言，必须有足够大的显存，来一次性地装载这些庞大的权重矩阵。否则，模型根本没办法运行。

更为关键的，是带宽。尤其是在生成式任务 (如GPT系列) 中，模型是自回归的，即每次生成一个新词都要重新调用整个模型的权重进行计算。从这个意义上，系统似乎并不“智能”呢，至少不如自我感觉上的人脑智能^_^。得益于 Tensor Core 等专用计算单元的快速的提升，现代硬件在处理大规模算术运算时，速度已明显提升。许多计算任务，仅需寥寥数个时钟周期就可以完成。然而，如果内存带宽不足，系统运行就犹如用一根细的吸管去吸干大海，无论 GPU 的计算核心 Tensor Core 有多快，它们都会因为等待数据从内存传输过来而处于空闲状态。正如阿姆达尔定律 (一个关于提升程序工作速度的定量公式) 所述：系统的整体速度，不再取决于计算单元有多快，而是受限于最慢的那个环节——也就是内存数据的传输速度。

图 2. 硬件的峰值算力增长，显著快于内存带宽的增长。如此，形成了算力与带宽之间巨大的“剪刀差”[3]。

如此，就引出了著名的“存储墙”(Memory Wall) 危机。这一概念，最早在 1995 年由 Wulf 和 McKee 提出[2]，如今已成为制约 AI 发展的核心痛点。

依据 Gholami 等人的研究数据[3]，如图 2 所示。在过去的二十年里，服务器硬件的峰值算力 (floating point operations per second, FLOPS)，以每两年约 3 倍的速度狂飙，累计增长了惊人的 60,000 倍。相比之下，动态随机存储器 (dynamic random access memory, DRAM) 的内存带宽增长，却步履蹒跚，每两年仅增长 1.6 倍，同期总增长约 100 倍。而互连带宽的增长，更为缓慢，约30倍，正如老牛拉磨，而旁边却是呼啸而过的京沪高铁。

这种算力与带宽之间巨大的“剪刀差”，导致极度不平衡的系统瓶颈。更为严峻的是，AI 模型的需求上涨的速度，远超硬件摩尔定律。Transformer模型的训练算力需求，以每两年 750 倍的速度爆炸式增长，模型参数量也以每两年 410 倍的速度扩张。摩尔定律所预言的、单 GPU 内存容量的增长，却仅为每两年 2 倍左右。事实上，这些年，摩尔定律也不准了，实际进展已经落后于摩尔定律的预言。

这种供需关系的极度错配，使得“存储墙”问题在大模型时代被急剧放大。再说一遍，对于依赖自回归生成机制的 Decoder 模型 (如GPT系列)，其算术强度往往较低，意味着每次微小的计算都需要伴随大量的数据搬运。这种架构上的错位，导致了严重的资源浪费。最新的统计数据[4] 使得问题更为严峻：在当下的传统架构中，高性能处理器甚至有可能有超过 60 % 的时间处于等待数据的“空转”状态，以等待那数据搬运过程。更糟糕的是，数据搬运不仅耗时，还极其耗能：将数据从内存移动到计算单元的能耗，往往比执行浮点运算本身的能耗高出“几个数量级”。

这种因存储系统无法匹配处理器数据吞吐需求而导致的性能瓶颈，不仅限制了计算速度，更成为制约当前 AI 大语言模型能效比和规模拓展的关键物理障碍。

为克服这一困难，AI 相关的学界、业界，开始尝试从架构和封装技术上寻找突破口。其中最核心的解决方案，便是高带宽内存 (high bandwidth memory, HBM) 技术。HBM 的设计初衷，是为解决传统 DDR 内存 (double data rate memory) 带宽不足的问题。它通过硅通孔(through silicon vias packaging, TSV) 技术，将多个 DDR 芯片垂直堆叠在一起，如图 3 所示，从而在极小的物理空间内实现巨大的存储容量和带宽。与传统的 GDDR (graphics double data rate) 显存相比，HBM 采用了极宽的接口设计(通常为 1024 位)。虽然单引脚的时钟频率较低，但通过并行传输海量数据，系统实现了极高的总带宽。

这种架构，不仅明显提升了数据吞吐量，还通过降低工作电压和缩短信号传输距离，有效提升了能效比，使其成为高性能计算和 AI 加速器的核心组件。

为进一步满足未来万亿参数模型训练与推理对极致性能的渴望，HBM 技术正经历着从架构到封装工艺的深刻变革，旨在突破现有的带宽与容量[6]。如下所列，乃笔者了解到的几个层次之挑战：

(1) 目前的 HBM3E (美光Micron公司为 AI 研发的第三代专用高端 HBM)，已能实现惊人的性能。单颗芯片带宽超过1.18 TB/s，相较于前代提升显著，且能在8层堆叠下提供 24 GB 容量、或在 12 层堆叠下实现 36 GB 的超大容量。

(2) 下一代 HBM4 (第四代 HBM)，则计划引入更为激进的变革。其接口位宽，预计将从目前的 1024 位翻倍至 2048 位，从而在降低单引脚频率压力的同时，将总带宽推升至 1.65 TB/s、甚至 2 TB/s 以上。

(3) 封装技术，则计划从微凸块(Micro-bump) 向混合键合(Hybrid Bonding) 跨越。传统的微凸块技术，在处理更小间距 (Pitch) 和更高层数时，面临电阻升高和散热困难的物理局限。而混合键合技术，通过铜-铜直接连接，消除了凸块间的微小缝隙，不仅大幅度降低垂直互连的电阻和寄生电容，还有效减小了芯片的堆叠高度。这些改进，使得在严格的封装厚度限制 (如 720 μm) 下，能轻松实现 16 层、甚至更高的 DRAM 晶粒堆叠，从而使得单颗HBM 容量有望达到 48 GB。

(4) 最后，为应对随之而来的功耗挑战，未来的 HBM 基底裸片，将使用先进的逻辑工艺制造。这一技术，能将核心电压从 1.1 V 降低至 0.8 V 以下，从而抵消带宽增加带来的功耗上升，并显著改善密集堆叠带来的散热问题。

然而，随着 HBM 堆叠层数迈向 16 层以上，硅通孔 TSV 技术在晶圆减薄良率及稳定性上面临物理极限。在此背景下，单片 3D DRAM (Monolithic 3D DRAM) 作为一种颠覆性技术路径，应运而生。它一改传统 DRAM 单纯依赖平面特征尺寸微缩的发展路径，借鉴 3D NAND 闪存的成功理念，转向垂直方向维度扩展：在同一片晶圆上，连续制造多层存储单元——概念上简单粗暴，制造上崎岖艰难！

这一路径，与 HBM 存在本质的区别。HBM 主要是一种系统级封装技术。它依靠微凸块和硅通孔 (TSV) 技术，将多个独立的、已制造完成的 2D DRAM 裸片进行物理堆叠。这一堆叠，受限于TSV 微米级尺寸限制和封装总高度限制。而单片 3D DRAM，则是晶体管级的工艺集成。其中层与层之间的互连，采用光刻定义的纳米级通孔，彻底摒弃了庞大的TSV 和复杂的键合工艺，以此来实现极高的垂直互连密度和更优的寄生参数控制。读者不妨稍微去了解一下这些变革进程，便可以感觉到其中巨大的潜力！

这种深刻变革，必定且已经给当下芯片制造技术带来难以逾越的技术壁垒。按照那些致力于在芯片产业摸爬滚打的人们之性情，寻求新的制造业举措，范式也好、赛道也罢，只管向前！

其中之一大一点即燃的赛道，就是“原子级制造”。本公众号号主Ising老师，最近才写过一篇科普文字《》，其中亦从不同视角提到这一主题。

本文不打算将原子级制造渲染个遍，只是针对 AI 的呼唤，摘取两段“沧海桑田”小片段，放在这里给读者茶余饭后观摩、把玩。

上文论及 HBM 封装技术时，已提及混合键合这一概念。混合键合是一种革命性的无凸块 (Bumpless) 三维集成互连技术。它摒弃了传统的焊料介质，直接利用介质层之间的分子引力来实现晶圆或芯片间的垂直堆叠。而电极间的连接，则借助铜金属间的原子扩散来实现。此所谓“混合”之键合！

(1) 一是介质层与介质层之间的键合。主要在室温下通过范德华力或氢键形成，以提供机械支撑和电气隔离。利用极度原子级光滑的抛光平面，一些研发单位能轻松实现大晶圆级的介质键合。

(2) 二是作为电极的铜与铜之间的金属键合。借助后续热退火工艺，促使铜原子扩散融合，实现高效的电信号传输，如图 5 所示。

这种独特的“混合”连接方式，极大地缩短了互连路径，降低了电阻和电感寄生效应，并使得互连密度能突破传统封装的极限，成为高性能计算和异构集成的关键赋能技术。

图 5. 混合键合过程，包括了介质层与介质层之间的键合、铜- 铜金属的键合[5]。

在这一工艺中，化学机械抛光 (chemical mechanical polishing, CMP)，是至关重要的一环。界面原子键合，不仅要实现表面的全局平坦化，还必须精确控制铜焊盘相对于介质表面的凹陷及整体的表面粗糙度。理想的混合键合界面，要求介质表面极其平滑，而铜焊盘则常常要微小的凹陷或略微的突出，以便在后续的热退火过程中利用铜的热膨胀特性实现紧密的金属键合。

这是一对矛盾：既要平滑，又要凹陷，还都要原子级！这种对微观形貌的极致控制，直接决定了键合的良率和电气性能，构成了混合键合工艺的核心挑战。

在此背景下，随着对 I/O 密度的需求呈指数级增长，互连间距 (pitch size) 正在从微米级向亚微米级迅速微缩。这一发展，对铜凹陷的控制提出了更为严苛的“原子级”要求。相关研究数据及图表显示，接触面积与间距及凹陷深度之间，存在着紧密的制约关系。以当前“混合键合”的一个典型标准为例：当间距为5 微米时，通常可容忍约 5 nm 的铜凹陷。此时，工艺窗口相对较宽。然而，当间距进一步缩小，铜焊盘体积随之减小，热膨胀带来的突起量将不足以填补较大的凹陷。由简单的计算可推估，当间距缩小 10 倍时，为保证足够的接触面积，铜的凹陷深度须减小约 1 个数量级。这在某种程度上预示着在亚微米间距下，铜凹陷必须控制在很小的范围内(例如 2 nm 以内)，甚至是接近原子级的高度差。

为应对这一挑战，制造界在混合键合的原子级制造方面，已取得很大进展。以相关研发机构 IMEC 为例 [8]，其发展的2 µm 间距Die-to-Wafer (D2W) 键合工艺，展示了卓越的表面控制能力。即便在经历了晶圆减薄和等离子切割等极具挑战性的后续工艺步骤后，IMEC 依然能通过引入创新的无机表面保护层技术，成功避免铜表面的氧化和损伤，将铜凹陷稳定保持在约 2 nm 水平。这一数值，与初始 CMP 工艺得到的 1.5 nm 相当，证明通过先进的工艺整合，可以在复杂的制造流程中维持键合表面的原子级质量，展示了亚微米级互连的可能。

除了对铜焊盘形貌的精准把控，表面粗糙度的控制同样是决定键合质量的重要的条件，且已达到原子级水平。最新的综述与实验数据指出[9]，为确保无孔洞的高质量键合，绝缘介质层(如 SiO2 或 SiCN) 的表面粗糙度，常常要严格限制在 0.5 nm 以下。在一些先进制程探索中，通过优化 CMP 工艺，甚至可实现小于 0.2 nm 至 0.3 nm 的表面粗糙度。例如，针对 SiCN 介质层的 CMP 技术，在工艺优化后，得到的样品其表面粗糙度可稳定在 0.4 nm左右。这种极致的平滑度，对于防止界面空洞的形成、确保气密性、提高键合强度，至关重要。而这种极致的平滑度，令人惊叹不已，毕竟一个原子也就 0.2 nm 的大小，标志着半导体制造已全方面进入原子级精准把控表面形貌时代。

然而，面对这种逼近原子级制造精度的挑战，传统的量测手段已难以满足大规模量产的需求。传统的原子力显微镜 (atomic force microscopy, AFM) 虽然精度高，但扫描速度过慢，无法作为在线量测工具。另一方面，光学检验测试手段，在垂直分辨率上又往往力不从心。

为解决这一瓶颈，Nearfield Instruments 推出的 QUADRA 系统，代表了未来的方向之一[10]。这是一种变革性的、高通量扫描探针量测系统。它创新性地采用了4 个微型AFM 探头并行工作的架构，如图 6 所示。这种设计，使得QUADRA 能够在保持原子级分辨率的同时，成倍地提高检测速度。实验证明，这一技术在用于混合键合量测 Cu 凹陷和表面粗糙度时，能将量测速度提升到每小时 10 片晶圆片的水平。

这一效率，虽然还有些差强人意，但作为半导体技术发展催生原子级制造设备的一典型案例，依然具有显示度。诚然，仅仅是 QUADRA 系统显然是不够的，适合原子级制造的表征技术，任重而道远！

原子级制造在 AI 芯片这一领域突飞猛进之前，预计须克服动态随机存取存储器 DRAM 技术向三维垂直堆叠架构演进所遭遇的巨大壁垒。事实上，原子级制造技术，的确也展示出不错的势头，正成为实现下一代高密度存储的一大核心驱动力。

以 Monolithic 3D DRAM 中电容器的集成制造为例。这一复杂过程，涉及了极为精密的 12 步工艺流程 [11]，如图 7 所示。

制造流程，始于 Si/SiGe 超晶格叠层的外延生长。随后，通过对 SiGe 层的回蚀形成初始沟槽，并利用原子层沉积 (atomic-layer deposition, ALD) 填充 SiO2 作为支撑介质。紧接着，通过原子层蚀刻 (atomic-layer etching, ALE)，回蚀 SiO2并在随后的步骤中对 Si 层进行回蚀，从而为电极形成创造空间。在形成 TiN 接触后，工艺进入更为精细的阶段，包括 SiN 的 ALD 填充与 ALE 回蚀、SiO2 的再次 ALE 回蚀，以及 SiN 去除这关键一步。最终，在这一极度复杂的纳米结构中，依次通过 ALD 技术沉积 High-k 介质层、TiN 电极层以及金属钨，完成电容器的构建。

整个流程包含了 6 次 ALD 沉积和 6 次各向同性选择性蚀刻。每一步，都要求极高的精度，以确保垂直堆叠结构的完整性与电学性能。

以上制程步骤的关键，在于“保形性”与“选择性”。这是 ALD 和 ALE 技术在 3D DRAM 制造中无法替代的原因。与此同时，随着集成密度不断攀升，器件结构内的空间越发狭小。越是这种极端的空间限制，就越需要依赖 ALD 和 ALE 技术。对此感兴趣的读者，可点击御览科普文《》，以作稍微详细一些的了解。

与之相比，传统的沉积与蚀刻技术，在面对 3D 集成所需的侧向加工时，已逼近物理极限、难以为继。此情此景，原子级制造技术不可以再“犹抱琵琶半遮面”，必须走到前台开始“朗朗式”的 (piano) 演出了^_^。

原子级制造工艺的成败，除了取决于技术架构外，也取决于基础材料：即作为器件核心骨架的 Si/SiGe 超晶格结构质量与一致性。Si/SiGe 超晶格结构，是一种通过精细的外延生长工艺、在晶圆上交替堆叠 Si 与 SiGe 纳米薄膜而形成的“千层蛋糕”式多层结构。它的核心作用是利用 SiGe 层作为“牺牲层”，在制作的完整过程中将其选择性腐蚀掏空，从而释放出横向悬空的Si 层作为导电通道。

依据关于 200 周期 Si/SiGe 超晶格生长的研究分析[12]，在 Si 衬底上构筑总厚度达 8.9 微米的超多层结构，是一项极具挑战性的工程。实验数据揭示出至少如下几点对工艺精度的严苛要求：

(1) 为保障最终器件性能，Si 沟道层的厚度必须被精确锁定在 36.7 ± 2.1 nm 之间，其厚度标准差需控制在 0.77 nm 。

(3) 在组分控制上，尽管目标 Ge 浓度为 20 %，实际生长中仍需将波动控制在 19.1 ± 1.7 % 范围内。这种优于 1 % 的浓度均匀性，是确保后续高选择比蚀刻工艺窗口的关键。

(4) 整个制作的完整过程中的热预算管理，亦至关重要。长时间在 675 °C 高温生长，会诱发超晶格中 Ge 原子偏析，导致底部界面宽度展宽至约 4.05 nm (顶部为 3.77 nm )。

综上所述，这种对超晶格生长过程中原子级偏差的极限控制，构成了后续 12 步复杂制造工艺得以实施的基石。

当然，Monolithic 3D DRAM 在尺寸和材料品质上要求如此高精，在立体结构搭建上要求如此纷繁复杂，其制作的完整过程对量测技术提出的更高的、颠覆性挑战，迫使工业界必须放弃传统的表面计量思维。根据 ASML 的先进量测技术报告分析[13]，传统的 CD-SEM 和可见光光学量测，主要局限于表面成像。面对动辄数百层、厚度达数微米的 3D 堆叠结构，这些技术没办法触及深埋于体内的结构特征。例如，侧向凹槽的深度或隐藏的空洞表征鉴定，就是棘手问题。这里，不仅仅是精度的提升，更是探测物理模式的根本转变。

为了“看穿”这些不透明的复杂结构，整个芯片制造业正在转向高能物理手段：利用高着陆能量的扫描电子显微镜，通过背散射电子对材料原子序数的敏感性，实现深层内部结构(如金属填充或空腔)的穿透式成像和量测，从而在不破坏样品的前提下精准监控侧向蚀刻的进程。同时，软X 射线散射测量，作为一种新兴技术，利用其极短的波长 (10 – 20 nm) 穿透性(也就是 X 射线对穿越深度的敏感性)，能重建复杂的 3D 轮廓和层间对准误差。

此外，针对晶圆键合界面，也一定要采用对硅透明的红外 (IR) 显微术，甚至利用声波 (scanning acoustic microscopy, SAM) 来检测深处的微小缺陷。量测技术，已从单纯的“表面拍照”，进化为对芯片内部进行“无损断层扫描”般深度感知。

作为这篇简短而“匆忙”的短文结尾，笔者愿意和读者们一起缅怀物理学家理查德·费曼。他六十多年前曾作出那句著名的预言“Theres plenty of room at the bottom”，指出了微观尺度下物理操控的无限可能。然而，与费曼那种以“技术可行性”为中心的视角不同，本文的鲜明特点在于，确立以“需求”为中心论述“原子级制造”的必然逻辑。

人类对“智能”永无止境的渴求，正推动着AI 大模型参数向万亿级狂奔。这种对算力与存力的极致贪婪，一方面可能让一些读者感觉是“傻大粗”式硬算，使得在传统计算架构中已岌岌可危的“存储墙”危机更为严峻；另一方面，为了延续智能的进化，半导体行业目前似乎又别无选择，必须从二维平面微缩被迫转向三维空间堆叠与原子尺度重构。无论是未来 HBM 的混合键合，还是单片 3D DRAM 的精密原子层沉积，都不是为了探索技术的无限可能，而是因为只有逼近底部的原子世界，才能承载人类对AI日益膨胀的野心。

在这样的大趋势下，当前产业界最急迫的需求，已不单单是制造工艺的突破，而是发展多种、不同能力的先进量测技术。原子级精度与复杂的 3D 深孔结构，给工业生产带来了前所未有的良率挑战。在实验室里造出一颗芯片是一回事，在工厂里大规模、高良率地生产千万颗芯片则完全是另一回事。很显然，在生产流程中明显地增加量测的比重，用“火眼金睛”去透视那些深埋在多层堆叠下的原子级缺陷，将变成 AI 芯片制造难以绕过的万水千山。前文提到的多探针 AFM 系统与高能电子束量测，代表着量测技术的范式转变之初端。只有当具备穿透力的高通量量测技术与原子级制造工艺并驾齐驱，才能确保每一颗流向市场的 AI 芯片都经得起考验，真正满足智能时代对算力基座的庞大需求。

最后指出，本文描述可能多有夸张、不周之处，敬请读者谅解。成熟芯片制造，就是大工程了，再来个极致算力的 AI 芯片制造，非极尽原子级制造之能事，大概难以承载。谨以此文，向“原子级制造”新赛道致敬！