具有集成光子I / O的单片微处理器外文翻译资料

 2021-11-26 10:11

英语原文共 19 页

具有集成光子I / O的单片微处理器

Chen Sun * 1,2,Mark T. Wade * 3,Yunsup Lee * 1,Jason S. Orcutt * 2,4,Luca Alloatti2,Michael S. Georgas2,Andrew S. Waterman1,Jeffrey M. Shainline3,5,Rimas R .Avizienis1,Sen Lin1,Benjamin

R. Moss2,Rajesh Kumar3,Fabio Pavanello3,Amir H. Atabaki2,Henry M. Cook1,Albert J. Ou1,Jonathan C. Leu2,Yu-Hsin Chen2,KrsteAsanović1,Rajeev J. Ram2,Miloscaron;APPopović3,Vladimir

M.Stojanović1

*同样为这项工作做出贡献

1加州大学伯克利分校,伯克利,加利福尼亚州

2麻省理工学院,剑桥,MA

3科罗拉多大学,博尔德,博尔德,CO

4现在在IBM T.J.沃森研究中心,约克镇高地,纽约州

5现在科罗拉多州博尔德国家科学技术研究所

短距离电线上的数据传输包括带宽密度和功率密度限制,从而为现代计算机系统中的半导体微芯片(从移动电话到大规模数据中心)创造了性能瓶颈。基于硅基纳米光子器件的芯片级电子光子系统1-4的光通信可以克服这些限制6-8。然而,由于电子和光子学之间的微芯片制造冲突,将电子和光子学结合在同一芯片上已证明具有挑战性。因此,目前的电子光子芯片9-11局限于小众制造流程,只集成少数几个光学设备电路。在这里,我们报告了一个电子光子片上系统(SoC),它集成了超过7000万个晶体管和850个光子元件,它们协同工作以提供逻辑,存储器和互连功能,实现了一个可以直接与外部进行光学通信的微处理器芯片世界第一次。为了在这种规模上集成电子和光子学,我们采用零变化方法来集成光子学。我们不是开发定制工艺来制造光子学12,这使得大规模和高产量的先进晶体管集成的可能性变得复杂或消除,我们直接在标准的微电子铸造工艺中设计光学器件用于现代微处理器13(Cell14,BlueGene / Q15,Power716等)。我们希望这一演示标志着电子光子SoC时代的开始,这种时代可能对计算系统架构产生变革性影响,从而实现从网络基础设施到数据中心和超级计算机的新型更强大的计算机的飞跃。

电光SoC(图1)包含一个双核RISC-V指令集架构17(ISA)微处理器和一个独立的1 MB静态随机存取存储器,用于存储器。用于数据输入/输出(I / O)的片上电光收发器使微处理器和存储器能够使用光直接与片外组件通信,而无需单独的芯片或组件来托管光学器件。该芯片采用商用高性能45 nm互补金属氧化物半导体(CMOS)绝缘体上硅(SOI)工艺制造18。不需要对铸造工艺进行任何改变以适应光子学,并且所有光学器件都被设计成符合原生工艺制造规则。这种零变化集成使高性能晶体管与光学器件在同一芯片上重复使用该过程中的所有现有设计,与电子设计工具的兼容性和制造在现有的大批量铸造厂。

该工艺包括晶体Si(c-Si)层,其被图案化以形成电子晶体管的主体和光波导的核心。薄的掩埋氧化物(BOX)层将c-Si层与硅处理晶片分开(扩展数据图1)。就像BOX一样

lt;200nm厚,在c-Si波导中传播的光将渐渐地泄漏到硅处理晶片中,导致高波导损耗。为了解决这个问题,我们在电气封装后在芯片上执行选择性衬底去除,以在光学器件的区域下蚀刻掉硅手柄(扩展数据图2)。如果需要,我们将硅手柄保持在微处理器和存储器(耗散功率最大)之下,以便接触散热器。基板去除对电子设备13的影响可以忽略不计,即使使用完全去除的基板,处理器也能完全发挥作用。

硅锗(SiGe)以低锗摩尔分数存在,采用先进的CMOS工艺,通过p沟道晶体管的压缩应变工程提高空穴迁移率和晶体管性能18。为光通道选择1180 nm波长带可以使用使用此SiGe19构建的光电探测器(PD)。硅在1180nm处是透明的并且没有观察到不利影响。在这些波长下,硅带波导中的光传播损耗为4.3 dB / cm(工业标准波长1300 nm和1550 nm的损耗分别为3.7 dB / cm和4.6 dB / cm)。接收器电路20将由发光的PD产生的光电流分解为数字1和0。光调制幅度(OMA)中的接收器灵敏度为-5 dBm,优于10-12比特误码率。

电光发射器由电光调制器及其电子驱动器组成。该调制器是直径为10mu;m的硅微环谐振器,耦合到波导。我们用用于晶体管的n阱和p阱注入来掺杂该结构,以形成径向延伸的p-n结,沿方位角尺寸21,22交错,采用“辐条环”的形式。该环具有尖锐的缺口滤波器光传输响应,在环的谐振波长(lambda;0)处具有阻带。在结上施加负电压会消耗自由载流子环(电子和空穴浓度),而小的正电压会重新填充载流子。载流子浓度的变化通过载流子等离子体色散效应23影响环形波导的折射率,而载流子等离子体色散效应又使lambda;0偏移。通过改变施加在结上的电压以使lambda;0阻带移入和移出激光波长(lambda;L)来实现电光调制(开关键控)。调制器的负载品质因数约为10,000,调制器上的电压摆幅仅为1 Vpp,对于不归零(NRZ)二进制数据,在3 dB插入损耗下实现6 dB的开关比。低电压,接近零的静态电流和低电容(15 fF,包括布线电容)使得节能调制器由标准CMOS逻辑逆变器以千兆位数据速率驱动,使用相同的1 V标称电源为数字电子设备供电。

作为谐振器件,调制器对SOI晶片内部和之间的c-Si层厚度变化高度敏感24,以及由芯片25,26上的电子元件产生的空间和快速时间变化的热环境。这两种效应都会导致lambda;0偏离设计价值,需要调谐电路。我们在环内嵌入了一个400Omega;电阻微加热器,以有效地调谐lambda;0,并添加了一个与调制器引入端口弱耦合的监控PD。当光在调制器环中谐振时,一小部分光耦合到PD并照亮PD。这产生与共振光量成比例的光电流,即当共振lambda;0等于激光波长lambda;L(调制器直接在共振上)时,最大化。利用密集集成的电子设备,我们设计了一个数字控制器,用于监控光电流并控制微加热器的功率,以便在热变化下将lambda;0锁定在lambda;L20。在lambda;0具有大的lambda;L偏移的情况下,例如在芯片上电期间,并且没有光电流反馈可用时,控制器将加热器的功率输出步进扫描lambda;0以与lambda;L执行初始对准以达到状态有足够的光电流来开始主反馈回路。控制器在7 ms内实现初始锁定,锁定后跟踪时间常数为13mu;s。该系统提供高达3 nm的lambda;0变化,并且可以补偿60 K20的温度波动,这得益于选择性基板去除所提供的优异的热隔离。

我们使用微处理器芯片的直接芯片到芯片光学连接来为微处理器构建光子连接的主存储器系统(图2)。微处理器芯片光学地与位于任意距离之外的第二相同芯片上的1MB存储器阵列通信。微处理器通过微处理器向存储器(P2M)链路发送请求(读或写),存储器地址(存储器中的位置以进行读或写),以及写数据(用于写请求)。存储器到微处理器(M2P)链路返回读取请求的读取数据。现场可编程门阵列(FPGA)提供主板的外围功能,完成用户可控制的计算机。

对于P2M和M2P链路,激光首先耦合到电光发射器中;到达单模(SM)光纤的激光通过垂直光栅耦合器(VGC)耦合到片上波导。由电路驱动的光调制器调制波导中的光并用来自光源的开关键控二进制数据对其进行压印。光然后退出芯片通过第二个垂直光栅进入另一个芯片的SM光纤。在那里,光通过VGC耦合到接收站点,照亮接收PD,并由接收器电路解析回目的地的二进制数据。微处理器和存储器之间的通信是全双工的。 P2M和M2P链路都以2.5 Gb / s的速度运行,提供5 Gb / s的总内存带宽。所示的演示仅使用一种波长的光;每增加一个波长,内存带宽增加5 Gb / s,总的潜在总带宽为55 Gb / s,无需使用额外的光纤。

单个1183 nm连续波(CW)片外固态激光器充当光源,输出功率为50/50,可在P2M和M2P链路上共享。为了克服由于未经优化的光栅耦合器引起的每个VGC的4 dB至6 dB耦合损耗,我们插入一个光放大器,提供大约9 dB的增益,以在接收器处获得足够的光功率来分辨信号。使用优化的VGC,损耗为1.2 dB27,作为同一芯片上其他地方的独立测试设备,将在未来的设计迭代中消除对光放大器的需求。

为了验证计算机中光子连接存储器的功能,我们运行了基于终端和图形程序的组合(摘自图3)。为了运行程序,控制FPGA首先通过存储器控制器执行直接存储器访问(DMA),以将所有程序的指令写入存储器。程序完全加载后,FPGA向处理器发出复位信号,处理器通过从存储器(地址0x00002000)获取第一条程序指令开始执行程序。在程序执行期间,除了从存储器读取指令之外,处理器还向存储器写入和从存储器读取程序数据。控制FPGA处理终端输出和动作的打印作为显示驱动程序,从驻留在存储器中的帧缓冲区读取以向用户显示屏幕。在所有情况下,P2M和M2P光链路处理与存储器之间的所有通信(存储所有程序指令和数据)。我们注意到处理器时钟频率被锁定为P2M链路总比特率的1到80比(对应于时钟频率,当使用光链路演示处理器时,31.25 MHz,2.5 Gb / s),决定了芯片设计过程中简化工程工作的结果。在非光学模式下工作时 - 通过控制接口通过时间复用存储器数据与同一芯片本地的1 MB存储器组或与控制FPGA连接的存储器进行电气通信 - 处理器可以以最大速度运行1.65 GHz。可以在补充视频中找到运行这些程序的系统的演示。

为了评估光链路和环形调谐控制对热扰动的鲁棒性,我们通过在1000 s周期内改变处理器的电压和频率工作点(图4)来创建合成处理器功率轨迹。处理器功率的变化代表处理器的行为,因为它运行不同的负载,从而影响芯片温度。最高温度和最低温度(处理器分别为最大和最小功率)之间的温度差异约为8 K.热调谐电路控制与环形调制器集成的微加热器的输出,以保持谐振器件与激光器锁定波长,尽管处理器产生温度变化,仍保持链路没有误码。在禁用调谐电路的情况下,相同的链路会经历许多位错误,具体取决于处理器的功耗。补充视频中显示了在程序执行期间热扰动对系统的影响。

第一个电子光子微处理器芯片的演示通过添加纳米光子学作为新的设计尺寸,为超大规模集成电路(VLSI)技术的进步打开了变革之路。通过高级节点CMOS工艺调整光子器件直接与电子器件集成,使得能够在大批量电子代工厂中生产功能完备的电子光子SoC。集成度允许片上热调谐控制系统保证紧凑和高能效,以及热敏光学谐振器器件的稳健运行,解决了VLSI技术中采用纳米光子电路的主要挑战之一。

方法

芯片实施。关键芯片特性总结在扩展数据表1中。光子器件是在Cadence Virtuoso(一种用于前端电子设备的行业标准设计工具)中与混合信号电子器件28一起制备的。数字电子产品使用Synopsys和Cadence的数字合成和布局布线工具相结合的方式实现。所有光子和电子设计均符合IBM商用45纳米薄型BOX SOI工艺(12SOI)的CMOS制造规则(超过5000条规则),并使用Mentor Graphics Calibre进行物理验证。

芯片制造。芯片通过标准的12SOI工艺流程制造。我们通过可信访问程序办公室(TAPO)穿梭运行提交我们的掩模聚合设计,芯片掩模组被视为普通电子设计。我们注意到,物理设计尺寸,包括本工作中未明确报告的横截面层类型和厚度信息,是作为标准电子设计套件的一部分提供的,该套件根据保密协议提供给IBM代工客户。关于此过程的过程和性能信息的子集可以在关于电子CMOS过程开发的各种官方IBM出版物中找到18,29,30。

电气包装。来自铸造厂的芯片被可控塌陷芯片连接(C4)焊球撞击。然后通过C4焊料回流将芯片倒装芯片安装(芯片的基板暴露在顶部)到8层FR4印刷电路板(PCB)。这形成了从芯片到PCB的所有249个电连接(包括电源和接地)。将环氧树脂封装添加到安装的芯片中,以获得额外的机械支撑并保护芯片

安装芯片。这些步骤是电气芯片封装的典型步骤,由CVInc执行。图案化基板去除封装芯片。首先将电气封装的样品背面研磨以使芯片衬底薄至100mu;m至150mu;m(由Aptek Industries执行)。然后我们用异丙醇和N2气枪清洁背面。接下来,我们将Kapton磁带应用于我们不希望移除的基板区域(通过处理器和DRAM仿真器组)。然后,将芯片放置在腔室中,该腔室供应XeF2气体以各向同性地蚀刻硅衬底,将其作为挥发性产物SiF4除去。我们使用脉冲蚀刻技术,其中120秒的蚀刻步骤与60秒的时间段交错,我们抽出反应产物。腔室中使用的压力为3.4托。由于电子设备不受基板移除的影响,因此通过胶带和手动对准提供的非常粗糙的特征定义就足够了。平均而言,基板去除过程需要10-30个循环(取决于背面研磨后的厚度),成功率为80%(定义为在基板去除后具有工作处理器)。当用眼睛检查时,当所需蚀刻区域上的衬底消失时,我们停止蚀刻。使用标准光刻技术31在大批量制造中可以容易地实现上述步骤,这也可以改善后处理的均匀性和产量以及蚀刻区域的分辨率和对准。

光学测试。 1183nm激光器是QDLaser提供的量子点DFB激光器。我们使用Oz Optics提供的透镜光纤,光斑尺寸为5mu;m,工作距离为26mu;m,通过芯片背面将光耦合到垂直光栅耦合器中(在去除基板后)。光斑尺寸与垂直光栅的5mu;m模场直径相匹配耦合器。我们使用3轴定位器级(Thorlabs NanoMax)在测试位置的光栅耦合器上定位和对齐光纤。所示的演示需要总共3根光纤耦合到每个芯片。最小的光纤到耦合器插入损耗是通过将光纤从芯片表面偏离法线19°来实现的。为了调整输入光的偏振,我们使用Thorlabs的3桨手动偏振控制器(尽管如果使用保偏光纤,可以避免这些)。对于第一次演示,我们选择了手动光纤对准方法,以自由耦合到整个芯片中的数百个光学测试站点中的任何一个。为

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。