首页  技术文章  博览:2021 Nature 使用集成光子张量核的并行卷积运算

博览:2021 Nature 使用集成光子张量核的并行卷积运算

发布时间:2022-04-11 17:33:19 浏览量:2563 作者:LY.Young 光学前沿

摘要

随着超高速移动网络和互联网连接设备的激增,以及人工智能(AI) 的兴起,我们的世界正在生成大量需要以快速有效方式处理的数据。因此,高度并行化、快速和可扩展的硬件变得越来越重要。在这里,作者展示了一个计算特定的集成光子硬件加速器(张量核),它能够以每秒数万亿次乘法累加运算(乘法累加运算是矩阵矢量乘法(matrix-vector multiplication,MVM)运算所需的基本数学元素,目前执行此任务的硅基计算硬件有FPGA、ASICs、GPUs)的速度运行。张量核心可以被视为专用集成电路(ASIC) 的光学模拟。它使用相变材料(phase-change material,PCM)存储阵列和基于光子芯片的光频梳(光孤子微梳)实现并行光子内存计算。计算被简化为测量可重构和非谐振无源元件的光传输,并且可以在超过14 GHz 的带宽下运行,仅受调制器和光电探测器速度的限制。鉴于微波线速光孤子微梳、超低损耗氮化硅波导以及高速片上探测器和调制器的混合集成的最新进展,此文的方法为光子张量核心的完全互补金属氧化物半导体 (CMOS) 晶圆级集成提供了可行途径。 尽管此文专注于卷积运算,但更一般地说,文章的结果表明集成光子学在数据密集型AI 应用程序(如自动驾驶、实时视频处理和下一代云计算服务)中具有并行、快速和高效计算的硬件潜力。

正文


博览:2021 Nature 使用集成光子张量核的并行卷积运算


摘要:

随着超高速移动网络和互联网连接设备的激增,以及人工智能(AI) 的兴起,我们的世界正在生成大量需要以快速有效方式处理的数据。因此,高度并行化、快速和可扩展的硬件变得越来越重要。在这里,作者展示了一个计算特定的集成光子硬件加速器(张量核),它能够以每秒数万亿次乘法累加运算(乘法累加运算是矩阵矢量乘法(matrix-vector multiplication,MVM)运算所需的基本数学元素,目前执行此任务的硅基计算硬件有FPGA、ASICs、GPUs)的速度运行。张量核心可以被视为专用集成电路(ASIC) 的光学模拟。它使用相变材料(phase-change material,PCM)存储阵列和基于光子芯片的光频梳(光孤子微梳)实现并行光子内存计算。计算被简化为测量可重构和非谐振无源元件的光传输,并且可以在超过14 GHz 的带宽下运行,仅受调制器和光电探测器速度的限制。鉴于微波线速光孤子微梳、超低损耗氮化硅波导以及高速片上探测器和调制器的混合集成的最新进展,此文的方法为光子张量核心的完全互补金属氧化物半导体 (cmos) 晶圆级集成提供了可行途径。 尽管此文专注于卷积运算,但更一般地说,文章的结果表明集成光子学在数据密集型AI 应用程序(如自动驾驶、实时视频处理和下一代云计算服务)中具有并行、快速和高效计算的硬件潜力。


潜在用途:

(1)替代电子计算,应用于需要并行、快速、高效计算的场


关键图示:

(1)片上矩阵乘法引擎,使用基于光子芯片的光频梳生成多个波长执行并行乘法累加(MAC)运算,在利用相变材料的波导网络中进行非相干相加(此处的光频梳利用了工作在耗散克尔孤子态(dissipative Kerr soliton states, DKS)的芯片级微梳,因为其可以生成宽带、低噪、完全集成的光频梳)。a,数字和模拟电子架构与我们的光子张量核心架构的比较。数字电子(左)需要分布在多个内核上的许多连续处理步骤来计算图像的卷积运算,而整个 MVM 可以使用模拟电子内存计算(中)一步执行。光子内存计算(右)将波长复用作为额外的自由度,在单个时间步长内实现多个 MVM 操作。b,用于计算卷积运算的完全集成光子架构的概念图。片上激光器(此处未使用)泵浦集成的 Si3N4 微谐振器以生成宽带孤子频率梳。形成输入向量的单个梳齿被高速调制,与非易失性相变存储单元矩阵相乘,并沿光电探测器上的每一列求和。c,通过将卷积操作映射到一系列 MVM运算,将具有 din 通道的输入图像(左)与大小为 k × k 的 dout 核进行卷积。输入图像被映射到一系列大小为 (din × k2) × 1(中)的 (n − k + 1)2 个输入向量,并乘以维度为 (din × k2) × dout(右)的滤波矩阵。每条梳状线对应输入向量的一个元素(entry),并根据输入矩阵的像素值进行调制。



(2)输入矢量使用具有不同振幅强度的不同波长编码后,送入不同的矩阵输入口。(PCM处于晶体态时,吸收绝大部分光,表示“0”;处于无定形态时,大部分光被传输,表示“1”;中间的传输态通过可控切换 PCM 单元中无定形部分和结晶部分的比例,获得正和负的矩阵元素。)多波长的应用允许同时执行多个计算。a, 基本 MVM:矢量在具有波长(X1到Xm)的氮化硅 (Si3N4) 光子集成孤子频率梳(微梳)的单个梳齿的振幅中编码,并发送到相应的矩阵输入波导。矩阵元素由PCM的状态决定,PCM贴在波导上。选择定向耦合器的分光比,使得每个输入的相同比例的光到达输出口。b,用于频率梳生成的基于高Q Si3N4 光子芯片的微谐振器的光学显微照片。c,制造的 16 × 16 的光学显微照片。插图显示了一个 4 × 4 矩阵,带有 3D 打印的输入和输出耦合器,以实现宽带操作。右侧的特写 SEM 图像更详细地显示了 3D 打印的耦合器(底部)和波导与 PCM(顶部)的交叉。d,多路复用全光MVM 的示意图。输入向量是由连续波 (CW) 激光器驱动的光子芯片级 DKS 频率梳的行产生的,使用波分复用器 (MUX) 和可变光衰减器 (VOA)。不同输入向量的条目再次使用波长复用组合在一起,并发送到执行计算的片上MAC 单元。将正确的波长与光波分解复用器 (DEMUX) 结合后,乘法结果从光电探测器 (PD) 获得,然后进行数字信号处理 (DSP)。请注意,在给定的示例中,一次操作四个内核和四个输入向量,导致每个时间步长 64 个 MAC 操作。e,单孤子频率梳的测量频谱。



参考文献:Feldmann, J., Youngblood, N., Karpov, M. et al. Parallel convolutional processing using an integrated photonic tensor core. Nature 589, 52–58 (2021).

DOI:https://doi.org/10.1038/s41586-020-03070-1


关于宝马bm555线路:

宝马bm555线路是国内知名光电产品专业代理商,代理品牌均处于相关领域的发展前沿;产品包括各类激光器、光电调制器、光学测量设备、精密光学元件等,涉及应用领域涵盖了材料加工、光通讯、生物医疗、科学研究、国防及更细分的前沿市场如量子光学、生物显微、物联传感、精密加工、先进激光制造等;可为客户提供完整的设备安装,培训,硬件开发,软件开发,系统集成等优质服务。

 

您可以通过宝马bm555线路的官方网站www.auniontech.com了解更多的产品信息,或直接来电咨询4006-888-532。

 

本文章经光学前沿授权转载,商业转载请联系获得授权。