如今,深度神经网络模型的规模和复杂性与日俱增,在为高强度机器学习应用提供强大支持的同时也使传统电子计算硬件的性能面临挑战。
相较之下,光子硬件通过光进行机器学习计算,比传统计算方案更快、更节能。然而,由于某些类型的神经网络计算无法通过光子设备完成,目前仍需要借助芯片外的电子元件或其他方法,导致其速度和能效受限。
经过十多年的研究,麻省理工学院(MIT)及其他机构的科学家成功突破了这一瓶颈,研发出一款全新的光子芯片,这是一种完全集成的光子处理器,能够在芯片上通过光学方式完成深度神经网络的所有关键计算。
该光学设备在执行机器学习分类任务时,用时不到半纳秒,准确率超过92%,性能媲美传统硬件。此外,该芯片由多个互联模块组成,形成了一个光学神经网络,并通过商业代工制造,有助于技术的规模化推广和电子设备的整合。
从长远来看,这款光子处理器有望为激光雷达、天文与粒子物理领域的科学研究,以及高速通信等高计算需求的应用带来更快速、更高效的深度学习能力。
“在许多场景中,不仅模型的性能重要,计算的速度同样关键。现在,我们有了一个端到端的系统,能够以纳秒级的时间运行神经网络光学计算,为我们在更高层次上思考应用和算法提供了全新的可能性。”这项研究的主导者Saumil Bandyopadhyay表示。他是MIT量子光子与人工智能研究组的访问科学家,同时也是NTT研究所的博士后研究员。
这项研究成果已于近期发表在Nature Photonics杂志上。
光子驱动的机器学习
深度神经网络由多个相互连接的节点或神经元层组成,这些神经元对输入数据进行操作以生成输出。在深度神经网络中,最关键的操作之一是使用线性代数进行矩阵乘法,让数据在层与层之间传递的过程中完成转换。
然而,除了这些线性操作之外,深度神经网络还需要执行非线性操作(例如激活函数),这些操作使模型能够学习更复杂的模式,很大程度上,非线性操作赋予了深度神经网络解决复杂问题的能力。
早在2017年,Englund教授的研究团队联合物理学教授Marin Soljacic的实验室,展示了一种基于单片光子芯片的光学神经网络,能够利用光完成矩阵乘法。
然而,当时这款设备无法在芯片上完成非线性操作,光学数据需要被转换为电信号,并发送到数字处理器进行非线性运算。
“光学中的非线性非常具有挑战性,因为光子之间很难相互作用。触发光学非线性需要消耗大量能量,因此构建一个能够以可扩展方式执行非线性操作的系统十分困难。”研究团队的主要成员Bandyopadhyay解释说。
为此,研究团队开发出名为非线性光学功能单元(NOFU)的设备解决了这一难题。NOFU结合了电子和光学技术,使得在芯片上实现非线性操作成为可能。
随后,他们在光子芯片上构建了一个光学深度神经网络,使用了三层设备来完成线性和非线性操作的结合,从而使网络功能更加强大。
完全集成的光学网络
研究团队开发的这套系统从一开始就将深度神经网络的参数编码到光信号中,然后通过一组可编程的光束分离器对输入数据进行矩阵乘法操作。
接下来,数据会传递到NOFU,通过将少量光信号引导至光电二极管,把光信号转化为电流,从而实现非线性运算。这种方法无需外部放大器,能耗极低。
“整个计算过程中,操作始终保持在光学域中,直到最后一步读取结果。这使我们能够实现极低的延迟。”研究主要成员Bandyopadhyay表示。
超低延迟的实现让团队能够高效地在芯片上训练深度神经网络,这种过程被称为“原位训练”,而这种训练在传统数字硬件上通常会消耗大量的能量。
“这一技术尤其适用于需要直接处理光信号的系统,例如导航或通信系统,也适用于需要实时学习的设备。”他说道。
在训练测试中,这一光子系统的准确率超过96%,推理阶段的准确率也达到了92%以上,与传统硬件表现相当。此外,该芯片能在不到半纳秒内完成关键计算。
“这项研究证明,计算的本质——将输入映射为输出——可以通过新的线性与非线性物理架构重新实现,从而带来计算与资源投入间的全新比例规律。”Englund教授表示。
整个电路通过与生产CMOS计算机芯片相同的基础设施和代工工艺制造。这意味着可以利用成熟的技术实现芯片的大规模生产,并将制造过程中的误差降至极低水平。
Bandyopadhyay指出,未来研究的重点将是扩大设备规模,并与现实中的电子系统(如摄像头或通信系统)集成。此外,团队还计划探索能够充分利用光学优势的算法,以实现更快、更高效的系统训练。
这项研究部分由美国国家科学基金会、美国空军科学研究办公室和NTT研究所资助完成。 (麻省)