在过去十年,图形处理单元(GPU)主导了人工智能领域,通过增大集群规模、提升带宽、升级GPU以及建设更密集的计算中心来推动AI发展。
然而,随着模型参数量逼近万亿,业界开始愈发关注AI的“能耗”问题,甚至引发了对未来能源供应的深层思考。
AI的“电费账单”和能源消耗已不再仅仅是运营成本,而是逐渐演变为制约行业发展的“结构性瓶颈”。
为应对迫在眉睫的能源危机,前Databricks AI负责人、硅谷创业者Naveen Rao创立了硬科技初创公司Unconventional AI,并将其推向了公众视野。
近日,Unconventional AI发布了其首个模型Un-0,该模型基于“模拟耦合振子系统”驱动图像生成,可视为一种新型物理计算基础的实例。在ImageNet 64×64数据集上,Un-0的FID(Fréchet Inception Distance)得分达到6.74,其生成质量已接近早期主流传统图像生成方法。
Naveen Rao称Un-0是“第一个以物理作为计算原语构建的大规模生成模型”。
他表示:“这标志着基于物理的模型迎来了‘Hello World’时刻。我们利用物理系统固有的随时间变化的行为来完成计算。这是一种全新的计算机构建方式,有望大幅提升能效。”
Naveen Rao甚至提出了一个更为宏大的目标:未来将AI推理的能耗降低到现有系统的千分之一。
Un-0生成的图像过程展示了其随时间演化的轨迹。每条彩色线条代表一个与方框颜色相近的类别,方框中标注了类别名称,并展示了该类别图像随时间逐步生成的过程。
Unconventional AI发布了一篇博客文章详细介绍了Un-0。
Un-0的起点:利用物理系统重塑AI计算
Unconventional AI的目标是构建一种新型计算机,利用物理定律进行计算,期望未来现代AI能在远低于当前水平的能耗下运行,目标是降低约1000倍的能耗。
为此,他们提出了一个核心问题:能否训练一个物理动力系统来完成大规模图像生成任务?
当前最先进的AI模型大多是传统的深度网络,尤其是基于Transformer的模型。然而,在主流路线之外,长期以来一直有研究试图利用物理系统的动态行为来提高能效,例如模拟电路中的噪声、时间变化、电压和电流等。这些方法不依赖于传统的数字数值计算,而是利用物理系统自身的演化过程。
此前已有的相关研究领域包括神经形态计算、Hopfield网络、Reservoir Computing,以及近年发展的Hamiltonian Networks、Liquid Networks、Neural Wave Machines、Thermodynamic Computing和Kuramoto Oscillators等。
Un-0正是这些非传统计算路径上的一次新探索。其核心挑战在于,如何有效地将AI任务映射到物理系统的动态过程中。Un-0旨在验证现代AI工作负载是否能够运行在物理基础上,并最终实现比现有硬件更高的效率。
Un-0的工作原理
Unconventional AI将Un-0的工作原理比作节拍器同步的例子。
每个节拍器都有一个“相位”,代表其摆臂在周期中的位置。当两个节拍器放置在同一表面时,它们会通过桌面相互影响。根据相互作用的强度(耦合强度),它们可能逐渐同步,或进入反相同步状态。
这就是振子的基本概念:每个振子有自己的相位,并倾向于以自身频率振荡,同时受到邻近振子的影响。
当振子数量扩展到数千个时,整个系统会变得更加复杂。大量振子之间存在不同强度的耦合关系,它们通过相互作用自组织成特定模式。
Un-0的计算引擎就是一个大规模振子群,其中振子间的耦合强度是模型最主要的学习参数。
这些耦合振子通常被建模为“Kuramoto振子”。
具体而言,每个振子的运动遵循一个简单的规则,该规则随时间连续生效:一方面它按照自身的自然频率旋转,另一方面它受到其他所有振子的牵引而产生偏移。
描述这些振子随时间演化的常微分方程(ODE)如下:
每个振子 i 都有一个相位 $\theta_i \in [0, 2\pi)$,其中 $\omega_i$ 表示其自然频率。矩阵 $K$ 指定了耦合强度,决定了振子 $j$ 对振子 $i$ 同步或反同步的拉力。
Un-0需要学习的参数是耦合矩阵 $K$ 和自然频率 $\omega$,这些参数共同定义了物理系统本身。
Unconventional AI选择振子的原因有二:
- **受大脑启发:**大脑中普遍存在的节律活动和同步现象被认为可能参与计算过程,例如将分散的特征整合成连贯的感知结果,或调控脑区间的通信。耦合振子是描述这类行为的简化模型,适合作为神经启发式计算模型的基础单元。
- **工程可行性:**振子可以被物理电路原语实现。Unconventional AI认为,耦合振子系统可以直接在CMOS或其他物理基础上实现,让系统的物理行为本身完成动力学演化。
Un-0背后的核心观点是:如果物理规律能够直接计算AI工作负载,那么未来的计算基础将与目前的GPU大不相同。
Un-0的模型架构
Un-0生成图像的过程大致分为五个步骤:
- **随机初始化:**将所有振荡器的相位设置为随机角度,类似于扩散模型中的随机噪声。
- **输入类别引导:**通过一组较小的“条件振荡器”输入类别标签(如“火山”、“雏菊”),引导主体振荡器集群向特定方向演化。
- **物理自然运行:**释放系统,让振荡器在物理动力学作用下相互作用并最终稳定下来。
- **捕捉快照:**在特定时间点 T 记录所有振荡器的相位,形成一个隐空间(Latent)数字网格。
- **渲染像素:**通过一个参数量占模型不到13%的传统解码器,将相位网格转化为最终的图像像素。
在耦合振子作用下,图像随时间演化。条件振子向主振子池输入类别信息,通过一个单向的低秩类别条件矩阵。在时间点 T,系统通过解码器读取振子状态并生成图像。通过多次采样不同的初始条件,可以生成相应的图像分布。
在训练过程中,模型主要学习三类参数:振子间的耦合方式(矩阵 $K$)、每个振子的自然频率 $\omega_i$,以及解码器的权重。振子系统承担了原本由传统神经网络层完成的计算任务。
Unconventional AI解释,选择这种架构是为了赋予动力系统最大的自由度来完成计算。
在训练的前向传播中,模型只需设置耦合矩阵、振子频率和初始相位,然后让动力系统演化,最后读取图像潜变量。
这与扩散模型、Flow Matching等动态生成方法不同,后两者通常在训练过程中显式指导动力系统的演化。Un-0的方法更侧重于基于最终生成样本,通过损失函数反向优化整个动力系统。
这种方法的代价是需要更复杂的损失函数,因为训练信号主要来自生成样本本身。
如何训练Un-0?
Unconventional AI在CIFAR-10和ImageNet 64×64数据集上分别训练了三种规模的模型,结果显示:
随着振子数量的增加,模型的FID评分持续改善。在ImageNet 64×64数据集上,最大的模型使用了16384个振子,总参数约3.22亿,FID达到6.74。
训练方法上,采用了一种新提出的“漂移损失”(Drifting Loss)函数,结合DINOv2特征提取器和AdamW优化器进行端到端训练。
评估方面,CIFAR-10使用5万张生成样本,与参考统计进行比较;ImageNet 64×64同样使用5万张样本,通过ADM evaluation suite计算FID。
计算资源方面,所有CIFAR-10模型在1张B200 GPU上训练,而所有ImageNet 64×64模型则在8张B200 GPU上训练。最大的CIFAR-10模型训练耗时20个B200小时,最大的ImageNet 64×64模型训练耗时640个B200小时。
官方表示,训练瓶颈主要在于“漂移损失”函数的计算,因为它需要使用传统的图像特征提取器并在多个特征视图上进行计算。
Un-0在图像生成领域的定位
为了更清晰地展示Un-0的性能,Unconventional AI将其置于“生成质量 vs 参数数量”的图表中,并与传统及非传统模型进行比较。
在CIFAR-10数据集上,Un-0的参数数量与FID值的对应关系显示,其质量已能与一些早期传统生成器媲美,甚至在某些对比中表现更优,如NCSN、DCGAN-TTUR、WGAN-GP、BigGAN、iDDPM、Consistency Models、TRACT等。然而,它仍落后于EDM和GDD等后期高性能传统模型。
换言之,Un-0并非当前最强的图像生成模型,而更像是一个新路线的起点。其表现已接近多个经典生成模型发布时的水平,但要追赶传统路线的最新前沿,仍需在算法、架构和物理原语层面进行持续优化。
总体而言,Un-0证明了利用物理动力学系统进行大规模现代AI图像生成的可能性。尽管目前在软件模拟下的性能尚未达到常规AI的顶峰,但它为未来实现千倍能效比的“非传统AI硬件”开辟了一条充满希望的道路。
Naveen Rao强调,Un-0的出现表明“计算并非人类独有的发明”。计算存在于自然和物理世界的各个角落。所有物理实体的物理过程都包含时间维度,而当今的计算系统尚未真正利用这一点。
“我们正在开发的,正是这个时间维度。”
这种能效提升与利用时间维度的关系在于,在现有的冯·诺依曼架构机器中,大部分能量消耗在内存和计算单元之间的数据传输上。而动力系统将计算和记忆融合在同一实体中。更重要的是,动力系统可以容忍噪声,这为节省通信能耗带来了新的机会。
Un-0代表着计算范式向动力系统转变迈出的重要第一步。“通过这次模型发布,我们正在将智能与动力学连接起来。”对于AI计算而言,动力学是一种天然的表达框架,神经网络本质上也可以看作动力系统,因此两者之间的映射将更为直接。
“大脑里并没有线性代数这种抽象,所以某种意义上,我们是在绕过中间环节。”
许多网友对Un-0的发布表示期待,认为这种性能效率的提升是巨大的,如果技术得以广泛应用,许多本地运行的应用程序将变得可行。
还有评论认为,如果这项技术能够上市,将是一项极其先进的脑科技。