尊龙初度将十亿参数三维模子塞进手机！4比特量化，速率2.5倍、内存降3.7倍、精度98%

十亿参数的三维重建模子，能塞进手机吗？

昔日念念都不敢念念—— VGGT 这么的短小精悍，单次前向传播就能完成深度计算、点云追想、相机计算多个任务，但部署资本高得吓东谈主。

当今，一个名为 QuantVGGT 的量化框架给出了谜底：4 比特量化，速率提高 2.5 倍，内存减少 3.7 倍，精度保住 98%。

频年来，以视觉几何基础 Transformer（Visual Geometry Grounded Transformers， VGGT）为代表的基于学习的三维重建模子，借助大领域 Transformer 赢得了权臣进展。

然则，其极高的计较和内存资本严重险峻了在本色场景中的部署。磨砺后量化（Post-Training Quantization， PTQ）已成为模子压缩与加快的常用技能，但通过履行发现，在对十亿参数领域的 VGGT 进行压缩时，PTQ 濒临专有挑战：数据无关的突出令牌会导致重尾激活散布，而三维数据的多视图特色则使校准样本采取极具不沉稳性。

本探究提议首个针对 VGGT 的量化框架QuantVGGT，主要包含两项技能孝顺：其一，引入双平滑细粒度量化（Dual-Smoothed Fine-Grained Quantization），通过交融预全局哈达玛旋转（pre-global Hadamard rotation）与后局部通谈平滑（post-local channel smoothing），正经地缓解重尾散布与通谈间方差问题；其二，遐想噪声过滤种种采样（Noise-Filtered Diverse Sampling），专揽深层统计信息过滤终点值，并构建帧感知的种种校准聚类，确保量化范围的沉稳性。

宽广履行标明，QuantVGGT 在不同基准数据集和比特宽度下均终明晰面前最优性能，大幅卓越此前的通用量化挨次。值得关爱的是，4 比特量化的 QuantVGGT 在信得过硬件推理中可终了3.7 倍内存减少和 2.5 倍加快，同期保抓重建精度不低于全精度模子的 98%。这充分评释了 QuantVGGT 在资源受限场景中的权臣上风与实用性。关系代码已开源。

△ QuantVGGT 能在不耗损视觉质料的前提下，将 VGGT 有用量化至 W4A4（4 比特权重、4 比特激活），同期终了 2.5 倍加快与 3.7 倍压缩。

VGGT 虽强但太大，怎样"瘦身"？

频年来，基于学习的三维重建技能在班师从图像序列中规复密集几何结构与相机轨迹方面展现出前所未有的才能。传统挨次以几何先验学问和优化算法为基础，但对东谈主工遐想采取和迭代求解器的依赖，使其在复杂场景中赓续存在推广性有限、鲁棒性不及的问题。

与之相背，大领域深度模子将探究范式转向数据驱动框架，在不同环境中展现出优异的泛化才能。这一演进经过中的里程碑效果是视觉几何基础 Transformer（VGGT）——该模子领有 12 亿参数，可在单次前向传播中融合完成多个三维任务，包括密集深度计算、点云图追想、相机姿态计算与点追踪，且性能抓续卓越任务专用模子。

尽管 VGGT 生效权臣，但十亿级别的参数领域使其产生极高的计较与内存资本，严重结果了其在本色场景中的部署。模子量化技能通过将模子的权重和激活值从高精度浮点数调度为低精度整数，成为一种有用的压缩技能。天然该技能已在大型言语模子和二维视觉模子中得到平庸考据，但针对 VGGT 这类十亿参数级三维重建 Transformer 的量化探究仍处于空缺状况。本探究发现，VGGT 存在两项模子特有属性，使其量化极具挑战性：

数据无关突出令牌的存在：VGGT 包含相机令牌（camera tokens）和配准令牌（register tokens），与从输入图像编码得到的老例图像令牌不同，这些突出令牌经过预磨砺后注入图像令牌中，用于编码全局崎岖文与跨视图几何信息。这种数据无关特色导致激活散布偏离常领域式，不仅加重了散布的"重尾"表象，还激发权臣的通谈与令牌方差。这种诬陷的统计特色对范例量化技能不友好，易形成宽广信息丢失。

三维数据固有的语义复杂性：每个输入图像序列包含非同源且复杂的视图，意味着其潜在语义空间既高维又高度冗余。在量化校准经过中，理念念情况是捕捉数据的主要预期散布；若校准样本为凄凉的终点值且清寒种种性，计算出的量化范围会产生偏差，米乐体育(M6Sports)官网入口无法终了泛化，进而导致模子在未见过的场景中性能下落。因此，与二维视觉任务比拟，三维重建任务中样本的种种性与代表性更为要津。

为应酬上述挑战，本文初度对 VGGT 的磨砺后量化（PTQ）伸开系统性探究，并提议定制化框架 QuantVGGT。该挨次引入双平滑细粒度量化（Dual-Smoothed Fine-Grained Quantization， DSFQ），通过以下两点缓拆伙布诬陷问题：

（1）基于哈达玛变换的预全局旋转，分散终点值并平滑重尾散布；

（2）后局部平滑门径，在旋转空间中归一化通谈级方差。此外，为措置校准不沉稳性问题，本文遐想噪声过滤种种采样（Noise-Filtered Diverse Sampling， NFDS），专揽深层激活统计信息过滤噪声极值，并筹商与 VGGT 归纳偏置对王人的帧感知聚类。这些组件共同作用，终明晰对十亿参数级三维重建 Transformer 正经、高效且高精度的量化。

本文的孝顺总结如下：

初度对 VGGT 的 PTQ 伸开系统性分析，明确了数据无关令牌与多视图激活统计特色所导致的量化挑战。

提议双阶段平滑有规画，通过全局分散重尾散布与局部均衡通谈方差，权臣镌汰量化弱点。

遐想校准计谋：过滤终点值并专揽 VGGT 的归纳偏置构建帧感知聚类，确保校准集具有代表性与沉稳性。

宽广履行标明，该挨次可终了 VGGT 的有用低比特量化，在大幅提高内存与推理着力的同期，保抓重建精度不耗损。

△ " QuantVGGT 举座框架图"，图上半部分为双平滑细粒度量化架构，下半部分为噪声过滤种种采样计谋。关系使命基于学习的三维重建

频年来，跟着深度学习技能的发展，三维重建任务缓缓从严重依赖先验学问的传统挨次转向数据驱动的基于学习的挨次。成绩于大领域磨砺经过，尊龙国际官网基于学习的挨次频繁具有更优的重建性能与泛化才能。DUSt3R 通过对两张 RGB 图像进行追想，计算场景的三维点云图，为基于学习的三维重建挨次奠定了基础；MASt3R 进一步优化该框架，引入置信加权损空幻现度量模范靠近。

面前的 VGGT 模子可在单次前向传播中计算相机位置、密集深度、点云图与点追踪；将参数领域推广至 12 亿后，VGGT 在各种三维任务中均终了面前最优性能，以至卓越部分任务专用模子。然则，VGGT 数十亿的参数领域与巨大的计较复杂度，严重结果了其平庸部署与应用，而针对 VGGT 的量化等压缩挨次探究仍极为有限。

模子量化

模子量化通过镌汰数据比特宽度，权臣减少内存占用并加快推理经过。模子量化主要分为量化感知磨砺（Quantization-Aware Training， QAT）与磨砺后量化（Post-Training Quantization， PTQ）两类：QAT 需专揽宽广数据同期磨砺量化参数与模子权重，因此在极低比特量化下频繁能保抓较好性能，但赓续需要广大的磨砺资源；与之相背，PTQ 仅需少许校准数据微调量化参数，无需救援原始全精度权重，更适用于大型模子。

在 PTQ 领域，BRECQ 构建了块级重建框架；QDrop 通过就地丢弃量化激活值进一步提高性能；为确保 PTQ 在大型模子中的有用性，GPTQ 专揽近似二道路度优化大型言语模子；针对散布招架衡对量化的影响，SmoothQuant 引入平滑参数，将激活量化的难度窜改至权重端；QuaRot 则给与访佛旋转的挨次平滑散布。尽管这些挨次在现存二维视觉模子与言语模子中发达优异，但它们在 VGGT 这类大领域三维模子上的泛化才能较差。据本文所知，QuantVGGT 是首个专为 VGGT 遐想的 PTQ 框架，可在低比特量化下仍保抓模子性能。

挨次视觉几何基础 Transformer（VGGT）

VGGT 是一种最新架构，可从大肆长度的图像序列中计算所关联键三维属性，其中枢组件为令牌化（tokenization）与令牌配准（token registration）。关于包含 N 张 RGB 图像的输入序列ℐ ={Ii}Ni=1 ，VGGT 最初通过预磨砺视觉主干网罗ℱ ( · ) （如 DINOv2）对每张图像进行令牌化，得到：

其中，n 暗意图像分块后的令牌长度，d 为特征维度。

为终了多属性推理，VGGT 为每张图像添加 1 个相机令牌与 4 个配准令牌，这些令牌认真团聚不同三维属性（如相机参数、场景几何结构）。值得属宗旨是，VGGT 包含两组不同的突出令牌：一组为 tf ∈ R5 × d，专为第一帧图像保留；另一组为 to ∈ R5 × d，供后续所有帧分享。神志上，令牌配准经过界说为：

最终得到的 X ̂ 将输入至 VGGT 主干网罗进行后续处理。

磨砺后量化（PTQ）

量化的宗旨是将模子权重与激活值从浮点数暗意调度为紧凑的低比特整数暗意，从而镌汰计较资本与内存占用。关于浮点数向量 x，对称量化经过可神志化为：

其中，N 暗意宗旨比特宽度，round 为取整操作，clamp ( · ) 确保整数值处于有用范围 [ -2N-1，2N-1-1 ] 内。

在各种量化范式中，PTQ 因其高效性被平庸应用。与量化感知磨砺（QAT）不同，PTQ 无需微调模子权重，仅需通过少许校准数据集� �calib 微调量化参数，即可保抓原始全精度权重不变。这种特色使 PTQ 在微调资源有限的本色部署场景中极具眩惑力。

其中，θ f 与 θ q 分手暗意全精度模子与量化模子的函数。

双平滑细粒度量化（DSFQ）

△ "双平滑细粒度量化的动机与效果"，图 ( a ) 为 VGGT frame_block 9 的权臣散布，图 ( b ) 为配准令牌的权臣性，图 ( c ) 为平日旋转后的散布，图 ( d ) 为双平滑后的散布

不雅察 1：VGGT 存在高度诬陷的数值散布，且数据无关令牌（相机令牌与配准令牌）会加重这种诬陷，导致严重的量化弱点。

如图所示，这些数据无关令牌（前 5 个令牌）会放大通谈与令牌的数值方差：其包含宽广远超老例图像块令牌的终点值，形成重尾散布。在量化经过中，少数大数值会占据大部重量化区间，导致严重的数值失真。

预全局旋转（Pre-Global-Rotation）：

受基于旋转的量化挨次启发，本文给与哈达玛变换（Hadamard transformation）分散突出令牌激发的终点值影响。哈达玛矩阵知足（单元矩阵）。关于激活值与权重，矩阵乘法的不变性可保抓为：

基于中心极限效应，哈达玛旋转后的数值散布更接近高斯散布，从而平滑突出令牌引入的重尾散布。

引理标明，哈达玛旋转可将终点值分散至各通谈，形成更均匀的散布，权臣镌汰终点值影响。因此，原始散布会变得更蚁合、更平滑，更利于量化。如图所示，哈达玛旋转后，宽广顶点终点值得到缓解。

后局部平滑（Post-Local-Smooth）：

尽管哈达玛旋转缓解了全局散布诬陷，但如图所示，旋转后的散布仍存在权臣的局部方差。哈达玛旋转仅能将终点值分散至各通谈，却无法摒除单个通谈内的终点值。为进一步镌汰量化弱点，本文引入通谈级缩放因子，对旋转空间中的通谈散布进行归一化：

{jz:field.toptypename/}

其中，α 用于均衡激活值与权重的量化难度（频繁设为 0.5）。与传统缩放挨次不同，本文有规画从旋转后的散布中推导缩放因子，可有用抵御突出令牌顶点值的影响。该遐想具有两项上风：

（1）缩放因子源于预旋转后的平滑散布，幸免了顶点值对权重量化的搅扰；

（2）确保缩放后的散布更平滑——若先进行缩放再旋转，会龙套通谈缩放带来的增益。此外，缩放因子可交融至相邻层中，不会加多运转时资本。

细粒度量化粒度（Fine-Grained Quantization Granularity）：

上述"旋转 - 缩放"量化计谋通过措置维度 din 的问题镌汰量化弱点，但量化粒度的采取对举座弱点不异至关紧迫。近期探究通过‘ μ -coherent ’界说量化难度：关于大肆 x，若 max ( x ) ≤ μ

尊龙 初度将十亿参数三维模子塞进手机！4比特量化，速率2.5倍、内存降3.7倍、精度98%

尊龙初度将十亿参数三维模子塞进手机！4比特量化，速率2.5倍、内存降3.7倍、精度98%