Meta推出DINOv3:先進的自監督視覺模型,用於可擴展、高精度的視覺分析

簡要

DINOv3 是一個最先進的自監督計算機視覺模型,其單一的凍結主幹提供高分辨率圖像特徵,並在多個已建立的密集預測任務中超過了專門的解決方案。

Meta 推出 DINOv3:在密集預測任務中超越專業解決方案的高級自監督視覺模型

科技公司Meta的研究部門Meta AI推出了DINOv3,這是一種最先進的通用計算機視覺模型,使用自我監督學習(SSL)進行訓練,以生成高質量的視覺特徵。首次,一個單一的凍結視覺主幹在多個已建立的密集預測任務上超越了專門模型,包括物體檢測和語義分割。

DINOv3通過先進的SSL方法實現了這一性能,消除了對標籤數據的需求,減少了訓練時間和資源需求,同時允許模型擴展到17億張圖像和70億個參數。這種無標籤的方法使得該模型適用於注釋有限、成本高或不可用的應用場景。例如,在衛星圖像上預訓練的DINOv3主幹在下遊任務(如樹冠高度估計)上表現出色。

該模型預計將增強當前應用並在醫療、環境監測、自動駕駛汽車、零售和制造等領域啓用新應用,提供更高的準確性和效率,以實現大規模視覺理解。

DINOv3 正在以商業許可證發布一整套開源骨幹網,包括基於 MAXAR 圖像訓練的衛星專用骨幹網。還共享了一部分下遊評估頭,以允許研究人員重現並擴展結果。提供了示例筆記本和詳細文檔,以幫助社區立即開始使用 DINOv3。

DINOv3:通過自監督學習解鎖高影響力應用

根據Meta AI的說法,DINOv3代表了自我監督學習的顯著進步(SSL),首次表明SSL模型可以在廣泛的任務中超越弱監督模型的表現。雖然早期的DINO版本在密集預測任務如分割和單目深度估計中取得了強勁的結果,但DINOv3在此基礎上進一步提高了性能水平。

DINOv3:通過自監督學習解鎖高影響力應用

DINOv3 在原始 DINO 算法的基礎上進行了改進,消除了對元數據輸入的需求,使用的訓練計算量比以前的方法更少,同時仍然能夠生成高性能的視覺基礎模型。DINOv3 的改進使其在下遊任務(如目標檢測)上實現了最先進的結果,即使模型權重保持不變,消除了特定任務微調的必要性,從而允許更靈活和高效的應用。

由於DINO方法論並不依賴於特定的圖像類型,因此可以應用於標籤成本高或不切實際的多個領域。早期版本,如DINOv2,利用大量未標記的數據用於醫學應用,包括組織學、內窺鏡檢查和成像。對於衛星和航空圖像,由於數據量和復雜性使得手動標記不可行,DINOv3允許訓練一個適用於多個衛星源的單一主幹模型,支持環境監測、城市規劃和災害響應等更廣泛的應用案例。

DINOv3已經展示了實用的影響。世界資源研究所(WRI)利用該模型監測森林砍伐並指導恢復工作,使地方團體能夠更好地保護生態系統。通過分析衛星圖像以檢測樹木損失和土地使用變化,DINOv3提高了氣候融資驗證的準確性,降低了交易成本,並加速了對小型地方項目的資金支持。在一個實例中,使用DINOv3對衛星和空中圖像進行訓練,將肯尼亞某地區測量樹冠高度的平均誤差從4.1米減少到1.2米,使WRI能夠更有效地擴大對數千名農民和保護倡議的支持。

VSN-2.31%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)