免费xxxx大片国产片_精品在线一区_亚洲午夜福利av_亚洲色大成人一区二区_无码熟妇人妻AV在线影片免费

您的位置:首頁 >生活 >

CVPR 2023最佳論文新鮮出爐:第一篇以中國學術(shù)機構(gòu)作為第一單位的最佳論文

2023-06-24 08:22:54 來源:快科技

6月22日訊:這個高光時刻,屬于自動駕駛,屬于大模型,更是屬于中國團隊。

CVPR 2023最佳論文新鮮出爐,2篇論文從總量高達9155篇的投稿中脫穎而出。


(相關(guān)資料圖)

對于這2篇最佳論文中的任何一個,可以說用“萬里挑一”來形容都不足為過了。

第一篇名為Planning-oriented Autonomous Driving(以路徑規(guī)劃為導向的自動駕駛),由上海人工智能實驗室、武漢大學及商湯科技聯(lián)合完成。

據(jù)了解,這是近十年來,計算機視覺三大頂級國際會議(CVPR、ICCV、ECCV)上,第一篇以中國學術(shù)機構(gòu)作為第一單位的最佳論文。

第二篇名為Visual Programming: Compositional visual reasoning without training(視覺編程:未經(jīng)訓練的組合視覺推理),由艾倫人工智能研究所發(fā)表。

而在最佳論文的“候選名單”中,不乏谷歌、斯坦福大學、康奈爾大學等在內(nèi)的頂尖企業(yè)和高校。

競爭之激烈,可見一斑。

那么這兩篇為何能在眾多論文中成為佼佼者,我們繼續(xù)往下看。

首次提出感知決策一體的自動駕駛通用大模型

自動駕駛歷來被人們稱為集AI技術(shù)之大成者。

一般在自動駕駛?cè)蝿?wù)中,通常包含三大模塊,分別是感知、預(yù)測和規(guī)劃,不過主流方案通常是分開來處理具體任務(wù)。

由此導致的缺陷也是比較明顯,要么是任務(wù)之間協(xié)調(diào)不足,要么是影響到了整體性能的提升。

基于這樣的一個背景,這篇論文便首次提出了感知決策一體化的自動駕駛通用大模型——UniAD。

UniAD是一個綜合框架,將全棧駕駛?cè)蝿?wù)整合到一個基于Transformer的端到端網(wǎng)絡(luò)中。

除了我們剛才提到的三個主任務(wù)之外,還包括六個子任務(wù),包括目標檢測、目標跟蹤、場景建圖、軌跡預(yù)測、柵格預(yù)測和路徑規(guī)劃。

那么如此“大一統(tǒng)”的方式之下,結(jié)果又如何?

根據(jù)論文顯示,在nuScenes真實場景數(shù)據(jù)集中,UniAD的所有任務(wù)均達到SOTA!

具體“實戰(zhàn)”效果如下:

在面對采訪時,上海人工智能實驗室青年科學家李弘揚介紹:

憑借其充分的可解釋性、安全性、與多模塊的可持續(xù)迭代性,UniAD是目前為止最具希望實際部署的端到端模型。

值得一提的是,除了這篇最佳論文之外,上海人工智能實驗室和商湯科技在本屆CVPR中均取得了不凡的表現(xiàn)。

兩個單位還聯(lián)合斬獲了一篇最佳論文候選,共計54篇論文被接收。

通過編寫代碼解決計算機視覺任務(wù)的AI

在第二篇論文中,研究人員提出了VISPROG,是一種神經(jīng)符號結(jié)合(Neuro-Symbolic)的方法,用于在給定自然語言指令的情況下解決復(fù)雜和組合的視覺任務(wù)。

VISPROG無需對任何特定任務(wù)進行專門訓練。

相反,它利用大語言模型的上下文學習能力,生成類似Python代碼的模塊化程序,然后執(zhí)行這些程序來獲得解決方案和全面且可解釋的理由。

生成的程序的每一行可能會調(diào)用多個現(xiàn)成的計算機視覺模型、圖像處理程序或Python函數(shù),來生成可能被程序的后續(xù)部分使用的中間輸出。

研究人員在四個不同的任務(wù)上展示了VISPROG的靈活性,包括組合視覺問答、對圖像對進行零樣本推理、事實知識對象標簽和以語言引導的圖像編輯。

研究人員表示:

像VISPROG這樣的神經(jīng)符號方法是令人興奮的,它可以輕松有效地對AI系統(tǒng)做擴展,滿足人們可能希望執(zhí)行的復(fù)雜任務(wù)需求。

CVPR 2023其它獎項一覽

除了2篇最佳論文之外,其它獎項也在剛剛的開幕式中逐一浮出水面。

最佳學生論文——

3D Registration with Maximal Cliques。

這篇論文的作者來自西北工業(yè)大學,提出了一種新的3D點云配準方法,能夠獲得最優(yōu)的姿態(tài)假設(shè)。

最佳學生論文榮譽獎——

DreamBooth: Fine Tuning Text-to-lmage Diffusion Models for Subject-Driven Generation。

來自谷歌,可以基于少量的圖片,利用text-to-image模型將其轉(zhuǎn)換到不同場景中,并且保持高分辨率。

這篇論文的方法已在AI繪畫社區(qū)被廣泛使用。

除此之外,大會還頒發(fā)了PAMITC獎,包括Longuet-Higgins獎、年輕研究者獎以及Thomas Huang紀念獎。

原標題:碾壓谷歌、斯坦福大學!CVPR最佳論文頒給中國自動駕駛大模型:近10年首例

關(guān)鍵詞: