新疆信息港 > 科技 >2D圖片3秒變立體，視角流暢自然，這是什么黑科技!

2D圖片3秒變立體，視角流暢自然，這是什么黑科技!

2021-02-07 15:31:33

來源：互聯(lián)網(wǎng)

閱讀：-

來源丨量子位（ID：QbitAI）作者丨魚羊栗子乾明發(fā)自凹非寺你離礁石越來越近，仿佛還有一秒就要觸礁了。不過這張動圖，并不是從人類拍攝的視頻里截下來的。...

來源丨量子位（ID：QbitAI）

作者丨魚羊栗子乾明發(fā)自凹非寺

你離礁石越來越近，仿佛還有一秒就要觸礁了。

不過這張動圖，并不是從人類拍攝的視頻里截下來的。

是Adobe放出的新魔法，把這張靜態(tài)照片變出了立體感，整個過程只需要2-3秒：

這種特效處理，常常用于紀錄片等視頻的后期制作，名為Ken Burns Effect。

原本只是2D縮放 (下圖左) ，通過對靜止圖像的平移和縮放，來產(chǎn)生視差，從而實現(xiàn)動畫效果。

但Adobe這種3D效果 (上圖右) ，不僅有平移和縮放，還有視角轉(zhuǎn)換，給人更沉浸的體驗。想要實現(xiàn)，需要專業(yè)的設計師在Photoshop等軟件中花費數(shù)個小時時間。

而且制作成本也很高，一張照片大概需要40-50美元 (約合人民幣280-350元) 。Adobe也登上了ACM主辦的計算機圖形學頂級期刊TOG，引發(fā)了大量討論與關(guān)注。不乏有激動的網(wǎng)友給出“三連”：

Incredible. Amazing. Holy shit.

完全不是簡單的縮放

透視原理決定，前景比背景的移動/縮放更劇烈。所以，前景移動的時候，背景除了移動，也要跟著修復。AI的背景修復十分自然，手法明顯比“前輩”更高超：

形狀有點奇怪的教堂

并且，不論背景簡單復雜，AI都不怕。比如，走到沙發(fā)跟前，沙發(fā)就擋住了后面窗戶外的草地：

背景的色彩和結(jié)構(gòu)都很復雜，但AI并沒有蒙蔽。

如果你覺得，剛才的視角變化只是由遠及近，不夠復雜。那就看一眼這古老的臺階吧：

仿佛你打算走上臺階，所以正在朝著它的方向，慢慢轉(zhuǎn)身。

除此之外，一條古老的走廊，你置身其中，好像正在從上仰的視角，變得平視前方。

當然，不只是風景，人像也可以處理。

比如，草地上的新娘，可以遠觀，也可以近距離欣賞：

就像開頭說的那樣，所有的變換，只靠一張靜態(tài)圖來完成。

這自然不是普通的縮放可以做到的：

左為普通縮放，右為3D魔法

所以，究竟是怎樣的技術(shù)做到的？

三步定邊界，結(jié)合上下文感知

用單個圖像合成逼真的相機移動的效果要解決兩個基本問題。首先，要設置一個新的相機位置，合成新視圖，并且需要準確地恢復原始視圖的場景幾何結(jié)構(gòu)。其次，根據(jù)預測的場景幾何結(jié)構(gòu)，要將新視圖在連續(xù)的時間線上合成，這就涉及到去遮擋這樣的圖像修復手段。

研究人員們用了三個神經(jīng)網(wǎng)絡來構(gòu)建處理框架。

用以訓練的數(shù)據(jù)集是用計算機生成的。研究人員從UE4 Marketplace2收集了32種虛擬環(huán)境，用虛擬攝像機在32個環(huán)境中捕獲了134041個場景，包括室內(nèi)場景，城市場景，鄉(xiāng)村場景和自然場景。每個場景包含4個視圖，每個視圖都包含分辨率為512×512像素的顏色、深度和法線貼圖。

指定一張高分辨率圖像，首先根據(jù)其低分辨率版本估計粗糙深度。這一步由VGG-19來實現(xiàn)，根據(jù)VGG-19提取的語義信息指導深度估計網(wǎng)絡的訓練，并用具有g(shù)round truth的計算機合成數(shù)據(jù)集進行監(jiān)督。如此，就能提取出原始圖像的深度圖。

第二個網(wǎng)絡，是Mask R-CNN。為了避免語義失真，平行于VGG-19，用Mask R-CNN對輸入的高分辨率圖像進行分割，而后用分割的結(jié)果來對深度圖進行調(diào)整，以確保圖中的每個對象都映射到一個相干平面上。

最后，利用深度細化網(wǎng)絡，參考輸入的高分辨率圖像，對提取出的粗糙深度進行上采樣，確保深度邊界更加精確。

之所以要采用深度細化網(wǎng)絡，是因為裁切對象的過程中，對象很可能在邊界處被撕開。

有了從輸入圖像獲得的點云和深度圖（注：點云指通過3D掃描得到的物品外觀表面的點數(shù)據(jù)集合），就可以渲染連續(xù)的新視圖了。

不過，這里又會出現(xiàn)一個新的問題——當虛擬攝像機向前移動的時候，對象本身會產(chǎn)生裂隙（下圖中高塔右側(cè)像被網(wǎng)格切開了）。

為了解決這個問題，研究人員采取了結(jié)合上下文感知修復的方法。

結(jié)合上下文信息能夠產(chǎn)生更高質(zhì)量的合成視圖。上下文信息劃定了相應像素在輸入圖像中位置的鄰域，因此點云中的每個點都可以利用上下文信息來進行擴展。

具體而言，第一步，是進行顏色和深度圖像修復，以從不完整的渲染中恢復出完整的新視圖，其中每個像素都包含顏色，深度和上下文信息。

而后，利用圖像修復深度，將圖像修復顏色映射到點云中新的色調(diào)點。

重復這一過程，直到點云充分擴展，填補空隙，可以實時地呈現(xiàn)完整且連續(xù)的畫面。

“用過都說好”

研究人員覺得好，那不算好。新方法效果如何，還是用戶說了算。

于是，研究團隊搞出了一個“非正式用戶調(diào)研”。他們在YouTube上搜集了30個人類創(chuàng)造的3D Ken Burns視頻，將其分成“風景”，“肖像”，“室內(nèi)”，“人造室外環(huán)境”四組，每組隨機抽取三個視頻作為樣本。

8位志愿者參與到了這個測試之中。團隊為每個志愿者分配了一張靜態(tài)圖，并提供了人類作品作為參考，要求志愿者使用新方法和Adobe After Effects模板、移動App Viewmee這兩種Ken Burns制作工具創(chuàng)作類似的效果。

志愿者會依據(jù)自己的主觀意見評價每種工具的可用性和質(zhì)量。

在志愿者們看來，不論是從效果上，還是易用性上，Adobe的這個新工具顯然好得多。

來自Adobe的實習生（現(xiàn)已轉(zhuǎn)Google）

這項研究的第一作者，是一名波特蘭州立大學的博士生，名為Simon Niklaus，研究方向為計算機視覺與深度學習。

他在Adobe Research實習的時候完成了這項工作，目前他正在Google實習。

他的博士生導師，名為Feng Liu，博士畢業(yè)于威斯康辛大學麥迪遜分校，現(xiàn)在是波特蘭州立大學的助理教授，也是這一研究的做作者之一。

此外，這項研究還有另外兩名作者，分別是Long Mai和Jimei Yang，都是Adobe的研究科學家。

Simon Niklaus在Hacker News上與網(wǎng)友互動時也談到了研究的開源計劃。他說，自己計劃公布代碼以及數(shù)據(jù)集，但還沒有得到批準。因為這項工作是“實習生”完成的， Adobe在開源方面都比較大度。

當然，這也無法排除他們商業(yè)化的可能性，如果你對這一研究感興趣，可以先看下研究論文：

3D Ken Burns Effect from a Single Image

論文傳送門：https://arxiv.org/abs/1909.05483

主頁傳送門：http://sniklaus.com/papers/kenburns

One more thing……

關(guān)于Ken Burns Effect，也有一段喬布斯的往事。

為了將這一特效用到蘋果中，喬布斯還專程聯(lián)系了Ken Burns，希望能夠得到他的許可。一開始，Burns是拒絕的，他不想自己的名字被商業(yè)化。但后來，Burns透露，他同意了喬布斯的請求。

這中間到底發(fā)生了什么，也沒有太多信息傳遞出來。

現(xiàn)在，這一效應在iPhone中應用非常廣泛，比如照片的“回憶”功能，就能夠自動利用這一特效，把一張張照片制作成視頻。

這也給Burns帶來了很多“麻煩”。他說，有時候自己走在街上，會有陌生人沖到他面前，說自己如何在iPhone上使用它，或者是問他問題。

對于這種情況，他說自己都是盡力快速逃離現(xiàn)場。跟明星遇上私生飯差不多。

emmm……

— 完—

本文經(jīng)授權(quán)轉(zhuǎn)載自量子位（ID：QbitAI），如需二次轉(zhuǎn)載請聯(lián)系原作者。

歡迎轉(zhuǎn)發(fā)到朋友圈。

果殼

ID：Guokr42

整天不知道在科普些啥玩意兒的果殼

我覺得你應該關(guān)注一下

久久久精品久久久久久96,91国高清在线,欧美日韩高清国产aⅴ一区,在线观看亚洲欧美一区二区三区

2D圖片3秒變立體，視角流暢自然，這是什么黑科技!

來源丨量子位（ID：QbitAI）作者丨魚羊 栗子 乾明 發(fā)自 凹非寺你離礁石越來越近，仿佛還有一秒就要觸礁了。不過這張動圖，并不是從人類拍攝的視頻里截下來的。...