facebook視覺大模型(深度學習(視覺)面試中常問的知識點有哪些)

时间:2024-05-20 08:05:43 编辑: 来源:

深度學習(視覺)面試中常問的知識點有哪些

一些基礎算法題。包含但不僅限于大學里面ACM-ICPC競賽中的數論、圖論、數據結構、動態規劃、幾何數學等。不過鑒于很多面試官不是選手出身,所以你被問到的很可能是“Google面試題”、“Facebook面試題”、“國內某BATM面試題”之類的算法題,你可以以這些為關鍵字上網搜搜看,或者上LeetCode之類的刷題網站(ps:我沒有用過)刷刷題找找感覺。

專業知識。深度學習這方面的專業知識。具體看公司要求了。如果他是想要找一些底子好的苗子自己培養,你這塊懂不懂也沒有太大關系。不過這是一個現實的社會,基本上都是要你在深度學習(視覺)方面的能力達到他們的需求的。而且我要是剛剛把你培養出來你就跳槽了那公司不就虧大了,所以現在招工基本上都要招能馬上上手的。

聊聊夢想。其實你在去面試之前,HR就可能做好了背景調查,所以你可能已經是他們想要的人了。這個時候面試官可能忽略上述條件直接和你聊生活聊理想了。這個時候要切記工資是否達到了你的要求,將來是否有長足的發展,因為如果飯都吃不飽,還談個什么理想!不過也有可能是在測試你的溝通能力。

什么是深度學習與機器視覺

深度學習框架,尤其是基于人工神經網絡的框架可以追溯到1980年福島邦彥提出的新認知機[2],而人工神經網絡的歷史更為久遠。1989年,燕樂存(Yann LeCun)等人開始將1974年提出的標準反向傳播算法[3]應用于深度神經網絡,這一網絡被用于手寫郵政編碼識別。盡管算法可以成功執行,但計算代價非常巨大,神經網路的訓練時間達到了3天,因而無法投入實際使用[4]。許多因素導致了這一緩慢的訓練過程,其中一種是由于爾根·施密德胡伯(Jürgen Schmidhuber)的學生賽普·霍克賴特(Sepp Hochreiter)于1991年提出的梯度消失問題[5][6]。與此同時,神經網絡也受到了其他更加簡單模型的挑戰,支持向量機等模型在20世紀90年代到21世紀初成為更加流行的機器學習算法。

“深度學習”這一概念從2007年前后開始受到關注。當時,杰弗里·辛頓(Geoffrey Hinton)和魯斯蘭·薩拉赫丁諾夫(Ruslan Salakhutdinov)提出了一種在前饋神經網絡中進行有效訓練的算法。這一算法將網絡中的每一層視為無監督的受限玻爾茲曼機,再使用有監督的反向傳播算法進行調優[7]。在此之前的1992年,在更為普遍的情形下,施密德胡伯也曾在遞歸神經網絡上提出一種類似的訓練方法,并在實驗中證明這一訓練方法能夠有效提高有監督學習的執行速度[8][9].

自深度學習出現以來,它已成為很多領域,尤其是在計算機視覺和語音識別中,成為各種領先系統的一部分。在通用的用于檢驗的數據集,例如語音識別中的TIMIT和圖像識別中的ImageNet, Cifar10上的實驗證明,深度學習能夠提高識別的精度。

硬件的進步也是深度學習重新獲得關注的重要因素。高性能圖形處理器的出現極大地提高了數值和矩陣運算的速度,使得機器學習算法的運行時間得到了顯著的縮短[10][11]。

基本概念[編輯]

深度學習的基礎是機器學習中的分散表示(distributed representation)。分散表示假定觀測值是由不同因子相互作用生成。在此基礎上,深度學習進一步假定這一相互作用的過程可分為多個層次,代表對觀測值的多層抽象。不同的層數和層的規模可用于不同程度的抽象[1]。

深度學習運用了這分層次抽象的思想,更高層次的概念從低層次的概念學習得到。這一分層結構常常使用貪婪算法逐層構建而成,并從中選取有助于機器學習的更有效的特征[1].

不少深度學習算法都以無監督學習的形式出現,因而這些算法能被應用于其他算法無法企及的無標簽數據,這一類數據比有標簽數據更豐富,也更容易獲得。這一點也為深度學習贏得了重要的優勢[1]。

人工神經網絡下的深度學習[編輯]

一部分最成功的深度學習方法涉及到對人工神經網絡的運用。人工神經網絡受到了1959年由諾貝爾獎得主大衛·休伯爾(David H. Hubel)和托斯坦·威澤爾(Torsten Wiesel)提出的理論啟發。休伯爾和威澤爾發現,在大腦的初級視覺皮層中存在兩種細胞:簡單細胞和復雜細胞,這兩種細胞承擔不同層次的視覺感知功能。受此啟發,許多神經網絡模型也被設計為不同節點之間的分層模型[12]。

福島邦彥提出的新認知機引入了使用無監督學習訓練的卷積神經網絡。燕樂存將有監督的反向傳播算法應用于這一架構[13]。事實上,從反向傳播算法自20世紀70年代提出以來,不少研究者都曾試圖將其應用于訓練有監督的深度神經網絡,但最初的嘗試大都失敗。賽普·霍克賴特(Sepp Hochreiter)在其博士論文中將失敗的原因歸結為梯度消失,這一現象同時在深度前饋神經網絡和遞歸神經網絡中出現,后者的訓練過程類似深度網絡。在分層訓練的過程中,本應用于修正模型參數的誤差隨著層數的增加指數遞減,這導致了模型訓練的效率低下[14][15]。

為了解決這一問題,研究者們提出了一些不同的方法。于爾根·施密德胡伯(Jürgen Schmidhuber)于1992年提出多層級網絡,利用無監督學習訓練深度神經網絡的每一層,再使用反向傳播算法進行調優。在這一模型中,神經網絡中的每一層都代表觀測變量的一種壓縮表示,這一表示也被傳遞到下一層網絡[8]。

另一種方法是賽普·霍克賴特和于爾根·施密德胡伯提出的長短期記憶神經網絡(long short term memory,LSTM)[16]。2009年,在ICDAR 2009舉辦的連筆手寫識別競賽中,在沒有任何先驗知識的情況下,深度多維長短期記憶神經網絡取得了其中三場比賽的勝利[17][18]。

斯文·貝克提出了在訓練時只依賴梯度符號的神經抽象金字塔模型,用以解決圖像重建和人臉定位的問題[19]。

其他方法同樣采用了無監督預訓練來構建神經網絡,用以發現有效的特征,此后再采用有監督的反向傳播以區分有標簽數據。辛頓等人于2006年提出的深度模型提出了使用多層隱變量學習高層表示的方法。這一方法使用斯摩棱斯基于1986年提出的受限玻爾茲曼機[20]對每一個包含高層特征的層進行建模。模型保證了數據的對數似然下界隨著層數的提升而遞增。當足夠多的層數被學習完畢,這一深層結構成為一個生成模型,可以通過自上而下的采樣重構整個數據集[21]。辛頓聲稱這一模型在高維結構化數據上能夠有效低提取特征[22]。

吳恩達和杰夫·迪恩(Jeff Dean)領導的谷歌大腦(英語:Google Brain)團隊創建了一個僅通過YouTube視頻學習高層概念(例如貓)的神經網絡[23] [24]。

其他方法依賴了現代電子計算機的強大計算能力,尤其是GPU。2010年,在于爾根·施密德胡伯位于瑞士人工智能實驗室IDSIA的研究組中,丹·奇雷尚(Dan Ciresan)和他的同事展示了利用GPU直接執行反向傳播算法而忽視梯度消失問題的存在。這一方法在燕樂存等人給出的手寫識別MNIST數據集上戰勝了已有的其他方法[10]。

截止2011年,前饋神經網絡深度學習中最新的方法是交替使用卷積層(買粉絲nvolutional layers)和最大值池化層(max-pooling layers)并加入單純的分類層作為頂端。訓練過程也無需引入無監督的預訓練[25][26]。從2011年起,這一方法的GPU實現[25]多次贏得了各類模式識別競賽的勝利,包括IJCNN 2011交通標志識別競賽[27]和其他比賽。

這些深度學習算法也是最先在某些識別任務上達到和人類表現具備同等競爭力的算法[28]。

深度學習結構[編輯]

深度神經網絡是一種具備至少一個隱層的神經網絡。與淺層神經網絡類似,深度神經網絡也能夠為復雜非線性系統提供建模,但多出的層次為模型提供了更高的抽象層次,因而提高了模型的能力。深度神經網絡通常都是前饋神經網絡,但也有語言建模等方面的研究將其拓展到遞歸神經網絡[29]。卷積深度神經網絡(Covolutional Neuron Networks, CNN)在計算機視覺領域得到了成功的應用[30]。此后,卷積神經網絡也作為聽覺模型被使用在自動語音識別領域,較以往的方法獲得了更優的結果[31]。

深度神經網絡[編輯]

深度神經網絡(deep neuron 買粉絲works, DNN)是一種判別模型,可以使用反向傳播算法進行訓練。權重更新可以使用下式進行隨機梯度下降求解:

其中,為學習率,為代價函數。這一函數的選擇與學習的類型(例如監督學習、無監督學習、增強學習)以及激活函數相關。例如,為了在一個多分類問題上進行監督學習,通常的選擇是使用Softmax函數作為激活函數,而使用交叉熵作為代價函數。Softmax函數定義為,其中代表類別的概率,而和分別代表對單元和的輸入。交叉熵定義為,其中代表輸出單元的目標概率,代表應用了激活函數后對單元的概率輸出[32]。

深度神經網絡的問題[編輯]

與其他神經網絡模型類似,如果僅僅是簡單地訓練,深度神經網絡可能會存在很多問題。常見的兩類問題是過擬合和過長的運算時間。

深度神經網絡很容易產生過擬合現象,因為增加的抽象層使得模型能夠對訓練數據中較為罕見的依賴關系進行建模。對此,權重遞減(正規化)或者稀疏(-正規化)等方法可以利用在訓練過程中以減小過擬合現象[33]。另一種較晚用于深度神經網絡訓練的正規化方法是丟棄法("dropout" regularization),即在訓練中隨機丟棄一部分隱層單元來避免對較為罕見的依賴進行建模[34]。

反向傳播算法和梯度下降法由于其實現簡單,與其他方法相比能夠收斂到更好的局部最優值而成為神經網絡訓練的通行方法。但是,這些方法的計算代價很高,尤其是在訓練深度神經網絡時,因為深度神經網絡的規模(即層數和每層的節點數)、學習率、初始權重等眾多參數都需要考慮。掃描所有參數由于時間代價的原因并不可行,因而小批量訓練(mini-batching),即將多個訓練樣本組合進行訓練而不是每次只使用一個樣本進行訓練,被用于加速模型訓練[35]。而最顯著地速度提升來自GPU,因為矩陣和向量計算非常適合使用GPU實現。但使用大規模集群進行深度神經網絡訓練仍然存在困難,因而深度神經網絡在訓練并行化方面仍有提升的空間。

深度信念網絡[編輯]

一個包含完全連接可見層和隱層的受限玻爾茲曼機(RBM)。注意到可見層單元和隱層單元內部彼此不相連。

深度信念網絡(deep belief 買粉絲works,DBN)是一種包含多層隱單元的概率生成模型,可被視為多層簡單學習模型組合而成的復合模型[36]。

深度信念網絡可以作為深度神經網絡的預訓練部分,并為網絡提供初始權重,再使用反向傳播或者其他判定算法作為調優的手段。這在訓練數據較為缺乏時很有價值,因為不恰當的初始化權重會顯著影響最終模型的性能,而預訓練獲得的權重在權值空間中比隨機權重更接近最優的權重。這不僅提升了模型的性能,也加快了調優階段的收斂速度[37]。

深度信念網絡中的每一層都是典型的受限玻爾茲曼機(restricted Boltzmann machine,RBM),可以使用高效的無監督逐層訓練方法進行訓練。受限玻爾茲曼機是一種無向的基于能量的生成模型,包含一個輸入層和一個隱層。圖中對的邊僅在輸入層和隱層之間存在,而輸入層節點內部和隱層節點內部則不存在邊。單層RBM的訓練方法最初由杰弗里·辛頓在訓練“專家乘積”中提出,被稱為對比分歧(買粉絲ntrast divergence, CD)。對比分歧提供了一種對最大似然的近似,被理想地用于學習受限玻爾茲曼機的權重[35]。當單層RBM被訓練完畢后,另一層RBM可被堆疊在已經訓練完成的RBM上,形成一個多層模型。每次堆疊時,原有的多層網絡輸入層被初始化為訓練樣本,權重為先前訓練得到的權重,該網絡的輸出作為新增RBM的輸入,新的RBM重復先前的單層訓練過程,整個過程可以持續進行,直到達到某個期望中的終止條件[38]。

盡管對比分歧對最大似然的近似十分粗略(對比分歧并不在任何函數的梯度方向上),但經驗結果證實該方法是訓練深度結構的一種有效的方法[35]。

卷積神經網絡[編輯]

主條目:卷積神經網絡

卷積神經網絡(買粉絲nvolutional neuron 買粉絲works,CNN)由一個或多個卷積層和頂端的全連通層(對應經典的神經網絡)組成,同時也包括關聯權重和池化層(pooling layer)。這一結構使得卷積神經網絡能夠利用輸入數據的二維結構。與其他深度學習結構相比,卷積神經網絡在圖像和語音識別方面能夠給出更優的結果。這一模型也可以使用反向傳播算法進行訓練。相比較其他深度、前饋神經網絡,卷積神經網絡需要估計的參數更少,使之成為一種頗具吸引力的深度學習結構[39]。

卷積深度信念網絡[編輯]

卷積深度信念網絡(買粉絲nvolutional deep belief 買粉絲works,CDBN)是深度學習領域較新的分支。在結構上,卷積深度信念網絡與卷積神經網絡在結構上相似。因此,與卷積神經網絡類似,卷積深度信念網絡也具備利用圖像二維結構的能力,與此同時,卷積深度信念網絡也擁有深度信念網絡的預訓練優勢。卷積深度信念網絡提供了一種能被用于信號和圖像處理任務的通用結構,也能夠使用類似深度信念網絡的訓練方法進行訓練[40]。

結果[編輯]

語音識別[編輯]

下表中的結果展示了深度學習在通行的TIMIT數據集上的結果。TIMIT包含630人的語音數據,這些人持八種常見的美式英語口音,每人閱讀10句話。這一數據在深度學習發展之初常被用于驗證深度學習結構[41]。TIMIT數據集較小,使得研究者可以在其上實驗不同的模型配置。

方法

聲音誤差率 (PER, %)

隨機初始化RNN 26.1

貝葉斯三音子GMM-HMM 25.6

單音子重復初始化DNN 23.4

單音子DBN-DNN 22.4

帶BMMI訓練的三音子GMM-HMM 21.7

共享池上的單音子DBN-DNN 20.7

卷積DNN 20.0

圖像分類[編輯]

圖像分類領域中一個公認的評判數據集是MNIST數據集。MNIST由手寫阿拉伯數字組成,包含60,000個訓練樣本和10,000個測試樣本。與TIMIT類似,它的數據規模較小,因而能夠很容易地在不同的模型配置下測試。Yann LeCun的網站給出了多種方法得到的實驗結果[42]。截至2012年,最好的判別結果由Ciresan等人在當年給出,這一結果的錯誤率達到了0.23%[43]。

深度學習與神經科學[編輯]

計算機領域中的深度學習與20世紀90年代由認知神經科學研究者提出的大腦發育理論(尤其是皮層發育理論)密切相關[44]。對這一理論最容易理解的是杰弗里·艾爾曼(Jeffrey Elman)于1996年出版的專著《對天賦的再思考》(Rethinking Innateness)[45](參見斯拉格和約翰遜[46]以及奎茲和賽杰諾維斯基[47]的表述)。由于這些理論給出了實際的神經計算模型,因而它們是純計算驅動的深度學習模型的技術先驅。這些理論指出,大腦中的神經元組成了不同的層次,這些層次相互連接,形成一個過濾體系。在這些層次中,每層神經元在其所處的環境中獲取一部分信息,經過處理后向更深的層級傳遞。這與后來的單純與計算相關的深度神經網絡模型相似。這一過程的結果是一個與環境相協調的自組織的堆棧式的轉換器。正如1995年在《紐約時報》上刊登的那樣,“……嬰兒的大腦似乎受到所謂‘營養因素’的影響而進行著自我組織……大腦的不同區域依次相連,不同層次的腦組織依照一定的先后順序發育成熟,直至整個大腦發育成熟。”[48]

公眾視野中的深度學習[編輯]

深度學習常常被看作是通向真正人工智能的重要一步[51],因而許多機構對深度學習的實際應用抱有濃厚的興趣。2013年12月,Facebook宣布雇用燕樂存為其新建的人工智能實驗室的主管,這一實驗室將在加州、倫敦和紐約設立分支機構,幫助Facebook研究利用深度學習算法進行類似自動標記照片中用戶姓名這樣的任務[52]。

2013年3月,杰弗里·辛頓和他的兩位研究生亞歷克斯·克里澤夫斯基和伊利婭·蘇特斯科娃被谷歌公司雇用,以提升現有的機器學習產品并協助處理谷歌日益增長的數據。谷歌同時并購了辛頓創辦的公司DNNresearch[53]。

批評[編輯]

對深度學習的主要批評是許多方法缺乏理論支撐。大多數深度結構僅僅是梯度下降的某些變式。盡管梯度下降已經被充分地研究,但理論涉及的其他算法,例如對比分歧算法,并沒有獲得充分的研究,其收斂性等問題仍不明確。深度學習方法常常被視為黑盒,大多數的結論確認都由經驗而非理論來確定。

也有學者認為,深度學習應當被視為通向真正人工智能的一條途徑,而不是一種包羅萬象的解決方案。盡管深度學習的能力很強,但和真正的人工智能相比,仍然缺乏諸多重要的能力。理論心理學家加里·馬庫斯(Gary Marcus)指出:

就現實而言,深度學習只是建造智能機器這一更大挑戰中的一部分。這些技術缺乏表達因果關系的手段……缺乏進行邏輯推理的方法,而且遠沒有具備集成抽象知識,例如物品屬性、代表和典型用途的信息。最為強大的人工智能系統,例如IBM的人工智能系統沃森,僅僅把深度學習作為一個包含從貝葉斯推理和演繹推理等技術的復雜技術集合中的組成部分[54]。

人為什么可以思考,機器人可以嗎

一場地震災難發生后,專業救援人員組成的隊伍會奔赴現場,在廢墟中搜尋生命體征、實行醫療救護、呼叫救援。

但在斯坦福大學首席人工智能科學家李菲菲(Fei-Fei Li)的想象中,對事件率先做出響應的并不是紅十字會的志愿者或醫護人員,而是那些能洞悉周邊環境并響應人們需求的智能機器人,它們將竭盡所能拯救盡可能多的人。對這一場景背后所涉及的技術,李已經做了大量思考和研究,她認為如果計算機能夠掌握最復雜的人類視覺認知能力的時候,這項技術就離我們不遠了。

目前,由李及其帶領的斯坦福大學人工智能實驗室,在這項技術上取得了一些進展,這多虧了在2009年建立的擁有超過1500萬數字圖像的數據庫。此后的每一年,研究人員利用該數據庫組建了大型視覺識別比賽,目的是開發出可以教會計算機識別、理解圖像內容的算法。2014年,參與者設計的軟件程序識別對象和動作的準確率幾乎是往年的兩倍,這得益于更快的計算能力和更精煉的代碼。2014年末,李和她的學生研發出首個能夠用類似人類語句來描述其所見圖像的計算機視覺模型。

她認為,計算機視覺是所有人工智能的關鍵。“理解并建立視覺系統,才能真正理解智能,對于‘看’,我的意思是理解,而不是簡單的像素記錄。”

新型智能

人工智能領域的科學家們,還有在谷歌、Facebook、微軟等企業任職的研究人員,他們在計算機視覺技術中投入大量資源的原因很簡單:人類利用一半的大腦進行視覺處理,這一認知能力經歷了5.4億年的發展演變。在李看來,“這里(大腦)比海灣地區的住房更值錢”。視覺在我們認識世界的過程中扮演了至關重要的角色,很難想象未來的智能計算機會沒有視覺能力。任何像樣的無人駕駛汽車最終都需要具備分辨的能力,假如路上有一個大石頭和一個小的紙袋,它就應該用剎車、轉向來避開石頭,選擇性地忽略紙袋。

如今,計算機可以識別出照片中的貓或汽車的形狀、年代等,但是要想讓計算機像人一樣通過觀察和推理來理解內容,還需要進行大量的科研工作。比如,同樣的球棒,在球場和犯罪現場就有完全不同的含義。李表示:“我們實驗室下一步的任務是研發出滿足基本視覺任務的認知能力,例如對場景、人類行為、關系、推理和講故事等的理解。”

照亮人類的“暗物質”

教會計算機如何去“看”已經遠遠高于對出現在我們物理世界的物質的識別。更好的機器視覺應該可以洞悉和透露我們都不知道的細節。互聯網每一天都在產生所謂的數字時代的暗物質——數以萬億計的圖像和視頻。網頁中有超過85%的內容是多媒體,這是一大堆混亂的爛攤子。“我們有理由去理解它們,對我們生活、日常活動、社會關系(不論是個人還是社會)的記錄,都在那些內容中。”

這些對人類的視覺描述的增長速度超出我們的想象。過去30天內生成的圖片和視頻總量,比從人類文明初期所有的圖像加起來都大。對人類來說,記錄下所有的這些數據是不可能的,但是對可以進行模式識別,并用自然語言將視覺內容描述出來的智能機器而言是可行的,這些機器可能成為未來的歷史學家。

新興的應用

李表示計算機視覺最終會影響所有事情,從監測和應對氣候變化所帶來的影響,到構建智能家居,但最令她感到興奮的是在醫學領域的應用。“當日常護理可以完全依賴人工智能的時候,也就是降低成本、提高護理水平的時候。”

這也難怪李和她斯坦福大學計算機視覺實驗室的學生會和斯坦福大學醫學院進行合作,利用計算機視覺緩解護士們日常的制圖任務,在美國護士們平均每天要在該項工作中耗費45分鐘。在斯坦福大學醫院的重癥監護室,臨床醫生每兩個小時就會對病危患者進行檢查,并對其健康狀況在-4到4的范圍內進行打分。

李表示,她希望建立一個可以持續監測病患的系統(例如對移動性、疼痛程度、靈敏度等進行監測),不僅可以有效分擔護士和醫生的任務,還可以為負責該病患的臨床醫生提供更詳細、準確、客觀的數據。

視覺實驗室還與舊金山護士之家開展合作,致力于探索如何利用人工智能幫助老年人更好地獨立生活。

多樣性發展

和所有的創新技術一樣,計算機視覺很有可能被別有目的的人利用,進行高級別的視覺監控。李對此并不避諱,“每項技術都有可能成為邪惡的幕后推手,但作為一個科學家,你必須具備這樣的社會意識并清醒的認識到其潛在的風險。”

這種風險與其職業生涯息息相關,從法人團體到學術界都缺乏技術研究和人工智能的多樣性。長期解決多樣性問題有助于研究朝著積極的方向發展,有效的規避風險。“我們需要在人工智能的教育和研究過程中為其注入包含有生活中各行各業的人文主義。”借此吸引社會中不同的群體關注該領域,并提供必要的制衡。

“從概念誕生之日到技術建立、實施和調整之時,人類的意識至關重要”,她說道。但在今天事情并不是這樣的,她是斯坦福大學人工智能實驗室的帶頭人,也是這15人中唯一的全職女教師。此外,Facebook的39人人工智能研究團隊中也僅有兩名女性。李試圖改變這一現狀,她為同在人工智能領域工作的女性舉辦下午茶集會,并針對斯坦福大學9年紀的女生們組織人工智能夏令營。她承認,她喜歡自己的研究工作,多樣性的進展還有很長的路要走。

(作者:蘇疆之嵐;via wired)

深度學習的職業發展方向有哪些?

當前,人工智能發展借助深度學習技術突破得到了全面關注和助力推動,各國政府高度重視、資本熱潮仍在加碼,各界對其成為發展熱點也達成了共識。本文旨在分析深度學習技術現狀,研判深度學習發展趨勢,并針對我國的技術水平提出發展建議。

一、深度學習技術現狀

深度學習是本輪人工智能爆發的關鍵技術。人工智能技術在計算機視覺和自然語言處理等領域取得的突破性進展,使得人工智能迎來新一輪爆發式發展。而深度學習是實現這些突破性進展的關鍵技術。其中,基于深度卷積網絡的圖像分類技術已超過人眼的準確率,基于深度神經網絡的語音識別技術已達到95%的準確率,基于深度神經網絡的機器翻譯技術已接近人類的平均翻譯水平。準確率的大幅提升使得計算機視覺和自然語言處理進入產業化階段,帶來新產業的興起。

深度學習是大數據時代的算法利器,成為近幾年的研究熱點。和傳統的機器學習算法相比,深度學習技術有著兩方面的優勢。一是深度學習技術可隨著數據規模的增加不斷提升其性能,而傳統機器學習算法難以利用海量數據持續提升其性能。二是深度學習技術可以從數據中直接提取特征,削減了對每一個問題設計特征提取器的工作,而傳統機器學習算法需要人工提取特征。因此,深度學習成為大數據時代的熱點技術,學術界和產業界都對深度學習展開了大量的研究和實踐工作。

深度學習各類模型全面賦能基礎應用。卷積神經網絡和循環神經網絡是兩類獲得廣泛應用的深度神經網絡模型。計算機視覺和自然語言處理是人工智能兩大基礎應用。卷積神經網絡廣泛應用于計算機視覺領域,在圖像分類、目標檢測、語義分割等任務上的表現大大超越傳統方法。循環神經網絡適合解決序列信息相關問題,已廣泛應用于自然語言處理領域,如語音識別、機器翻譯、對話系統等。

深度學習技術仍不完美,有待于進一步提升。一是深度神經網絡的模型復雜度高,巨量的參數導致模型尺寸大,難以部署到移動終端設備。二是模型訓練所需的數據量大,而訓練數據樣本獲取、標注成本高,有些場景樣本難以獲取。三是應用門檻高,算法建模及調參過程復雜繁瑣、算法設計周期長、系統實施維護困難。四是缺乏因果推理能力,圖靈獎得主、貝葉斯網絡之父Judea Pearl指出當前的深度學習不過只是“曲線擬合”。五是存在可解釋性問題,由于內部的參數共享和復雜的特征抽取與組合,很難解釋模型到底學習到了什么,但出于安全性考慮以及倫理和法律的需要,算法的可解釋性又是十分必要的。因此,深度學習仍需解決以上問題。

二、深度學習發展趨勢

深度神經網絡呈現層數越來越深,結構越來越復雜的發展趨勢。為了不斷提升深度神經網絡的性能,業界從網絡深度和網絡結構兩方面持續進行探索。神經網絡的層數已擴展到上百層甚至上千層,隨著網絡層數的不斷加深,其學習效果也越來越好,2015年微軟提出的ResNet以152層的網絡深度在圖像分類任務上準確率首次超過人眼。新的網絡設計結構不斷被提出,使得神經網絡的結構越來越復雜。如:2014年谷歌提出了Inception網絡結構、2015年微軟提出了殘差網絡結構、2016年黃高等人提出了密集連接網絡結構,這些網絡結構設計不斷提升了深度神經網絡的性能。

深度神經網絡節點功能不斷豐富。為了克服目前神經網絡存在的局限性,業界探索并提出了新型神經網絡節點,使得神經網絡的功能越來越豐富。2017年,杰弗里辛頓提出了膠囊網絡的概念,采用膠囊作為網絡節點,理論上更接近人腦的行為,旨在克服卷積神經網絡沒有空間分層和推理能力等局限性。2018年,DeepMind、谷歌大腦、MIT的學者聯合提出了圖網絡的概念,定義了一類新的模塊,具有關系歸納偏置功能,旨在賦予深度學習因果推理的能力。

深度神經網絡工程化應用技術不斷深化。深度神經網絡模型大都具有上億的參數量和數百兆的占用空間,運算量大,難以部署到智能手機、攝像頭和可穿戴設備等性能和資源受限的終端類設備。為了解決這個問題,業界采用模型壓縮技術降低模型參數量和尺寸,減少運算量。目前采用的模型壓縮方法包括對已訓練好的模型做修剪(如剪枝、權值共享和量化等)和設計更精細的模型(如MobileNet等)兩類。深度學習算法建模及調參過程繁瑣,應用門檻高。為了降低深度學習的應用門檻,業界提出了自動化機器學習(AutoML)技術,可實現深度神經網絡的自動化設計,簡化使用流程。

深度學習與多種機器學習技術不斷融合發展。深度學習與強化學習融合發展誕生的深度強化學習技術,結合了深度學習的感知能力和強化學習的決策能力,克服了強化學習只適用于狀態為離散且低維的缺陷,可直接從高維原始數據學習控制策略。為了降低深度神經網絡模型訓練所需的數據量,業界引入了遷移學習的思想,從而誕生了深度遷移學習技術。遷移學習是指利用數據、任務或模型之間的相似性,將在舊領域學習過的模型,應用于新領域的一種學習過程。通過將訓練好的模型遷移到類似場景,實現只需少量的訓練數據就可以達到較好的效果。

三、未來發展建議

加強圖網絡、深度強化學習以及生成式對抗網絡等前沿技術研究。由于我國在深度學習領域缺乏重大原創性研究成果,基礎理論研究貢獻不足,如膠囊網絡、圖網絡等創新性、原創性概念是由美國專家提出,我國研究貢獻不足。在深度強化學習方面,目前最新的研究成果大都是由DeepMind和OpenAI等國外公司的研究人員提出,我國尚沒有突破性研究成果。近幾年的研究熱點生成式對抗網絡(GAN)是由美國的研究人員Goodfellow提出,并且谷歌、facebook、twitter和蘋果等公司紛紛提出了各種改進和應用模型,有力推動了GAN技術的發展,而我國在這方面取得的研究成果較少。因此,應鼓勵科研院所及企業加強深度神經網絡與因果推理模型結合、生成式對抗網絡以及深度強化學習等前沿技術的研究,提出更多原創性研究成果,增強全球學術研究影響力。

加快自動化機器學習、模型壓縮等深度學習應用技術研究。依托國內的市場優勢和企業的成長優勢,針對具有我國特色的個性化應用需求,加快對深度學習應用技術的研究。加強對自動化機器學習、模型壓縮等技術的研究,加快深度學習的工程化落地應用。加強深度學習在計算機視覺領域應用研究,進一步提升目標識別等視覺任務的準確率,以及在實際應用場景中的性能。加強深度學習在自然語言處理領域的應用研究,提出性能更優的算法模型,提升機器翻譯、對話系統等應用的性能。

來源:產業智能官

END

往期精選▼

1. 飲鹿網2018-2019年中國人工智能產業創新百強榜單發布!

2. 飲鹿網2018-2019年中國人工智能產業Top20投資機構榜單發布!

3. 飲鹿網2018-2019年中國大數據產業創新百強榜單發布!

4. 飲鹿網2018-2019年中國大數據產業Top20投資機構榜單發布!

5. 飲鹿網2018-2019年中國物聯網產業創新百強榜單發布!

6. 飲鹿網2018-2019年中國5G與物聯網產業TOP20投資機構榜單發布!

7. 飲鹿網2018-2019年中國集成電路產業創新百強榜單發布!

8. 飲鹿網2018-2019年中國集成電路產業Top20投資機構榜單發布!

9. 飲鹿網2018-2019年中國企業服務產業創新百強榜單發布!

10. 飲鹿網2018-2019年中國企業服務產業TOP20投資機構榜單發布!

基于大數據的視覺搜索應用與組織模式研究

基于大數據的視覺搜索應用與組織模式研究

當前視覺搜索已成為信息科學領域的前沿課題,主要用于分析和研究現實世界實體屬性、行為、事件與視覺大數據資源之間的發展規律,針對視覺大數據資源的獲取、組織、描述與利用問題,研究視覺資源及其時空關聯信息之間的價值發現與資源整合的內在機理

當前視覺搜索已成為信息科學領域的前沿課題,主要用于分析和研究現實世界實體屬性、行為、事件與視覺大數據資源之間的發展規律,針對視覺大數據資源的獲取、組織、描述與利用問題,研究視覺資源及其時空關聯信息之間的價值發現與資源整合的內在機理,解決其多維關聯與協同融合問題,進而實現視覺大數據資源的有效整合、知識發現與實時交互。

基于此,本研究從宏觀與中觀角度,從信息科學視角下視覺搜索研究的起源著手,對其發展歷程、概念與特點進行描述,圍繞其理論與應用研究的幾個關鍵問題展開討論,并簡要探討其最新研究進展及應用。

1、大數據環境下視覺搜索的發展歷程及特點

1.1 問題的提出

視覺搜索不是一個新名詞,它最早出現于心理學與生理學領域,用于描述人們通過視覺通道在特定區域內檢測某特定目標是否出現或出現后確定其位置的行為。如在地圖上找某大學所處位置、在食堂內點菜、在書架上找書或在圖書館內找人等。在現實世界中,人們經常需要利用視覺搜索在復雜物理環境中獲取有價值的信息,來決定接下來的語言和行為。因此,視覺搜索理論受到心理學家和人因(HumanFactors)學家的廣泛關注,大量研究集中在對人類視覺認知、生理反饋機理的理解與表達上,并總結出了許多應用型和理論型知識。正是由于視覺搜索的可用性和有效性,使得許多工作、行業、領域都離不開這一生理行為。

相關基礎理論和關鍵技術的不斷發展與完善,促使傳統視覺搜索應用不斷向信息化、技術化和網絡化方向發展,如何將傳統視覺搜索行為轉換成“所見即所知”式視覺搜索模式,這一難題逐漸擺在了人們面前。與此同時,網絡環境、信息技術、計算性能、存儲空間、數據規模與軟硬件設施等方面的飛速提升,也為客觀物理世界與虛擬網絡空間之間建立起密不可分的關聯關系,使視覺搜索技術的實現成為可能。人們可以方便快捷地采集客觀物理世界中的視覺對象,從互聯網中獲取與之相關的關聯信息。

1.2 視覺搜索發展歷程及發展趨勢

近幾年來,隨著大數據環境的逐步完善和大數據技術的迅速發展,關于視覺資源整合與視覺搜索研究的呼聲越來越大。Nature和Science分別于2008年、2011年出版了大數據專題研究,提出圖像、視頻與用戶交互信息是未來大數據的重要組成部分。2009年,Stanford University的Griod、Chandrasekhar等學者將視覺搜索理論引入到信息檢索領域,提出Visual Search、Mobile Visual Search等概念,舉辦了第一屆移動視覺搜索研討會,并對其體系結構、應用與服務模式等問題進行了探討。2010年,Google技術研究部前主管Norvig在Nature上發表的專題論文2020Visions中指出,“文本、圖像和視頻等視覺資源及用戶交互信息、傳感信息的有機融合,會給搜索引擎帶來巨大挑戰,如何對視覺搜索結果進行資源深度整合將會成為Google未來10年面臨的最大挑戰。”同年,北京大學高文、黃鐵軍與段凌宇等將其引入國內,舉辦了第二屆移動視覺搜索研討會,并圍繞其關鍵技術、體系結構、視覺資源組織與描述方法、視覺資源標準化與視覺知識庫建設等問題展開了研討。2012年,這一理論與技術迅速被中國計算機學會所接受,認為將視覺搜索與增強現實技術相結合的信息檢索模式,將是繼搜索引擎之后的新一代互聯網服務范式。隨后,張興旺、朱慶華等嘗試將其引入數字圖書館領域,并圍繞相關理論與應用模式展開了研究。

根據視覺搜索研究的發展軌跡來看,國內關于視覺搜索研究總體仍處于探索與嘗試階段,研究軌跡已基本跨過早期理論性嘗試過程,正步入中期技術性和應用性探索階段。尤其是在我國科學技術部于2011年啟動國家重點基礎研究發展計劃(“973”計劃)“面向公共安全的跨媒體計算理論與方法”,對跨媒體視覺資源的統一表示和建模方法、關聯推理和深度挖掘、綜合搜索和內容合成等關鍵科學問題進行研究之后,國內相關研究步入快速發展階段。自2015年以來,視覺搜索理論與應用研究的重要性和必要性更加凸顯,國務院2015年9月印發的《促進大數據發展行動綱要》提出,要充分利用大數據,提升領域數據資源的獲取和利用能力,推動各類數據融合和資源整合。國務院2015年7月印發的《關于積極推進“互聯網+”行動的指導意見》提出“構建包括語音、圖像、視頻、地圖等數據的海量訓練資源庫,加強人工智能基礎資源和公共服務等創新平臺建設”。國家自然科學重大研究計劃“大數據驅動的管理與決策研究”認為“大數據價值的產生機理和轉換規律具有高度的應用領域依賴性”。科技部2016年發布的《關于發布國家重點研發計劃精準醫學研究等重點專項2016年度項目申報指南的通知》的“云計算和大數據重點專項”中更是明確將“面向大范圍場景透徹感知的視覺大數據智能分析關鍵技術”列為重點研究內容之一,要求對視覺語義建模、視覺對象的時空定位與搜索、跨場景數據關聯技術等展開研究。

1.3 視覺搜索研究對象及視覺大數據資源特點

視覺搜索的研究已逐漸發展成為信息檢索領域的主要研究趨勢,到目前為止,關于視覺搜索的定義尚未形成統一的認識,但從信息檢索角度來看,大家對它的普遍理解是指將客觀物理世界中的視覺資源作為檢索對象,通過互聯網去獲取關聯信息的一種信息檢索方式。它是以視覺大數據資源及其關聯信息為研究對象,以視覺大數據資源的獲取、分析、組織、理解和表達方法為主要研究內容,以信息技術與方法為主要研究手段,以發現視覺大數據資源蘊含的知識價值和拓展其利用能力為主要研究目標的一種綜合性的應用型前沿領域。它主要針對的是當前大數據環境下海量、多元異構、動態無序和高速進化的視覺資源的分析和利用問題,重點研究的是如何充分利用當前飛速發展的信息技術來解決視覺大數據資源的理解和表達,如何有效地實現視覺搜索,如何利用視覺搜索技術來從海量視覺大數據資源中發現新的知識。

毫無疑問,未來是一個智慧(或稱之為“互聯網+”)的時代。智慧地球、智慧城市、智慧圖書館等理論與應用的迅速發展,給視覺搜索理論與應用研究提供了“沃土”。“互聯網+”時代所衍生的數據規模的劇增,文本、圖像、音視頻、用戶交互信息與各種傳感信息會成為“數據海洋”的主流,而這些數據來源中超過80%來自于人類視覺通道,現階段把握“互聯網+”時代信息檢索和知識服務未來發展脈絡的最重要手段可能是視覺搜索。

視覺大數據資源因其包含文本、圖像、音視頻與用戶觀看記錄等復雜無序、動態變化的時空信息,使其成為數字圖書館中內容最豐富的信息載體,并將會成為“互聯網+”時代最為重要的信息表達和信息傳播媒介。而以視覺大數據資源為研究對象的視覺搜索,由于前者所處知識空間的知識實體與知識價值在時間、空間和屬性三個方面的自有特性,使得視覺搜索也呈現出復雜無序、動態變化和時空語義關聯等特性,同時也需要對視覺大數據資源的形式化表達、系統化組織、結構化描述與時空關聯關系分析方法等進行研究。由此可得知視覺大數據資源主要具有以下特征:

視覺大數據資源包含文本、圖像、視頻、用戶觀看信息及用戶交互信息等時空信息,并且它所包含的視覺對象、事物內容、事件過程在時間、空間、語義等方面具有時序或時空關聯關系。

視覺大數據資源具有時空語義關聯、動態變化、數據規模大和結構復雜等特點,這些基于視覺對象、事物內容、事件過程的動態變化可以用時空語義關聯進行表達和描述,其獲取、組織和描述過程可以用機器語言來進行表達,通過視覺對象、事物內容、事件過程之間的語義關聯映射,建立視覺大數據資源的時空語義關聯關系。

視覺大數據資源具有數據規模大、結構復雜、類型多元、多維尺度關聯和縱深緯度高等特性,可根據視覺大數據資源的時空語義關系建立對應的尺度關聯機制。針對不同尺度、縱深緯度的視覺大數據資源的時空關聯關系,可實現視覺對象、事物內容、事件過程之間的多維尺度轉換和重置,進而實現視覺大數據資源的語義關聯關系分析。

視覺大數據資源能提供基于視覺資源內容來理解視覺對象行為,根據視覺對象的時空語義關聯關系建立起發展趨勢模型,并根據有效組織、理解和描述來預測某特定事物在某特定階段將可能發生的行為態勢。

可針對視覺大數據資源的獲取、組織、理解和描述問題,來實現用戶與視覺大數據資源之間的實時交互、反饋和視覺對象知識庫的構建。根據視覺對象的相似行為特征、時空關聯關系和實時交互結果,來幫助人們制作、生產、運營和消費新的視覺資源,滿足數字圖書館用戶的多元化知識服務需求。

2、大數據環境下視覺搜索的應用與組織模式

視覺大數據資源經過組織、分析、處理和整合,并建立基于特定領域的數字圖書館視覺搜索平臺之后,才能為用戶提供大數據知識服務。不同學科、領域的視覺搜索模式對視覺大數據資源的獲取、組織、處理與整合模式會有所不同。正因如此,當前大部分應用是從知識服務與信息檢索角度,建立起領域導向的視覺大數據資源整合平臺,通過視覺搜索來對視覺大數據資源進行有效管理與利用,并按照特定學科、專業和領域的知識服務需求來提供服務,從而滿足各類大數據知識服務需求。

2.1 基于深度學習的視覺搜索工業應用模式

傳統視覺搜索研究主要是先采用人工標注方法對視覺資源的底層特征進行標注后,再采用機器學習方法來解決視覺資源之間的語義鴻溝、異構鴻溝與語義關聯之間的問題。基于人工標注的視覺大數據資源整合與利用方法,需要標注者擁有豐富的專業領域知識和工業應用經驗,需耗費大量的時間和人力成本,且精確性低。與對視覺資源特征進行人工標注方法不同的是,深度學習一般都是通過對視覺資源特征進行多層神經網絡訓練后,進行視覺特征學習,進而獲取到特征提取更合理、區分性更強的視覺特征理解和描述。大量研究證明通過深度分析方法所提取到的視覺特征在圖像分類與識別、視覺場景識別、智能監控、語音識別、知識圖譜構建等應用領域都獲得過成功。視覺資源的顯著性特征提取和分割方法,能夠采用模擬人類視覺系統和生理認知體系來提取視覺資源中顯著性特征區域。目前,性能相對最好的視覺資源特征提取方法在公開的視覺大數據資源數據集中的顯著性特征檢測準確率在95%左右,視覺資源前景特征分割準確率將近92%,這一比例在近幾年全球性各類大規模視覺資源分析與識別比賽中,仍然在不斷增加。比如,Google研究組在大規模視覺識別挑戰賽(ILSVRC)中,采用改進的深度卷積網絡Google Net將圖像識別準確率提升到93%;Google小組在微軟圖像標題生成挑戰賽(MS COCO ICC)中,采用基于深度分析的圖像特征提取方法獲得冠軍;悉尼科技大學與卡耐基梅隆大學、微軟亞洲研究院和浙江大學在THUMOS比賽中,均將深度分析方法與視覺對象運動特征結合起來對視覺資源進行動作識別,分別獲得前三名。

傳統學術研究的理論成果往往需要很長一段時間發展,才能逐漸走向成熟,并進入到實際的工業應用中去。但無論是深度學習,還是視覺搜索,它們都擁有著極強的工程理論模型。一方面,它們在被學術界關注和研究的同時,也被工業領域所密切關注和嘗試;另一方面,由于工業領域(如Google、百度、微軟等)早就擁有著大規模的視覺大數據資源,且一直活躍在諸多信息科學領域的研究前沿,在很多領域,它們相較于學術界更有優勢。如Google的知識圖譜Knowledge Graph,Google Now與Google街景地圖,微軟的語音助手Cortana,愛奇藝的愛奇藝大腦,Facebook的Graph Search等均屬于工業界視覺搜索較為經典的應用案例。事實上,國外工業界各大公司,如Google,Facebook,Microsoft等對視覺搜索不僅僅只是開展大量的研究,甚至還在內部成立了專門研究機構,國內的百度、華為、騰訊和阿里巴巴也不例外。

2.2 基于知識計算的視覺搜索知識服務模式

數字圖書館領域對視覺搜索理論與應用展開研究的一個重要目的,就是為高校和科研機構的研究人員提供嵌入式協作化的知識服務,而數字圖書館視覺搜索平臺是將海量視覺大數據資源與平臺提供的視覺大數據資源的組織、分析和處理功能嵌入到知識服務過程中。

視覺大數據資源整合與利用是當前國內外人工智能、信息檢索領域的研究熱點,擁有非常廣泛的應用與研究前景。事實上,圖像搜索作為視覺搜索的一個研究分支方向,近幾年來,國內已有很多個人(如中國科學院高科、北京大學高文與黃鐵軍、南京大學朱慶華)、機構(如浙江大學、清華大學、北京大學、中國科學院計算所等)、企業(如愛奇藝、百度、騰訊、360、搜狗等)正在做與之相關的研究,并且很多已經推出了基于內容的圖像搜索平臺,為用戶提供圖像搜索服務。而美國的麻省理工學院、加州大學伯克利分校、伊利諾伊大學和英國的牛津大學等相關研究工作開始得更早,也研發出了相應的基于圖像內容的圖像搜索系統。

在以上所有相關研究中,它們都具有一個典型的研究特征:研究目的是為了解決視覺搜索的應用問題,而對應的視覺搜索模式大部分是基于知識計算。由于視覺搜索需要組織、分析和處理的對象主要包括文本、圖像、視頻等各類蘊含大量價值的視覺資源,因此,如何從視覺大數據資源中獲取有價值的知識,就成為國外學術界和工業界一直以來的研究熱點。以發掘視覺大數據資源中蘊含的豐富的、復雜關聯的知識為目的的知識庫稱之為視覺對象知識庫。目前,全球基于文本、圖像、音視頻等視覺資源的各類知識庫有不少于60種,而基于這些視覺對象知識庫的具體應用案例和系統平臺也有幾百種。其中,比較有代表性的應用案例有維基百科的DBpedia(2014版中包含8.7萬部電影、12.3萬張唱片、45萬個物件等)、Google的知識圖譜Knowledge Graph(包括地標、城市、人名、建筑、電影、藝術作品等5億個搜索結果實體與350億條關聯知識條目)、Facebook的Graph Search(包含10億名用戶、2400億張圖像、10000億次頁面訪問量等)等。

借助視覺搜索的相關理論與技術,開展對海量、異構、多元的視覺大數據資源的研究,不僅可豐富信息檢索的外延和內涵,而且可以有效地解決當前數字圖書館所面臨的“大數據、小知識、小服務”的瓶頸,具有一定的應用價值和現實意義。

2.3 基于語義分析的視覺內容關聯組織模式

從已有研究來看,視覺搜索的研究對象大部分集中在文本與圖像上,其中圖像搜索是學者們著力解決的重點方向。視覺搜索研究可分為3個階段:一是20世紀70年代末期開始的基于文本/元數據的圖像搜索。這一方式主要通過人工標注元數據對圖像進行描述,來實現對圖像的信息檢索功能,缺點是元數據標注費時費力,描述標準與反饋內容不完整,且容易有太多主觀色彩。二是20世紀90年代開始提出基于視覺內容的圖像搜索方法。這一方式其本質是采用人工構造圖像底層視覺特征的方式來進行圖像相似性比較,進而實現圖像搜索,缺點是對圖像底層特征和高層語義之間存在的語義鴻溝問題沒有得到較好解決。三是21世紀初期提出的基于深度學習的圖像搜索方法。社交網絡與用戶生成內容成為網絡數據的主要來源,利用用戶標簽對圖像語義進行組織、表達和理解成為研究主流,深度學習方法由此融入到相關領域。

與圖像搜索相比,視頻表達和分析則是視覺搜索領域相對較新的研究領域。視頻由大量圖像幀組成,且圖像幀之間有較為緊密的時空與語義關聯關系,這對視覺搜索技術要求更高。但由于深度學習在文本與圖像搜索領域所取得的成功,學者們開始借助于深度學習框架,對視頻進行組織、理解和描述,尤其是在視頻特征提取這一關鍵環節采取了以下幾種方法:一是視頻靜態關鍵幀特征描述。由于視頻是由大量圖像幀按時序與語義關聯組成,故可采用深度學習方法對靜態視頻幀(即圖像關鍵幀)進行特征學習。在具體應用中,一旦確定合理的靜態關鍵幀提取和編碼方式,也能形成較好的視頻描述效果。二是動態視頻時序特征描述。有學者曾提出密集軌跡方法對視頻進行分析,取得了不錯效果。三是前面兩種方法的有機結合。牛津大學的Simonyan等提出采用時間和空間深度神經網絡來對視頻進行分析,時間軸輸入的原始視頻,用于對視頻中的視覺對象進行識別,空間軸輸入的時序關聯場,用于對視頻中視覺對象的動作及其軌跡進行識別。

目前國內外也有大量針對視覺內容分析與表達方面的競賽,比如2013年美國佛羅里達大學組織開展的THUMOS比賽,就對海量視覺數據集中異構無序的視覺資源進行分析和理解,該項賽事隨后每年都會開展相關研究。國內外許多高校、科研機構都積極參與到該項賽事中,如清華大學、浙江大學、香港中文大學、卡耐基梅隆大學、悉尼科技大學等。美國國家標準與技術研究所2011年組織開展的TRECVID比賽,針對大規模視覺數據集中復雜視覺資源中事件監測問題展開研究。近幾年來,該項賽事也一直在圍繞著這個主題開展相關研究,國內許多高校,如復旦大學、浙江大學、北京理工大學與同濟大學等,在這項賽事中也獲得了一定成績。

目前雖然在視覺大數據資源的組織、分析、理解和利用方法上有很多研究成果,但這些成果最終目的是應用于視覺搜索。近年來一系列研究對于視覺搜索及其在各行業、領域的應用與推廣工作起到了積極作用,這對于數字圖書館領域而言,是一個積極信號。

3 大數據環境下視覺搜索研究的5個核心問題

盡管視覺搜索已經獲得了工業界和學術界(包括數字圖書館領域在內)的高度關注,但目前在國內并未得到廣泛應用及推廣,主要原因是由于相關技術與應用產品尚未完全成熟,存在著視覺搜索性能不夠理想或不夠穩定、用戶體驗質量不佳、應用局限性較強等問題,圍繞這些問題,就需要從視覺搜索研究基礎理論與技術角度來解決。從數字圖書館視覺搜索模式構建流程[1]來看,視覺搜索研究主要包括5個核心問題,分別描述如下。

視覺大數據資源的獲取與組織方法。互聯網環境下視覺大數據資源的存在形式是動態無序和異構離散的,視覺資源的生產和發布是動態變化的。視覺資源所蘊含的信息內容都包含多個異構、復雜的信息主題,彼此之間存在語義時空關聯關系。而傳統基于人工標注的視覺資源標注方法往往不夠精確,因此,如何快速獲取到所需視覺資源,是視覺搜索應用的關鍵問題。而對與待搜索視覺對象無關的視覺資源的清洗過濾,以及視覺大數據資源的有效組織是視覺搜索應用的核心問題。

視覺大數據資源的理解與表達方法。為了在海量視覺大數據資源中找到與待搜索對象一致的視覺資源,就需要從符合待搜索視覺資源的特征分析與理解出發,對其視覺內容進行多元化、結構化、多層次的深度理解和表達。

視覺大數據資源整合與交互方法。視覺搜索作為一種信息檢索模式,其服務對象是用戶。對視覺大數據資源的獲取與組織、理解與表達的目的是為了給用戶提供智慧化、人性化的知識服務。因此,如何圍繞視覺大數據資源整合全生命周期進行多維度分析,從而滿足用戶對視覺大數據資源的多元化知識服務需求,也是視覺搜索研究能否成為現實的核心問題。

視覺對象知識庫建設及標準化問題。視覺搜索依賴于視覺對象知識庫的建設。基于高質量的視覺對象知識庫,用戶可快速將待搜索視覺對象與虛擬信息空間中的視覺大數據資源進行有效關聯,從而享受到數字圖書館提供的視覺搜索知識服務。同時,標準化問題也是視覺搜索應用能否順利應用和推廣的關鍵所在。

視覺搜索體系的安全與可靠性理論。無論在任何時候,網絡安全及系統可靠性問題是永遠無法回避的難題,視覺搜索亦不例外。在視覺搜索體系中,數據安全性與知識產權、用戶隱私權、系統可用性與可靠性等問題亦是視覺搜索能否得到有效推廣與應用的核心問題。

4 總結與展望

在“互聯網+”時代,信息服務正越來越廣泛地深入到用戶智慧化、個性化和嵌入式的知識服務需求中去,數字圖書館領域開始呼喚新型的殺手級信息檢索模式。視覺搜索是當前信息檢索領域發展的一個重要前沿和創新突破口,在充分汲取國內外信息科學領域先進研究成果的基礎上,開展數字圖書館視覺搜索基礎理論與應用研究,不僅有望從理論上豐富數字圖書館知識服務研究思想與未來發展框架,也有利于揭示數字圖書館中視覺大數據資源價值的產生機理與轉換規律。

毫無疑問,人類正在向“‘互聯網+’時代”邁進,作為一種技術與理念創新,視覺搜索必然符合一般信息技術生存、發展與成熟基本規律,需要經歷技術誕生的萌芽期、飛速進步的發展期、迅速膨脹的高峰期、去泡沫化的低谷期、穩步發展的光明期和實際應用的高峰期6個階段。目前來看,國內外已有視覺搜索研究正處于發展期,存在著理論與技術交叉之后學科間的不平衡這一問題。當前視覺搜索的理論、方法與技術研究主要集中在商業型視覺搜索應用上,對于產生視覺大數據資源的學術領域則關注較少。實際上,以科學研究、學科服務等學術領域為代表的視覺大數據資源,具有異于商業型應用的豐富內涵與獨特特征,只有全面掌握商業應用與學術領域的相關研究,才有助于建立更加科學、系統、合理的視覺搜索理論體系和應用框架。

四大領域、十大趨勢,數字科技化身未來的新動能

好奇心與 探索 ——人類進步的階梯。

19世紀的最后一天,世界上所有的知名物理學家齊聚一堂,準備為經典物理畫上一個完美的句號,所以當時的議題是如何消除經典物理這座漂亮大廈上的兩朵烏云。這兩朵烏云第一朵是經典物理中已知地球的空間中是有空氣的,因為聲音便是通過空氣這一介質傳播的,那么宇宙中又存在怎樣的介質能夠讓陽光穿越真空照耀大地的?第二朵烏云則是人們在做實驗的時候發現輻射能量很可能是不連續的。

后來的故事大家也都知道,科學家們在好奇心的驅使下提出了各種看似荒誕的理論,例如波爾提出了驚世駭俗的波爾模型、薛定諤提出了薛定諤波動方程……在一個個荒誕的理論的迭代與互補下,第一朵烏云誕生了相對論,第二朵烏云誕生了量子物理,它們共同將完美的經典物理推翻,也一手構建了現在的信息時代、數字時代。

2021年也是不平凡的一年,雖其分量遠不及“兩朵烏云”,但在疫情這一針猛烈的催化劑下,人工智能、云原生等數字 科技 融合多種技術、多個行業、多個產品,正前所未有地滲透到醫療、自動駕駛、安全等經濟 社會 的方方面面,那么近未來有望落地的 科技 趨勢是怎樣的?

近期,在騰訊 科技 向善創新周發布《2022年十大數字 科技 前沿應用趨勢》(后簡稱“報告”),通過訪談重點領域的科學 探索 獎獲獎人、業界權威專家,凝練出了IT重塑、智能世界、虛實共生、網絡革命四大領域,數字孿生、量子計算等十大數字 科技 前沿應用趨勢。

在解析報告之前需明白一點,數字 科技 化身未來新動能的應用大爆發不是單一技術的突破,而是多種技術循序漸進式的增量與融合的結果。正如騰訊研究院院長司曉在“ 科技 向善之夜”中《離線-在線-在場》的主題演講所言:“元宇宙等概念本身是一種技術漸進式發展的趨勢,就像我們在30年前說信息高速公路,10 年前說移動互聯網一樣,概念本身叫什么并不重要,它只是一個巨大的技術應用和孵化的池子,任何一項技術單點的突破或炒作,都不會把我們瞬間帶入到新時代。”

舉個例子,在演講中司曉表示騰訊計劃在深圳大鏟灣的一個半島上,建立一個全新的未來總部——企鵝島(非正式名稱),在“企鵝島”上,我們有可能看到騰訊在智慧城市上的種種積累和設想。

司曉介紹,“企鵝島”的設計方案在一款沙盒 游戲 中被復制出來。這個數字孿生一方面體現出 游戲 所積累的AI 、方針等技術在建筑設計等場景的應用,另一方面,在這個虛擬仿真環境下,可以以更低成本來驗證一系列交通、能源等系統的規劃以及設計是否合理。

其實,剛在前文中提到的數字孿生亦是融合多種數字技術的一個概念池子,例如在數字孿生中擬出真實的智慧城市的交通控制系統,讓公交和現實中的一樣,等紅燈、自動避讓、等人上下車,所以在數字孿生城市中引入自動駕駛仿真系統,而這個系統則是基于 游戲 引擎,通過機器學習不斷優化,讓 游戲 里的載具去真的感知周圍的環境,從而最大限度的還原現實生活場景。

也許我們已經在逐漸進入更加智慧的“在場辦公”時代。在移動互聯網之前,我們是離線辦公,工作需要去實實在在的辦公室、溝通需要面對面交流或打電話、發郵件;移動互聯網普及后,辦公方式再次迎來變革,特別是在疫情加速下,基于騰訊會議、Zoom、飛書等在線協作工具大家可以在線辦公;而隨著XR(混合現實)、感知交互、虛擬仿真等技術發展,“在場辦公”未來可期。

在場時代其實并不遙遠,例如Meta公司(原Facebook)前不久發布了一款VR虛擬辦公室程序Horizon Workrooms,用戶使用 Oculus 這樣的 VR 設備便能進入這個虛擬辦公室進行交互式辦公,就好像是在真實的辦公室辦公一樣。而這些隨著XR等技術與觸覺手套等硬件技術的發展,未來會有越來越多場景與公司從在線時代步入在場時代,即虛實共生。

司曉在演講中還舉到過一個大開腦洞的例子——火星移民。如果未來人類“火星在場”,在遠程去往火星上派機器人建基地之前,我們可能會首先實現在虛擬世界中對“火星”在場,也就是給火星建一個超擬真的模型,去模擬各種可能出現的情況。

可以看到,無論是一個智慧城市概念體——企鵝島,還是星辰大海的火星移民,其都是基于現有數字技術不斷進化、融合而來,它們并不會因為某一項技術的突破便將人類帶入“未來”時代,正如司曉在演講中談到的那樣:“元宇宙這些概念本身就是一種技術漸進式發展的趨勢,而這個過程需要的技術可能源自于完全不同領域的技術涌現與應用,但這兩個應用方向并不必然沖突,甚至有可能是相互依存的。”

前文中提到,“未來”新時代的實現過程必然是不同領域的技術涌現與應用,而在風云詭譎的2021年,我們可以看到人工智能等數字技術在醫療、自動駕駛、安全等領域的應用深入開展,沉浸式媒體、數字虛擬人、虛實集成亦打開了全真數字世界的大門,那么在2022年數字 科技 在IT重塑(云原生、量子計算、云安全)、智能世界(人工智能、復雜機器人、星地協同智能化)、虛實共生(萬物孿生、擴展現實)、網絡革命(云網融合、能源互聯網)四個領域又會有怎樣的應用趨勢呢?

一、IT重塑

如果說第一次工業革命的蒸汽機把人們帶入了蒸汽時代、第二次工業革命的電力應用把人們帶進了電氣時代,那么第三次 科技 革命IT技術則將人們帶入了互聯網時代,從PC互聯、移動互聯到如今萬物互聯初現雛形,IT正在被重塑。

IT架構被重塑的最直接的表現便是“云化”,隨著數字化的普及和深入,海量數據實時、靈活處理的情況日益普遍,傳統IT架構越來越難以適應,許多企業都會將自己的網站部署在云端(包括公有云、混合云等),這就是所謂的企業“上云”。而隨著上云進程的加快,一種基于分布部署和統一運管的分布式云——云原生開始帶領企業進入全云時代(云原生是以容器、微服務、DevOps等技術為基礎建立的一套云技術產品體系,可使松散耦合的系統具有彈性、可管理性和可觀察性,能夠更低成本、高效地調用各類云計算資源向業務交付應用)。

首先,無服務器計算(Serverless)興起,正在成為云原生加速發展的新路徑;其次,分布式云將有效拓展云原生業務構建的物理邊界,大幅減輕用戶多云管理負擔;最后,異構計算將促進軟硬件相互定義和融合發展,推動云原生基礎設施性能持續突破瓶頸。

不過云原生涉及IT體系的整體變革仍面臨不少挑戰,例如云原生資源的多變性影響IT體系全鏈條的可觀測性、實踐過程中遷移和管理復雜度較高,其中數據隱私和安全風險則是影響云原生發展的關鍵問題。

當前IT被重塑的不僅僅只有架構,還有算力。2021年是量子計算備受矚目的一年,國際國內均有較為明顯的科研成就,《報告》認為2021年量子計算已步入了NISQ(含噪聲中等規模量子)時代,同時《報告》還認為2022年將是量子計算繼續積蓄力量之年。

在硬件方面,主流量子計算硬件技術(如超導、離子阱、光量子等)將并行發展,兩到三年內,量子計算有望突破1000量子比特,屆時量子計算與經典計算相結合的混合計算體系或將成為更加有效的應用方案;而軟件算法方面,預計在2023年前后,量子計算有希望開始在若干領域(例如組合優化、量子化學、機器學習等)實現具有應用價值的專用量子模擬機,如用于小規模的分子模擬和蒙特卡羅模擬(分子模擬是新藥物、新材料開發的基礎,蒙特卡羅模擬在金融領域有廣泛應用),且量子計算產業鏈將隨科研及應用發展逐步形成。

二、網絡革命

IT被重塑的同時,得益于信息通信技術的快速發展,互聯網從發端時主要聚焦在科研逐步向消費型網絡發展,目前正向生產型網絡不斷演進,未來網絡將從信息傳輸向產業服務轉變,網絡將更加智能化、便捷化,即云網融合構建“連接升維”。

在此背景下,當下感知與智能將成為網絡技術演進的新趨勢。具體而言,一方面,無線通信與無線感知加速融合可實現通信感知一體化,使網絡具備原生感知能力,即從連接信息變成連接行為,從交互認知延伸到交互感知,通感一體正塑造全真全感互聯;另一方面,新型無線AI網絡架構和協議可以高效捕獲信道特征、適應未知環境,帶來物理層面的性能提升,AI構建智慧化網絡已成為行業公認的發展趨勢;此外,空天一體化組網(即天基、空基等網絡與地基網絡在系統層面實現地面與非地面網絡的全面一體化)還將實現人聯與物聯、 無線與有線、廣域和近域、空天和地面等的智能全連接,不僅可以在全球實現寬帶和物聯網通信,為用戶提供泛在通信服務,還可以將增強定位導航、實時地球觀測等新能力集成到網絡系統中。

連接升維除了體現在互聯網上,還體現在能源互聯網身上,雙碳目標正倒逼能源互聯網加快發展。隨著“碳達峰、碳中和”的提出,我國能源相關產業迎來了從量變到質變突破的發展元年,首先,清潔能源大規模、高比例地接入電網成為必然趨勢;其次,大規模儲能技術正成為新能源推廣和能源革命的基礎;最后,分布式能源與儲能技術的變革影響著負荷側的身份轉變。

源、荷、儲三端的快速變化,帶來了對“網”端一體化、數字化的改造、優化需求,這些變化 將給能源互聯網發展帶來重大變革:在能量層,建設多能互補的綜合能源系統以匹配多變的能源供需;在信息層,通過建設電力-交通耦合網絡、電力-算力耦合網絡等,實現智慧的能源管理和控制;在價值層,能源互聯網的建設需要 探索 能源共享經濟,引導全民參與,實現共建共享共贏。

三、虛實共生

經濟基礎決定上層建筑,底層基礎技術的重塑與變革也必然會帶來了應用層技術的升級與落地,在行業數字化變革進程中,數字孿生作為理解和優化物理實體的中間件,通過融合行業知識和新興技術,從設備、產線到工廠,從街道、區域到城市,從細胞、器官到人體,正多路徑并行演進推動萬物孿生。

《報告》認為,研究人員、工程人員、管理人員通過數字孿生,實現對工業設備、城市街道、人體器官等的理解、優化將成為必然趨勢。一方面,行業建模工具通過融合多類技術,正向實時化、顯性化和友好交互方向演進;另一方面, 游戲 引擎逐步融合行業知識和前沿技術來提升數字孿生的應用能力,憑借其模擬逼真、渲染實時、開發便捷的特點,為行業數字孿生構建提供新型路徑。

不過,當前雖然數字孿生應用需求處于爆發期,但其開發應用依賴行業知識沉淀、不同工具的融合協同、以及計算和網絡支撐等多類技術條件,對高精度、多尺度、低時延等大場景的支持能力仍較為薄弱,發展仍處于初級階段,未來還需要多項技術能力的突破和整合去推動數字孿生進一步發展。

當然,作為虛實共生時代雙子星(分別為數字孿生與擴展(XR)現實)的擴展現實,在硬件迭代的驅動下也迎來了產業的拐點。在VR領域,隨著VR光學、顯示、定位和交互等硬件技術發展方向和思路的明確,超短焦的光學設計、Micro-LED、更輕便的交互控制器成為未來趨勢;在AR領域,由于光學模組算力、電池限制等硬件限制,短時間內多種技術路線將會并存;值得注意的是,《報告》顯示以手機為顯示終端的VR 360或全景視頻發展迅速,其生態已初具雛形。

總之,擴展現實已跨過了產業拐點。目前,VR在培訓、教育、文旅,AR在安防巡檢、工業生產等領域已經成為行業標配。《報告》認為,VR和AR作為新一代交互和計算的終端和下一代互聯網的硬件入口,將帶來新一輪的信息浪潮和產業鏈格局的重塑。

四、智能世界

IT重塑、網絡革命、虛實共生,任數字 科技 與產業如何發生化學反應,人類最終的目的是打造一個智能世界,顯然,我們當前正邁入這樣一個世界。

其一是超大模型,短期內,模型的規模會進一步提升,大模型中的數據類型將不斷豐富,由目前文本為主向圖像、視覺等多模態方向豐富,進而推動模型準確性和泛化能力的提升;其二是小樣本學習技術,通過多任務分割網絡和遷移學習,可以實現對大量異質公開數據集的利用,將學習到的知識和特征用于生成目標領域的模型,從而實現知識在不同領域之間的遷移;最后是一站式機器學習平臺,通過為開發者提供從數據標注、數據預處理、模型構建、模型訓練、模型評估到模型服務的全流程開發支持,可以幫助開發者更快完成業務模型的搭建,大幅降低機器學習的進入門檻,有望成為人工智能研發基礎設施,推動模型工業化。

其次,多模態融合將驅動復雜任務服務機器人深入家庭生活。在感知方面,觸覺傳感技術突破,以及多模態感知融合技術迭代,將提升機械臂工作的精度和準確率,實現對不同材質、形狀和軟硬性狀物品的抓握推舉;理解方面,基于計算機視覺和NLP技術的進步,機器人對復雜服務任務和家庭環境的理解將進一步深入;控制方面,柔性、仿生機器人本體技術的持續進展,將顯著提升人機互動的體驗和安全性。

隨著NLP、先進傳感器等底層技術實現商用化,疊加新冠疫情加速家庭消費升級,服務機器人智能化程度不斷提升,并下探至更為廣闊的家用消費級市場,《報告》認為,未來3-5年,家庭服務機器人有望實現更自然的人機交互、完成更復雜的操作任務,逐步成為家政、 娛樂 、教育、陪伴等細分場景的生活助手。

最后,星地協同智能化將開啟“大航天”時代。當前,航天業最大的變化便是其發展模式正由國家主導向國家和企業共同推進演化,而造成這一顯著變化的核心原因在于航天智能化水平快速提升,這也將成為技術創新與突破的新契機。

《報告》認為,星地智能化協同,一方面將提升衛星海量數據智能化處理能力,通過衛星與地面站協同推理,數據計算精度可快速提升,同時衛星回傳數據量大幅減少;另一方面,人工智能技術將助力衛星遙感數據融入千行百業,例如在農業領域,AI算法+衛星數據深度挖掘協助農民開展保險核保、產量預測,有望成為環境、 社會 與公司治理投資的風險預警工具;此外,航天智能化將打開航天商業化的大眾服務窗口,太空旅行、空間站商業化、太空電影拍攝逐步向大眾市場普及,亞軌道旅行、衛星影像私人訂制、時空信息數字化等新物種也將加速涌現。

面對疫情和全球產業格局調整帶來的不確定性風險,我們更需要加強 科技 預判,瞄準世界 科技 前沿,引領 科技 發展方向。透過報告我們看到數字 科技 正從四大方向、十個領域推動我們進入“新時代”,并正在轉化為未來的新動能,推動我國經濟與人民生活更高質量發展,正如騰訊研究院院長司曉所言:“ 科技 的發展沒有終點,讓 科技 融入實體經濟促其高質量發展,讓生活更便捷、讓 社會 更美好才是永恒的趨勢。”

搜索关键词: