03 facebook為什么變成x了(為什么python這么火)

时间:2024-05-18 02:00:24 编辑: 来源:

產生更多訓練樣本的技術。這個成功給計算機視覺帶來一個革命。如今,卷積神經網絡用于幾乎全部的識別和探測任務中。最近一個更好的成果是,利用卷積神經網絡結合回饋神經網絡用來產生圖像標題。

如今的卷積神經網絡架構有10-20層采用ReLU激活函數、上百萬個權值以及幾十億個連接。然而訓練如此大的網絡兩年前就只需要幾周了,現在硬件、軟件以及算法并行的進步,又把訓練時間壓縮到了幾小時。

基于卷積神經網絡的視覺系統的性能已經引起了大型技術公司的注意,比如Google、Facebook、Microsoft、IBM,yahoo!、Twitter和Adobe等,一些快速增長的創業公司也同樣如是。

卷積神經網絡很容易在芯片或者現場可編程門陣列(FPGA)中高效實現,許多公司比如NVIDIA、Mobileye、Intel、Qual買粉絲m以及Samsung,正在開發卷積神經網絡芯片,以使智能機、相機、機器人以及自動駕駛汽車中的實時視覺系統成為可能。

分布式特征表示與語言處理

與不使用分布式特征表示(distributed representations )的經典學習算法相比,深度學習理論表明深度網絡具有兩個不同的巨大的優勢。這些優勢來源于網絡中各節點的權值,并取決于具有合理結構的底層生成數據的分布。首先,學習分布式特征表示能夠泛化適應新學習到的特征值的組合(比如,n元特征就有2n種可能的組合)。其次,深度網絡中組合表示層帶來了另一個指數級的優勢潛能(指數級的深度)。

多層神經網絡中的隱層利用網絡中輸入的數據進行特征學習,使之更加容易預測目標輸出。下面是一個很好的示范例子,比如將本地文本的內容作為輸入,訓練多層神經網絡來預測句子中下一個單詞。內容中的每個單詞表示為網絡中的N分之一的向量,也就是說,每個組成部分中有一個值為1其余的全為0。在第一層中,每個單詞創建不同的激活狀態,或單詞向量(如圖4)。在語言模型中,網絡中其余層學習并轉化輸入的單詞向量為輸出單詞向量來預測句子中下一個單詞,可以通過預測詞匯表中的單詞作為文本句子中下一個單詞出現的概率。網絡學習了包含許多激活節點的、并且可以解釋為詞的獨立特征的單詞向量,正如第一次示范的文本學習分層表征文字符號的例子。這些語義特征在輸入中并沒有明確的表征。而是在利用“微規則”(‘micro-rules’,本文中直譯為:微規則)學習過程中被發掘,并作為一個分解輸入與輸出符號之間關系結構的好的方式。當句子是來自大量的真實文本并且個別的微規則不可靠的情況下,學習單詞向量也一樣能表現得很好。利用訓練好的模型預測新的事例時,一些概念比較相似的詞容易混淆,比如星期二(Tuesday)和星期三(Wednesday),瑞典(Sweden)和挪威(Norway)。這樣的表示方式被稱為分布式特征表示,因為他們的元素之間并不互相排斥,并且他們的構造信息對應于觀測到的數據的變化。這些單詞向量是通過學習得到的特征構造的,這些特征不是由專家決定的,而是由神經網絡自動發掘的。從文本中學習得單詞向量表示現在廣泛應用于自然語言中。

圖4 詞向量學習可視化

特征表示問題爭論的中心介于對基于邏輯啟發和基于神經網絡的認識。在邏輯啟發的范式中,一個符號實體表示某一事物,因為其唯一的屬性與其他符號實體相同或者不同。該符號實例沒有內部結構,并且結構與使用是相關的,至于理解符號的語義,就必須與變化的推理規則合理對應。相反地,神經網絡利用了大量活動載體、權值矩陣和標量非線性化,來實現能夠支撐簡單容易的、具有常識推理的快速“直覺”功能。

在介紹神經語言模型前,簡述下標準方法,其是基于統計的語言模型,該模型沒有使用分布式特征表示。而是基于統計簡短符號序列出現的頻率增長到N(N-grams,N元文法)。可能的N-grams的數字接近于VN,其中V是詞匯表的大小,考慮到文本內容包含成千上萬個單詞,所以需要一個非常大的語料庫。N-grams將每個單詞看成一個原子單元,因此不能在語義相關的單詞序列中一概而論,然而神經網絡語言模型可以,是因為他們關聯每個詞與真是特征值的向量,并且在向量空間中語義相關的詞彼此靠近(圖4)。

遞歸神經網絡

首次引入反向傳播算法時,最令人興奮的便是使用遞歸神經網絡(recurrent neural 買粉絲works,下文簡稱RNNs)訓練。對于涉及到序列輸入的任務,比如語音和語言,利用RNNs能獲得更好的效果。RNNs一次處理一個輸入序列元素,同時維護網絡中隱式單元中隱式的包含過去時刻序列元素的歷史信息的“狀態向量”。如果是深度多層網絡不同神經元的輸出,我們就會考慮這種在不同離散時間步長的隱式單元的輸出,這將會使我們更加清晰怎么利用反向傳播來訓練RNNs(如圖5,右)。

圖5 遞歸神經網絡

RNNs是非常強大的動態系統,但是訓練它們被證實存在問題的,因為反向傳播的梯度在每個時間間隔內是增長或下降的,所以經過一段時間后將導致結果的激增或者降為零。

由于先進的架構和訓練方式,RNNs被發現可以很好的預測文本中下一個字符或者句子中下一個單詞,并且可以應用于更加復雜的任務。例如在某時刻閱讀英語句子中的單詞后,將會訓練一個英語的“編碼器”網絡,使得隱式單元的最終狀態向量能夠很好地表征句子所要表達的意思或思想。這種“思想向量”(thought vector)可以作為聯合訓練一個法語“編碼器”網絡的初始化隱式狀態(或者額外的輸入),其輸出為法語翻譯首單詞的概率分布。如果從分布中選擇一個特殊的首單詞作為編碼網絡的輸入,將會輸出翻譯的句子中第二個單詞的概率分布,并直到停止選擇為止。總體而言,這一過程是根據英語句子的概率分布而產生的法語詞匯序列。這種簡單的機器翻譯方法的表現甚至可以和最先進的(state-of-the-art)的方法相媲美,同時也引起了人們對于理解句子是否需要像使用推理規則操作內部符號表示質疑。這與日常推理中同時涉及到根據合理結論類推的觀點是匹配的。

剩下的超過字數限制了……

搜索关键词: