facebook 大語言模型(2021那些事兒|細數信息技術4大領域)

时间:2024-05-19 16:02:13 编辑: 来源:

《預訓練周刊》第33期:預訓練語言模型的高效分層域適應

關于周刊

本期周刊,我們選擇了9篇預訓練相關的論文,涉及詞匯遷移、常識問答、多模態訓練、層次訓練、對比學習、圖像分割、圖文模型、蛋白質作用和免疫特征表示的 探索 。此外,在研究動態方面,我們選擇了2篇預訓練資訊,將介紹大模型競爭和視覺算法年度回顧方面的一些最新內容。最后,在資源推薦方面,我們選擇了1篇預訓練資源,將介紹跨語言摘要方面的一些最新內容。

本期貢獻者:申德周 翟珂 吳新剛

論文推薦

標題:俄羅斯Yandex、Facebook等 | Fine-Tuning Transformers: Vocabulary Transfer(微調Transformer:詞匯遷移)

簡介:本文討論了巨大型預訓練模型為下游任務微調而引發遷移學習的 探索 之一:詞匯遷移。自然語言處理領域最新進展中Transformer已成為絕對主流。這些模型的大多數實際自然語言處理應用通常是通過遷移學習實現的。本文研究了用于微調的語料庫特定標記化是否會提高模型的最終性能。作者通過一系列的詞匯表優化和遷移實驗,證明了這種詞匯表優化和遷移策略可以提高模型的性能。作者稱之為:在遷移學習領域開創了詞匯遷移的這一方向。

論文地址:「鏈接」

標題:加州大學 | Zero-shot Commonsense Question Answering with Cloze Translation and Consistency Optimization(基于完形轉換和一致性優化的小樣本常識問答)

簡介:本文在常識問答(CQA)方向研究預訓練語言模型中的知識提取。作者將重點放在更好地利用預訓練語言模型中存儲的知識。雖然研究人員發現,通過讓預先訓練的語言模型填充精心設計的關系提取和文本分類提示的空白,可以提取嵌入在預訓練的語言模型中的知識,但目前尚不清楚作者是否可以在CQA中采用這種范式,其中輸入和輸出的形式更加靈活。為此,作者研究了四種可以將自然問題翻譯成完形填空式句子的翻譯方法,以更好地從語言模型中獲取常識性知識,包括基于句法的模型、無監督神經模型和兩種監督神經模型。此外,為結合不同的翻譯方法,作者提議鼓勵使用未標記數據對不同翻譯問題進行模型一致性的預測。實驗證明了作者的方法在三個CQA數據集上的有效性。

論文地址:「鏈接」

標題:威斯康星大學、微軟等 | RegionCLIP: Region-based Language-Image Pretraining(基于區域的語言圖像預訓練)

簡介:本文研究了基于識別圖像區域的語言圖像預訓練模型。業界使用“圖像-文本對”的對比語言圖像預訓練 (CLIP)在零樣本和遷移學習中的圖像分類方面取得了令人印象深刻的結果。然而,作者表明直接應用此類模型來識別圖像區域以進行對象檢測會導致性能不佳,因為存在域偏移:CLIP 被訓練以將圖像作為一個整體與文本描述進行匹配,而沒有捕獲圖像之間的細粒度對齊區域和文本跨度。為了緩解這個問題,作者提出了一種稱為 RegionCLIP 的新方法,該方法顯著擴展了 CLIP 以學習區域級視覺表示,從而實現圖像區域和文本概念之間的細粒度對齊。作者的方法利用 CLIP 模型將圖像區域與模板標題匹配,然后預訓練作者的模型以在特征空間中對齊這些區域-文本對。當將作者的預訓練模型轉移到開放詞匯對象檢測任務時,作者的方法在 COCO 和 LVIS 數據集上的新類別分別顯著優于現有技術 3.8 AP50 和 2.2 AP。

論文地址:「鏈接」

代碼地址:買粉絲s://github.買粉絲/microsoft/RegionCLIP

標題:艾倫AI研究所、慕尼黑大學 | Efficient Hierarchical Domain Adaptation for Pretrained Language Models(預訓練語言模型的高效分層域適應)

簡介:本文研究了以分層樹結構的域表示實現預訓練語言模型的分層。生成式的語言模型,在不同的通用領域語料庫上進行訓練,然而這就限制了它們對更窄領域的適用性,之前的工作表明,持續的領域內訓練可以提供進一步的收益。在本文中,作者介紹了一種使用計算效率高的適配器方法將域適應擴展到許多不同域的方法。作者的方法基于對文本域部分重疊的觀察,作者將域表示為分層樹結構,其中樹中的每個節點都與一組適配器權重相關聯。當與凍結的預訓練語言模型相結合時,這種方法可以實現相關領域之間的參數共享,同時避免不相關領域之間的負面干擾。該方法很高效:對于 D 個域,計算成本為 O(log(D))。GPT-2 的實驗結果和 C4 中 100 個最具代表性的網站中的大部分顯示了域內的全面改進。作者還為保留域提供了一種推理時間算法,并表明對通過樹的多條路徑進行平均可以進一步提高泛化效果,同時僅增加推理的邊際成本。

論文地址:「鏈接」

標題:谷歌、亞馬遜等 | Supervised Graph Contrastive Pretraining for Text Classification(用于文本分類的有監督圖對比預訓練)

簡介:本文介紹了用于文本分類的對比預訓練技術。但是,通常可以使用來自與當前任務共享標簽語義的相關任務的標記數據。作者假設有效地使用這些標記數據可以更好地概括當前任務。在本文中,作者提出了一種通過基于圖的監督對比學習方法有效利用來自相關任務的標記數據的新方法。作者通過將監督信息從示例外推到令牌來制定令牌圖。作者的公式產生了一個嵌入空間,其中屬于同一類的高/低概率標記彼此靠近/遠離。作者還提出了詳細的理論見解、以作為本研究方法的驅動。基于作者采用的數據集,實驗表明:作者的方法優于預訓練方案 2.5 % 、并且基于示例級對比學習的公式提升約 1.8 %。此外,在零樣本場景中實驗表明跨域有效性平均提升3.91%。最后,作者還證明了該方法可以用作知識蒸餾設置中的噪聲教師模型、約平均提升4.57% 。

論文地址:「鏈接」

標題:百度 | ERNIE-ViLG: Unified Generative Pre-training for Bidirectional Vision-Language Generation(ERNIE-ViLG:雙向視覺語言生成的統一生成式預訓練)

簡介:視覺語言預訓練模型極大地提高了圖像-文本生成任務的性能,但用于文本-圖像生成任務的大規模預訓練模型仍在研究中。本文提出了ERNIE-ViLG,一個統一的生成式預訓練框架,基于Transformer模型并將圖像生成和文本生成都表述為以文本/圖像輸入為條件的自回歸生成任務。雙向的圖像-文本生成模型簡化了跨視覺和語言的語義對接。對于文本到圖像的生成過程,作者進一步提出了一種端到端的訓練方法來共同學習視覺序列生成器和圖像重建器。為了 探索 雙向文本-圖像生成的大規模預訓練的前景,本文在1.45億圖像-中文文本對的大規模數據集上訓練了一個100億參數的模型,該模型在文本-圖像和圖像-文本任務上都取得了最先進的性能。

論文地址:「鏈接」

標題:華中科大、西安交大、微軟 | A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained Vision-language Model(用預訓練視覺語言模型進行零樣本語義分割的基線)

簡介:通過視覺語言預訓練的零樣本圖像分類已經漸趨成熟,然而在更廣泛的視覺問題上如物體檢測和語義分割還需研究。本文在預訓練的視覺語言模型CLIP上構建零樣本語義分割基線。該問題難點在于語義分割和CLIP模型在不同的視覺顆粒度上執行,語義分割在像素上處理,而CLIP在圖像上執行。為了彌補處理粒度上的差異,本文沒有使用普遍的基于FCN的單階段框架,而使用一個兩階段的語義分割框架,第一階段提取泛化掩碼,第二階段利用基于圖像的CLIP模型,對第一階段產生的掩碼圖像作物進行零樣本分類。本文的實驗結果表明,這個簡單的框架在很大程度上超過了目前的先進技術。憑借其簡單性和強大的性能,本文希望這個框架能夠作為基線以助未來的研究。

論文地址:「鏈接」

標題:中山大學 | AlphaFold2-aware protein-DNA binding site prediction using graph transformer(使用圖Transformer進行結合AlphaFold2的蛋白質-DNA結合位點預測)

簡介:蛋白質與DNA的相互作用在生物系統中起著至關重要的作用,確定蛋白質與DNA的結合位點是對各種生物活動,如轉錄和修復,進行機理理解和設計新型藥物的第一步。現有的基于序列的方法只考慮了順序相鄰的上下文特征,這對捕捉空間信息是有限的。對此本文提出GraphSite,作者將結合位點預測問題轉化為圖節點分類任務,并采用基于Transformer的預訓練模型,通過AlphaFold2預測結構,將蛋白質結構信息、AlphaFold2中Evoformer的表征和序列進化信息考慮在內實現DNA結合殘基的識別。GraphSite大大改善了基于序列和結構的最新方法,并且在181種蛋白質的獨立測試集上得到進一步證實,在AUPR和MCC上分別超過了最先進的基于結構的方法16.4%和11.2%。

論文地址:「鏈接」

標題:耶魯 | Pipeline for retrieval of COVID-19 immune signatures(檢索COVID-19免疫特征的流程)

簡介:隨著生物醫學文獻出版速度的加快,檢索其中的特定的科學信息變得更有意義。在新冠流行的大背景下,有效地檢索病毒免疫特征,即生物標志物,可以幫助了解不同的SARS-CoV-2感染的免疫反應機制。對此,本文構建了一個系統的流程來識別和提取結構化的COVID-19免疫特征。具體而言,作者使用基于SPECTER預訓練的生物文本嵌入,配合SVM分類器來自動識別含有免疫特征的論文,并進一步對這些論文進行半自動查詢流程構建,檢索特征信息。此外,基于預訓練嵌入的流程也可確定免疫特征的類型,比如基因表達與其他類型的分析。通過這種方法,部分自動化的文獻挖掘可以幫助快速創建半結構化的知識庫,用于自動分析新出現的 健康 威脅。

論文地址:「鏈接」

資源推薦

標題:孟加拉國工程技術大學、加州大學洛杉磯分校等 | CrossSum:超越 1500 多個語言對的以英語為中心的跨語言抽象文本摘要數據集

簡介:作者提供了 CrossSum:一個包含 165 萬個跨語言文章摘要樣本、包含 45 種語言的 1500 多個語言對的大規模數據集。基于多語言 XL-Sum 數據集,并使用與語言無關的表示模型通過跨語言檢索來對齊以不同語言編寫的相同文章,作者提出了一種多階段數據采樣算法并微調多語言預訓練模型mT5。實驗結果表明在 CrossSum 上微調的模型優于摘要+翻譯基線。

論文地址:「鏈接」

資源下載:買粉絲s://github.買粉絲/csebuetnlp/CrossSum

【關于轉載】本文轉載于買粉絲“智源社區”,僅用于學術分享,有任何問題請與我們聯系:report@aminer.買粉絲

2021那些事兒|細數信息技術4大領域

2021年,信息技術發展突飛猛進。人工智能、大數據、開源、虛擬現實(VR)、增強現實(AR)……每個領域的發展幾乎都可圈可點。

在人工智能領域,人工智能的語言大模型、圖文大模型乃至多模態大模型的基本能力已得到了充分展現。例如,阿里巴巴達摩院公布多模態大模型M6最新進展,參數從萬億躍遷至10萬億;鵬城實驗室與百度聯合發布全球首個知識增強千億大模型——鵬城—百度·文心,參數規模達到2600億。

不僅如此,人工智能與其他科學領域的交叉融合也擦出火花。在《科學》近日公布的2021年度科學突破榜單上,AlphaFold和RoseTTA-fold兩種基于人工智能預測蛋白質結構的技術位列榜首。

在人機交互領域,扎克伯格將Facebook公司更名為“Meta”時,特斯拉和SpaceX首席執行官埃隆·馬斯克則將注意力放在腦機接口上。馬斯克認為腦機接口裝置將更有可能改變世界,幫助四肢癱瘓或有身體缺陷的人更好地生活和工作,“復雜的腦機接口裝置可以讓你完全沉浸在虛擬現實中”。此外,今年5月,斯坦福大學開發出一套皮質內腦機接口系統,可以從運動皮層的神經活動中解碼癱瘓患者想象中的手寫動作,并將其轉換為文本。

在超算領域,最值得一提的是,今年11月,我國超算應用團隊憑借“超大規模量子隨機電路實時模擬”成果斬獲國際高性能計算應用領域的最高獎項“戈登貝爾獎”。

在開源方面,RISC-V開源指令集及其生態快速崛起;由華為公司牽頭,中國科學院軟件研究所、麒麟軟件等參與的openEuler操作系統開源社區業已匯聚了7000名活躍開發者,完成8000多個自主維護的開源軟件包,催生了10多家廠商的商業發行版……

回望2021年,信息技術版邀請業內專家梳理上述四個領域的發展脈絡,展望未來發展趨勢。

作者 張雙虎

AlphaFold或是2021年人工智能(AI)領域的“一哥”。

近日,《科學》雜志公布了 2021 年度科學突破榜單,AlphaFold 和 RoseTTA-fold 兩種基于人工智能預測蛋白質結構的技術位列榜首。

此前幾天,由中國工程院院刊評選的“2021全球十大工程成就(近5年全球實踐驗證有效、有全球影響力的工程科學和技術重大成果)”中,AlphaGo和AlphaFold亦榜上有名。

在接受《中國科學報》采訪時,數位專家回望今年人工智能領域取得的成就時,均談到了AlphaFold。

“面向科學發現的AlphaFold和中國正在構建的人工智能發展生態不能不說。” 浙江大學人工智能研究所所長吳飛對《中國科學報》說。

中科院自動化研究所模式識別國家重點實驗室研究員王金橋則提名“用AI進行新冠診斷”“人工智能與生物、制藥、材料等科學融合(AI for Science)”和“三模態大模型紫東太初”。

在醫學領域,AI識別咳嗽聲早已用于肺炎、哮喘、阿爾茨海默氏癥等疾病檢測。美國麻省理工學院研究人員研發出可以通過分析咳嗽錄音識別新冠患者的AI模型,識別出新冠患者咳嗽的準確率為98.5%,其中識別無癥狀感染者的準確度高達100%。日前,有報道稱該模型已用于識別奧密克戎病毒。

“紫東太初首次實現了圖—文—音語義統一表達,兼具跨模態理解和生成能力。” 王金橋說,“目前與新華社共同發布的‘全媒體多模態大模型研發計劃’,實現對全媒體數據理解與生成的統一建模,打造全棧國產化媒體人工智能平臺,已 探索 性地應用于紡織業和 汽車 行業質檢等場景。”

12月7日, 科技 部官網公布3份函件,支持哈爾濱、沈陽、鄭州3地建設國家新一代人工智能創新發展試驗區。至此,我國已經有18個國家新一代人工智能創新發展試驗區,這將引領帶動中國人工智能創新發展。

“我國正在推動人工智能生態發展,構建良好生態。”吳飛說,“目前已有15個國家新一代人工智能開發創新平臺、18個國家新一代人工智能創新發展試驗區、8個人工智能創新應用先導區和高等學校設置的人工智能本科專業和交叉學科等人才培養載體。”

“一是大模型,二是人工智能和基礎學科的結合。”孫茂松對《中國科學報》說,“語言大模型、圖文大模型乃至多模態大模型的基本能力已得到了充分展現,確定了它作為智能信息處理基礎軟設施的地位。同時,它并非簡單地擴大規模,而是對數字資源整合能力和計算能力都提出了挑戰。雖然它的局限性也很明顯,但它所表現出的某些‘奇特’性質(如少樣本學習、深度雙下降、基于提示的任務調整等),使學者產生了超大參數規模或會引發質變的期待,從而為新的突破埋下了伏筆。”

今年,人工智能領域從“大煉模型”走向“煉大模型”階段,從千億量級到萬億量級,在大模型領域,似乎沒有最大,只有更大。

3月,北京智源人工智能研究院發布我國首個超大規模人工智能模型“悟道1.0”。6月,智源就改寫了自己的紀錄,發布悟道2.0,參數規模達到1.75萬億;9月,浪潮人工智能研究院推出了中文巨量語言模型——源 1.0,參數量達2457億;11 月,阿里巴巴達摩院公布多模態大模型 M6 最新進展,參數從萬億躍遷至 10 萬億;12月,鵬城實驗室與百度聯合發布全球首個知識增強千億大模型——鵬城—百度·文心,參數規模達到2600億。

與此相應,最近快手和蘇黎世聯邦理工學院提出了一個新的推薦系統Persia,最高支持100萬億級參數的模型訓練。

另一方面,人工智能在基礎學科領域不斷攻城略地。

7月,DeepMind公司人工智能程序Alphafold2研究成果又登頂《自然》,在結構生物學研究領域,人工智能或帶領生物學、醫學和藥學挺進新天地;11月,美國南加利福尼亞大學研究人員通過腦機連接設備,讓猴子玩 游戲 和跑步機,從而進行神經活動數據研究;12月,DeepMind開發的機器學習框架,已幫助人們發現了純數學領域的兩個新猜想,展示了機器學習支持數學研究的潛力。

“今年人工智能在各行業應用方面也取得不小的成績。”孫茂松說,“人工智能與基礎學科結合已顯示出巨大潛力,發表了多篇頂級論文,已展露出某種較強的趨勢性,即‘人工智能+基礎科學’大有可為。”

作者 張雙虎

腦機接口、AR眼鏡、智能語音、肌電手環、隔空手勢識別……2021年,從基礎研究到應用落地,人機交互領域風起云涌。不管是智能 健康 、元宇宙,還是自動駕駛領域的蓬勃發展,似乎都表明,人機交互正站在產業化落地的門口。

“我們研發的高通量超柔性神經電極已通過科研臨床倫理審批,即將開展腦機接口人體臨床試驗。”中科院上海微系統所副所長、傳感技術聯合國家重點實驗室副主任陶虎對《中國科學報》說,“安全穩定地大規模采集人體大腦的神經元信號并進行閉環調控,將實現病人感知和運動功能的修復。”

腦機接口技術給患者帶來越來越多的便利。今年5月,斯坦福大學研究人員在《自然》發表封面論文,開發出一套皮質內腦機接口系統,可以從運動皮層的神經活動中解碼癱瘓患者想象中的手寫動作,并將其轉換為文本。借助該系統,受試者(因脊髓損失癱瘓)每分鐘可以打出近百個字符,且自動更正后的離線準確率超過了 99%。

不久前,馬斯克表示,希望明年能在人類身上使用Neuralink 的微芯片裝置。該芯片將用于治療脊髓損傷、帕金森氏癥等腦部疾病和神經系統疾病。目前,相關技術正在等待美國食品藥品監督管理局的批準。

“腦機接口領域已經蓄積了相當的技術,有望成為解決大腦疾病的利器。”陶虎說,“大家都在搶占臨床應用的先機,明年可能會實現技術落地應用。預計兩三年內,國內會出現可媲美馬斯克Neuralink的獨角獸企業。”

“人機交互將引申出新的萬億級市場。”福州大學特聘教授嚴群這句判斷,也囊括了元宇宙這個巨大的市場。

有人稱2021年是“元宇宙元年”,也有人認為這不過是“舊瓶裝新酒”。但無論如何,元宇宙已是今年人機交互領域繞不開的話題。

“元宇宙是虛擬現實、增強現實和混合現實的綜合,它實際上并非新的東西。”北京郵電大學人機交互與認知工程實驗室主任劉偉告訴《中國科學報》,“元宇宙是現實世界和虛擬世界跨越未來的發展方向,但還有些技術問題未能很好地解決。”

在真實世界里,人機交互問題和人機環境系統的混合問題未能很好地解決。真實世界的人機交互中,不管是輸入、處理還是輸出過程中,客觀數據、主觀信息和知識依然不能完美融合。

劉偉認為,無論真實世界還是虛擬世界,人類和機器決策都有“快決策”和“慢決策”過程。人類決策有時依靠邏輯決策多些,有時直覺決策多些,這種“混合決策”不斷變換,而且很難找到變化規律。這方面的問題機器決策目前還未能解決。

“元宇宙還處在畫餅的前期階段。”劉偉說,“因為它的底層機理沒有解決——人在真實世界里未能完美解決人機交互的問題,帶到元宇宙里同樣不能解決。”

談到人機交互,劉偉認為第二個不能不說的問題是“復雜領域”。

“今年的諾貝爾物理學獎,也給了復雜系統預測氣候變化模型的提出者。”劉偉說,“人機交互也是一個復雜系統,它既包括重復的問題,還包括雜亂的、跨域協同的問題。”

劉偉認為,從智能的角度說,復雜系統包括三個重要組成部分,一是人,二是裝備(人造物),三是環境。這其實是多個事物之間相互作用,交織在一起、既糾纏又重疊的“人機環系統”問題。

“在人機交互中,機器強在處理‘復’的問題,人擅長管‘雜’的事——跨域協同、事物間平衡等。因為人們還沒找到復雜事物的簡單運行規律,所以解決所有智能產品、智能系統問題,要從人、機、環這個系統里找它們的結合、融合和交互點。而且,人要在這個系統中處于主導地位。”

人機交互領域引起劉偉重視的第三個現象,是“人工智能幫數學家發現了一些定律”。“最近,DeepMind研發了一個機器學習框架,能幫助數學家發現新的猜想和定理。”劉偉說,“人工智能是一個基本的數學工具,同時,數學又反映了一些基本規律。如果人工智能可以幫助數學家處理一些數學問題,那么,人們將更好地認識復雜系統的簡單規律,人機交互方面就可能會取得新突破。”

作者 張云泉(中國科學院計算技術研究所研究員)

今年是我國超算應用實現豐收的一年。

11月中旬在美國舉行的全球超算大會(SC21)上,中國超算應用團隊憑借基于一臺神威新系統對量子電路開創性的模擬(“超大規模量子隨機電路實時模擬”),一舉摘得國際上高性能計算應用領域的最高學術獎——“戈登貝爾獎”。

同時,在SC 21大學生超算競賽總決賽上,清華大學超算團隊再次奪得總冠軍,實現SC競賽四連冠。這些大規模應用軟件可擴展性和性能調優方面的成績表明,我國在并行軟件方面的發展方興未艾。

回到超算對產業的驅動來看,我們要重提“算力經濟”一詞。早在2018年,我們提出“算力經濟”概念,認為以超級計算為核心的算力經濟將成為衡量一個地方數字經濟發展程度的代表性指標和新舊動能轉換的主要手段。

綜合近幾年的發展趨勢,我們認為高性能計算當前發展趨勢已充分表明,隨著超算與云計算、大數據、AI的融合創新,算力已成為當前整個數字信息 社會 發展的關鍵,算力經濟已經登上 歷史 舞臺。

通過對2021年中國高性能計算機發展現狀綜合分析,可以總結出當前高性能計算正呈現出以下幾個特點。

首先,高性能計算與云計算已經深度結合。高性能計算通常是以MPI、高效通信、異構計算等技術為主,偏向獨占式運行,而云計算有彈性部署能力與容錯能力,支持虛擬化、資源統一調度和彈性系統配置。

隨著技術發展,超級計算與容器云正融合創新,高性能云成為新的產品服務,AWS、阿里云、騰訊、百度以及商業化超算的代表“北龍超云”,都已基于超級計算與云計算技術推出了高性能云服務和產品。

其次,超算應用從過去的高精尖向更廣、更寬的方向發展。隨著超級計算機的發展,尤其是使用成本的不斷下降,其應用領域也從具有國家戰略意義的精密研制、信息安全、石油勘探、航空航天和“高冷”的科學計算領域向更廣泛的國民經濟主戰場快速擴張,比如制藥、基因測序、動漫渲染、數字電影、數據挖掘、金融分析及互聯網服務等,可以說已經深入到國民經濟的各行各業。

從近年中國高性能計算百強排行榜(HPC TOP100)來看,超算系統過去主要集中于科學計算、政府、能源、電力、氣象等領域,而近5年互聯網公司部署的超算系統占據了相當大比例,主要應用為云計算、機器學習、人工智能、大數據分析以及短視頻等。這些領域對于計算需求的急劇上升表明,超算正與互聯網技術進行融合。

從HPC TOP100榜單的Linpack性能份額看,算力服務以46%的比例占據第一;超算中心占24%,排名第二;人工智能、云計算和短視頻分別以9%、5%和4%緊隨其后。

可以看出,人工智能占比的持續增加與機器學習等算法和應用的快速崛起,以及大數據中的深度學習算法的廣泛應用有很大關系。互聯網公司通過深度學習算法重新發現了超級計算機,特別是GPU加速的異構超級計算機的價值,紛紛投入巨資建設新系統。

綜合來看,目前的算力服務、超算中心、人工智能、科學計算等領域是高性能計算的主要用戶,互聯網、大數據,特別是AI領域增長強勁。

再次,國家層面已經制訂了戰略性的算力布局計劃。今年5月,國家發展改革委等四部門聯合發布《全國一體化大數據中心協同創新體系算力樞紐實施方案》,提出在京津冀、長三角、粵港澳大灣區、成渝以及貴州、內蒙古、甘肅、寧夏建設全國算力網絡國家樞紐節點,啟動實施“東數西算”工程,力促把東部的數據送到西部進行存儲和計算,同時在西部建立算力節點,改善數字基礎設施不平衡的布局,有效優化數據中心的布局結構,實現算力升級,構建國家算力網絡體系。

最后,人工智能的算力需求已成為算力發展主要動力。機器學習、深度學習等算法革新和通過物聯網、傳感器、智能手機、智能設備、互聯網技術搜集的大數據,以及由超級計算機、云計算等組成的超級算力,被公認為是人工智能時代的“三駕馬車”,共同掀起最新一輪的人工智能革命。

在人工智能蓬勃發展這一背景下,虛擬化云計算向高性能容器云計算演進,大數據與并行計算、機器學習融合創新就成為了產業發展的最新方向。

此外,在智能計算評測方面,我國已經提出了包括AIPerf 500在內的眾多基準測試程序,這是對傳統Linpack測試標準的有力補充。

這些發展表明超算技術向產業滲透的速度加快,我們已經進入一個依靠算力的人工智能時代,這也是未來發展的必然趨勢之一。隨著用戶對算力需求的不斷增長,算力經濟必將在未來 社會 發展中占據重要地位。

作者 武延軍(中國科學院軟件研究所研究員)

開源發展可圈可點并非只是今年的事。最近幾年,開源領域發生了很多重要的事情。

例如,RISC-V開源指令集及其生態的快速崛起。這與上世紀90年代初Linux誕生一樣。當時,UNIX和Windows是主流,很少有人能夠預料到今天以Linux為內核的操作系統已經遍及人們生活的方方面面。

如今,人們每天使用的App,超過80% 概率是運行在以Linux為內核的安卓操作系統上,而且,支撐其業務的后端服務器上運行的操作系統很大概率也是Linux發行版。

所以,今天的RISC-V也同樣可能被低估,認為其不成熟,很難與ARM和X86抗衡。但也許未來RISC-V就像Linux一樣,最終成為全球范圍內的主流指令集生態,產品遍及方方面面。

僅2020年,RISC-V International(RVI,RISC-V基金會遷入瑞士之后的新名稱)的會員數增長了133%。其實RVI遷入瑞士這件事情本身也意義重大,是一次開源領域面對大國競爭保持初心不“選邊站”的經典案例,值得全球其他開源基金會參考。

在國內,2019年底,華為公司牽頭,中國科學院軟件研究所、麒麟軟件等參與的openEuler操作系統開源社區正式成立。在短短的兩年內,社區已經匯聚了7000名活躍開發者,完成8000多個自主維護的開源軟件包,催生了10多家廠商的商業發行版。

這是中國基礎軟件領域第一個真正意義上的“根社區”,雖然與20多年 歷史 的Debian、Fedora還有差距,但邁出了重要一步,對學術研究、技術研發、產業創新來說,終于有了國內主導的、可以長期積淀的新平臺。

同時,華為在遭遇安卓操作系統GMS(谷歌移動服務)海外斷供之后,推出了鴻蒙操作系統HarmonyOS,并在開放原子開源基金會下啟動開源項目OpenHarmony。

目前OpenHarmony短時間內已經吸引了國內眾多廠商參與,也側面反映了國內產業界對新一代萬物互聯操作系統的旺盛需求。盡管其在生態規模和技術完整程度方面與安卓仍有差距,但畢竟邁出了打造自主生態的第一步。

這相當于為源代碼合理使用劃定了一個邊界,即合理使用僅限于接口,一旦深入到接口的實現代碼,則需要遵守相關許可。這對開源知識產權的法律界定具有重要參考意義。

而不論是開源軟件向圍繞開放指令集的開源軟硬件生態發展,還是開源有嚴格的法律邊界約束,抑或是國內龍頭企業正嘗試通過開源 探索 解決“卡脖子”問題,且已經取得了一定的效果……眾多案例都指向一個方向——開源趨勢不可阻擋。因為它源自人類分享知識、協同創造的天性,也是人類文明在數字時代薪火相傳的重要模式。

當然,不可否認的是,開源還存在很多問題,例如,開源軟件供應鏈安全的問題。這里的安全既有傳統意義上軟件質量、安全漏洞的問題,也有開源軟件無法得到持續有效維護的問題(如OpenSSL在出現HeartBleed問題時只有兩位兼職維護者,log4j出現問題時只有三位兼職維護者),更有大國競爭導致的“斷供”問題(如GitHub曾限制伊朗開發者訪問)。

隨著開源軟件向GitHub這類商業平臺的集中,這一問題會更加突出,甚至演變為重大風險。開源軟件這一本應屬于全人類的智慧資產,可能變為實施“長臂管轄”的武器。為了避免這一問題,開源代碼托管平臺、開源軟件構建發布平臺等公共基礎設施需要“去中心化”。世界需要多個開源軟件基礎設施,以最大程度消除政治力量對開源社區的威脅。

對于中國來說,隨著開源軟件成為眾多科研、工業等重大基礎設施的重要支撐部分,開源軟件本身也要有一個基礎設施,具備代碼托管、編譯、構建、測試、發布、運維等功能,保證開源軟件供應的安全性和連續性,進而增強各行各業使用開源軟件的信心。

未來,核心技術創新與開源貢獻引領將成為國內企業發展的新動力,或將我國開源事業推向另一個高潮。

大數據處理需要用到的九種編程語言

大數據處理需要用到的九種編程語言

隨著大數據的熱潮不斷升溫,幾乎各個領域都有洪水傾瀉般的信息涌來,面對用戶成千上萬的瀏覽記錄、記錄行為數據,如果就單純的Excel來進行數據處理是遠遠不能滿足的。但如果只用一些操作軟件來分析,而不怎么如何用邏輯數據來分析的話,那也只是簡單的數據處理。

替代性很高的工作,而無法深入規劃策略的核心。

當然,基本功是最不可忽略的環節,想要成為數據科學家,對于這幾個程序你應該要有一定的認識:

R

若要列出所有程序語言,你能忘記其他的沒關系,但最不能忘的就是R。從1997年悄悄地出現,最大的優勢就是它免費,為昂貴的統計軟件像是Matlab或SAS的另一種選擇。

但是在過去幾年來,它的身價大翻轉,變成了資料科學界眼中的寶。不只是木訥的統計學家熟知它,包括WallStreet交易員、生物學家,以及硅谷開發者,他們都相當熟悉R。多元化的公司像是Google、Facebook、美國銀行以及NewYorkTimes通通都使用R,它的商業效用持續提高。

R的好處在于它簡單易上手,透過R,你可以從復雜的數據集中篩選你要的數據,從復雜的模型函數中操作數據,建立井然有序的圖表來呈現數字,這些都只需要幾行程序代碼就可以了,打個比方,它就像是好動版本的Excel。

R最棒的資產就是活躍的動態系統,R社群持續地增加新的軟件包,還有以內建豐富的功能集為特點。目前估計已有超過200萬人使用R,最近的調查顯示,R在數據科學界里,到目前為止最受歡迎的語言,占了回復者的61%(緊追在后的是39%的Python)。

它也吸引了WallStreet的注目。傳統而言,證券分析師在Excel檔從白天看到晚上,但現在R在財務建模的使用率逐漸增加,特別是可視化工具,美國銀行的副總裁NiallO’Conno說,「R讓我們俗氣的表格變得突出」。

在數據建模上,它正在往逐漸成熟的專業語言邁進,雖然R仍受限于當公司需要制造大規模的產品時,而有的人說他被其他語言篡奪地位了。

“R更有用的是在畫圖,而不是建模。”頂尖數據分析公司Metamarkets的CEO,MichaelDris買粉絲ll表示,

“你不會在Google的網頁排名核心或是Facebook的朋友們推薦算法時看到R的蹤影,工程師會在R里建立一個原型,然后再到Java或Python里寫模型語法”。

舉一個使用R很有名的例子,在2010年時,PaulButler用R來建立Facebook的世界地圖,證明了這個語言有多豐富多強大的可視化數據能力,雖然他現在比以前更少使用R了。

“R已經逐漸過時了,在龐大的數據集底下它跑的慢又笨重”Butler說。

所以接下來他用什么呢?

Python

如果說R是神經質又令人喜愛的Geek,那Python就是隨和又好相處的女生。

Python結合了R的快速、處理復雜數據采礦的能力以及更務實的語言等各個特質,迅速地成為主流,Python比起R,學起來更加簡單也更直觀,而且它的生態系統近幾年來不可思議地快速成長,在統計分析上比起R功能更強。

Butler說,“過去兩年間,從R到Python地顯著改變,就像是一個巨人不斷地推動向前進”。

在數據處理范疇內,通常在規模與復雜之間要有個取舍,而Python以折衷的姿態出現。IPythonNotebook(記事本軟件)和NumPy被用來暫時存取較低負擔的工作量,然而Python對于中等規模的數據處理是相當好的工具;Python擁有豐富的資料族,提供大量的工具包和統計特征。

美國銀行用Python來建立新產品和在銀行的基礎建設接口,同時也處理財務數據,“Python是更廣泛又相當有彈性,所以大家會對它趨之若鶩。”O’Donnell如是說。

然而,雖然它的優點能夠彌補R的缺點,它仍然不是最高效能的語言,偶爾才能處理龐大規模、核心的基礎建設。Dris買粉絲ll是這么認為的。

Julia

今日大多數的數據科學都是透過R、Python、Java、Matlab及SAS為主,但仍然存在著鴻溝要去彌補,而這個時候,新進者Julia看到了這個痛點。

Julia仍太過于神秘而尚未被業界廣泛的采用,但是當談到它的潛力足以搶奪R和Python的寶座時,數據黑客也難以解釋。原因在于Julia是個高階、不可思議的快速和善于表達的語言,比起R要快的許多,比起Python又有潛力處理更具規模的數據,也很容易上手。

“Julia會變的日漸重要,最終,在R和Python可以做的事情在Julia也可以”。Butler是這么認為的。

Dris買粉絲ll說,它就是因為它年輕,才會有可能變成主流又有前景。

Java

Dris買粉絲ll說,Java和以Java為基礎的架構,是由硅谷里最大的幾家科技公司的核心所建立的,如果你從Twitter、Linkedin或是Facebook里觀察,你會發現Java對于所有數據工程基礎架構而言,是非常基礎的語言。

Java沒有和R和Python一樣好的可視化功能,它也不是統計建模的最佳工具,但是如果你需要建立一個龐大的系統、使用過去的原型,那Java通常會是你最基的選擇。

Hadoop and Hive

為了迎合大量數據處理的需求,以Java為基礎的工具群興起。Hadoop為處理一批批數據處理,發展以Java為基礎的架構關鍵;相較于其他處理工具,Hadoop慢許多,但是無比的準確和可被后端數據庫分析廣泛使用。和Hive搭配的很好,Hive是基于查詢的架構下,運作的相當好。

Scala

又是另一個以Java為基礎的語言,和Java很像,對任何想要進行大規模的機械學習或是建立高階的算法,Scala會是逐漸興起的工具。它是善于呈現且擁有建立可靠系統的能力。

“Java像是用鋼鐵建造的;Scala則是讓你能夠把它拿進窯烤然后變成鋼的黏土”Dris買粉絲ll說。

Kafka andStorm

說到當你需要快速的、實時的分析時,你會想到什么?Kafka將會是你的最佳伙伴。其實它已經出現五年有了,只是因為最近串流處理興起才變的越來越流行。

Kafka是從Linkedin內誕生的,是一個特別快速的查詢訊息系統。Kafka的缺點呢?就是它太快了,因此在實時操作時它會犯錯,有時候會漏掉東西。

魚與熊掌不可兼得,「必須要在準確度跟速度之間做一個選擇」,Dris買粉絲ll說。所以全部在硅谷的科技大公司都利用兩個管道:用Kafka或Storm處理實時數據,接下來打開Hadoop處理一批批處理數據系統,這樣聽起來有點麻煩又會有些慢,但好處是,它非常非常精準。

Storm是另一個從Scala寫出來的架構,在硅谷逐漸大幅增加它在串流處理的受歡迎程度,被Twitter并購,這并不意外,因為Twitter對快速事件處理有極大的興趣。

Matlab

Matlab可以說是歷久不衰,即使它標價很高;在非常特定的利基市場它使用的相當廣泛,包括密集的研究機器學習、信號處理、圖像辨識等等。

Octave

Octave和Matlab很像,除了它是免費的之外。然而,在學術信號處理的圈子,幾乎都會提到它。

GO

GO是另一個逐漸興起的新進者,從Google開發出來的,放寬點說,它是從C語言來的,并且在建立強大的基礎架構上,漸漸地成為Java和Python的競爭者。

這么多的軟件可以使用,但我認為不見得每個都一定要會才行,知道你的目標和方向是什么,就選定一個最適合的工具使用吧!可以幫助你提升效率又達到精準的結果。

大數據開發常用的編程語言有哪些?

1、Python語言

如果你的數據科學家不使用R,他們可能就會徹底了解Python。十多年來,Python在學術界當中一直很流行,尤其是在自然語言處理(NLP)等領域。因而,如果你有一個需要NLP處理的項目,就會面臨數量多得讓人眼花繚亂的選擇,包括經典的NTLK、使用GenSim的主題建模,或者超快、準確的spaCy。同樣,說到神經網絡,Python同樣游刃有余,有Theano和Tensorflow;隨后還有面向機器學習的scikit-learn,以及面向數據分析的NumPy和Pandas。

還有Juypter/iPython――這種基于Web的筆記本服務器框架讓你可以使用一種可共享的日志格式,將代碼、圖形以及幾乎任何對象混合起來。這一直是Python的殺手級功能之一,不過這年頭,這個概念證明大有用途,以至于出現在了奉行讀取-讀取-輸出-循環(REPL)概念的幾乎所有語言上,包括Scala和R。

Python往往在大數據處理框架中得到支持,但與此同時,它往往又不是“一等公民”。比如說,Spark中的新功能幾乎總是出現在Scala/Java綁定的首位,可能需要用PySpark編寫面向那些更新版的幾個次要版本(對Spark Streaming/MLLib方面的開發工具而言尤為如此)。

與R相反,Python是一種傳統的面向對象語言,所以大多數開發人員用起來會相當得心應手,而初次接觸R或Scala會讓人心生畏懼。一個小問題就是你的代碼中需要留出正確的空白處。這將人員分成兩大陣營,一派覺得“這非常有助于確保可讀性”,另一派則認為,我們應該不需要就因為一行代碼有個字符不在適當的位置,就要迫使解釋器讓程序運行起來。

2、R語言

在過去的幾年時間中,R語言已經成為了數據科學的寵兒——數據科學現在不僅僅在書呆子一樣的統計學家中人盡皆知,而且也為華爾街交易員,生物學家,和硅谷開發者所家喻戶曉。各種行業的公司,例如Google,Facebook,美國銀行,以及紐約時報都使用R語言,R語言正在商業用途上持續蔓延和擴散。

R語言有著簡單而明顯的吸引力。使用R語言,只需要短短的幾行代碼,你就可以在復雜的數據集中篩選,通過先進的建模函數處理數據,以及創建平整的圖形來代表數字。它被比喻為是Excel的一個極度活躍版本。

R語言最偉大的資本是已圍繞它開發的充滿活力的生態系統:R語言社區總是在不斷地添加新的軟件包和功能到它已經相當豐富的功能集中。據估計,超過200萬的人使用R語言,并且最近的一次投票表明,R語言是迄今為止在科學數據中最流行的語言,被61%的受訪者使用(其次是Python,39%)。

3、JAVA

Java,以及基于Java的框架,被發現儼然成為了硅谷最大的那些高科技公司的骨骼支架。 “如果你去看Twitter,LinkedIn和Facebook,那么你會發現,Java是它們所有數據工程基礎設施的基礎語言,”Dris買粉絲ll說。

Java不能提供R和Python同樣質量的可視化,并且它并非統計建模的最佳選擇。但是,如果你移動到過去的原型制作并需要建立大型系統,那么Java往往是你的最佳選擇。

4、Hadoop和Hive

一群基于Java的工具被開發出來以滿足數據處理的巨大需求。Hadoop作為首選的基于Java的框架用于批處理數據已經點燃了大家的熱情。Hadoop比其他一些處理工具慢,但它出奇的準確,因此被廣泛用于后端分析。它和Hive——一個基于查詢并且運行在頂部的框架可以很好地結對工作。

淺談中文分詞與自然語言處理

最近出于興趣和需要,重新回顧中文分詞技術,期間有些心得,以及一些關于自然語言處理的淺薄之見,這里簡單分享一下。

首先, 中文分詞_百度百科 里面簡單介紹了其中主要的分詞算法以及相應的優缺點,包括字符匹配法、統計法以及理解法,其中字符匹配法和統計法比較流行且可以取到相對不錯的效果,而理解法則相對比較復雜高級,但是我認為這才是真正解決中文分詞任務的根本算法。

如今用于中文分詞的算法和模型雖算不上比比皆是,但也算是唾手可得,開源的如jieba、ltp、Hanlp等等,提供中文分詞服務的如騰訊云、百度大腦、訊飛AI平臺等,以及其他如Jiagu等。

其實這些平臺算法的差距并不算太大,分詞準確率基本上都是在80%以上,然而在98%以下(這里胡謅個數),在一些不太嚴格的應用場景下基本已經夠用了,只要挑一個在自己的業務場景下表現最好的即可。

在我看來,對于中文分詞這項任務而言,最關鍵最核心的其實并不是算法模型,這些都不是所謂的瓶頸,最重要的其實是高質量、大規模的詞典。對于字符匹配法而言,詞典是基礎,沒有詞典自然連分都分不出來;對于統計學習法而言,其效果一方面取決于算法和模型的選擇,一方面取決于其訓練數據的數量與質量,需要堆人力物力,比如找專門的標注公司標注數據等。但是就算是人標的數據,也難免有所錯誤遺漏,所以在有錯誤的訓練數據下,模型也不可能學的太好,同時訓練數據再大,也難以覆蓋全部語料,總會出現OOV,總有些句子會訓練不到,此時還強求模型可以做到“舉一反三”有些不切實際。

詞條中還提到了關于中文分詞的技術難點:歧義識別與新詞識別,關于歧義識別,上面并沒有提具體的解決思路,對于新詞識別而言,這又是自然語言處理領域很基礎并且很重要的點,可以參見一下我之前的文章: 《NLP基礎任務之新詞發現探索之路》 | lightsmile's Blog ,也有另一個思路,比如說爬取網上一些網站的相關條目,比如百度百科等。

簡單看了一下 jieba 、 ansj_seg 、 Jiagu 的分詞詞典,發現其中jieba的詞典質量最差,其中不少詞性都是錯誤的,Jiagu的詞典還算不錯,就是一些新詞不全,ansi_seg的沒有細看。

盡管這些工具在一些評測數據的結果可以達到90以上的成績,但是在我看來,還是不夠的,我覺得中文分詞這個基礎而又艱巨的任務還是要到99%以上才可以,否則分詞都分不對,那些在分詞基礎之上的任務更是不行,畢竟詞是基本的語義單元。

然而在現在深度學習盛行的潮流下,許多任務如文本分類、命名實體識別等并不一定需要依賴于分詞,直接基于字符(char)的Embedding也可以取得不錯的效果,并且也可以規避OOV(out of vocabulary words,未登錄詞)的問題。

但是深度學習,尤其是監督學習的很關鍵之處是得有大規模的高質量訓練數據,不然巧婦難為無米之炊,再好的模型也難以從垃圾中學到有用的知識。

話說回來,雖然自然語言處理是計算機科學與其他領域的交叉學科,深度學習、機器學習算是人工智能的一部分,然而許多時候往往十分依賴人工,而所謂的智能其實也不智能。

無論是計算機視覺領域里的圖像分類還是自然語言處理領域的文本分類,其任務都是學習一個從輸入 映射到輸出或者說標簽 的函數 ,具體來說就是將 表征為多維向量 ,將 表征為多維向量 ,然后讓 進入一個模型進行一系列的運算后得到一個 ,通過不斷地比較 和 的值并調整模型的參數使模型的運算結果 更為準確即更加貼近 (過程有點類似于 “猜數字”游戲 ),從而最終得到一個近似函數 ,我們就可以用來代替未知的 用于預測未來的樣本 ,得到它對應的 。

我們可以發現,以上學習算法確實可以得到能夠解決問題的模型,然而局限之處在于它也只能做這個任務,即對輸入 預測 ,別的啥也干不了。

關于模型的選擇和取舍,工業界和學術界的標準其實差別很大。學術界里有的論文是開創性的,而許多論文其實都是在原來基礎上小修小改,將最近的較新的思想和算法一堆,實驗結果比原來指標高一點又是一篇文章,程序運行占用多大內存、跑了多長時間這些都不是主要因素,也就是一切向指標看齊。

而工業界則更加看重的是性價比,不同的公司、不同的部門、不同的階段其主要矛盾不同。比如說Facebook之前出的fastText,盡管模型很簡單,最終效果可能比不上一些其他復雜的模型,但是其訓練速度超快、基于CPU就可以,并且可以很方便地對模型進行壓縮。許多時候,一些指標高低差幾個點并沒有那么關鍵,模型大小、訓練時間、預測時間在很多時候是比較關鍵的因素,除非由于甲方或客戶不滿意,或者家大業大,有的是資源,那么這時候效果和指標又成為主要矛盾,這時的優化可能要以一定的時間和空間為代價。

原來的自然語言處理各任務基本上都構建在分詞的基礎之上,粗略來說有一個 語法 、 語義 到 語用 的遞進的過程。這一層一層的任務雖然耦合的很好,但是

這種Pipline將會導致下層的錯誤都將會被積累到上層,其直接影響就是越到上層其準確率越低,甚至低到慘不忍睹的程度。然而在表示學習,尤其是深度學習崛起以后,其強大的特征學習能力,使得現在的模型多為end-to-end模型,其結果是一方面可以使得相關人員擺脫繁瑣的特征工程,可以將特征提取與組合設計的工作交給神經網絡模型去隱形完成,大大解放了生產力;令一方面可以將模型視為整體的一部分,即它的輸入直接對應原始輸入,它的輸出直接是我們想要的結果,有點直達病灶的意思,擺脫了原來Pipline錯誤累積的困境。

不過我個人看來成也end-to-end,敗也end-to-end,雖然簡化了任務,但是有點太過開門見山,得到的模型一個個都是彼此孤立的,各做各的事情,然而從整體論的角度來看它們都是整個自然語言處理系統的一部分,一些特征本來是可以共享,一些結果是彼此相互依賴的。這也又涉及到參數共享、多任務學習等概念,不細表。由于神經網絡的可解釋性較差,這使得模型更加像一個黑盒,訓練調參的過程更像是在煉丹,因為誰也不知道具體能煉出個什么玩意兒。

如下圖很形象地詮釋了這一現狀:

下面就深度學習下的自然語言處理四大任務進行簡單對比(都是個人淺薄之見,難免有不足之處,還望海涵)。自然語言處理四大任務分別是:序列標注、文本分類、句子關系、文本生成。

序列標注任務的原始語料是一連串的句子,經過標注后的語料格式大概如下(以命名實體識別為例):

我們可以發現,每一行的格式都是一個字符以及它所對應的類別,如 B_{ type} 、 O ,那么對于每一個字符模型需要預測的類別數量總計為 2*len(types) + 1 ,其中2是指 BI 這種標注規范, len(types) 指類型種類的數量(如人名、地名、機構名共三種),1是指 O 。可以發現模型需要擬合的函數的值域還是很小的,即 O(len(types)) 。

文本分類任務的標注語料格式大概如下(以情感極性分析為例):

每一行的格式都包含原始文本以及它所對應的類別(或者說標簽),我們可以發現模型需要預測的類別數量總計為 len(types) ,即類型種類的數量(以新聞語料分類,如 娛樂 、 軍事 、 科技 、 體育 等),可以發現模型需要擬合的函數的值域也是較小的,即 O(len(types)) 。

句子關系任務的標注語料格式大致如下(以語句相似度為例):

每一行都是兩個句子以及它們的關系( 1 代表語義相同, 0 代表語義不同),我們可以發現模型需要預測的類別數量總計為 len(relations) ,即關系種類的數量,可以發現模型需要擬合的函數的值域也是較小的,即 O(len(relations)) 。

文本生成任務的標注語料格式大致如下(以機器翻譯為例):

我們可以發現每一行都是源語言句子以及目標語言的對應翻譯。雖然此時模型和序列標注模型一樣都需要對于單個樣本預測多次,但是序列標注模型需要預測的次數直接等于字符的數量,是確定的,但是文本生成任務模型需要預測的次數是不確定的,并且每次預測的值域都是目標語言所有word(或者character)所組成的整體集合,即 O(len(words)) ,其規模可能是十萬級或百萬級的。因此我們很容易發現文本生成任務的難度和復雜程度是要遠遠高于其他任務的。對話任務如生成式閑聊機器人更是如此。

可能是之前的AlphaGo過于吸引廣大群眾的眼球,做相關業務的公司吹的太厲害,以及“人工智能”、“深度學習”這幾個詞聽起來逼格滿滿,導致許多外行人認為現在的人工智能已經發展到很厲害的層次,并且可以做各種各樣的事情,似乎無所不能。但是內行人心里卻明白:“什么人工智能,人工智障吧”、“所謂人工智能,多是智能不夠,人工來湊”。外行人看不到深度模型算法的局限性,如許多模型的精度并不能達到那么高;也看不到深度模型算法的前提條件,如高質量、大規模的數據集,他們以為模型大約聰明到隨便喂點數據便成為終結者般的存在。這也就導致了他們剛開始預期很高,然而在投資或找到外包后發現效果遠遠不能達到預期,大失所望而潦草結束或撤資離場的局面。

如下一張圖大概有點這個意思:

統觀學術界與工業界,和計算機視覺領域相比,自然語言處理這種更深層次的、涉及到認知智能的領域的進展雖悠久但緩慢,并且許多任務目前為止距離真正商用還有很大的距離。然而正是科學史上如阿基米德、牛頓等偉大人物與其他相對無名之輩默默耕耘,前赴后繼,才使得如今之人類齊享先輩之成果,即所謂“前人栽樹后人乘涼”也。

我輩也無需悲觀,須戒驕戒躁,搞算法的就多己見、少盲從,少水論文;搞工程的就多積累經驗,提升實踐能力,多做高質量的項目。功夫不負有心人。

Meta 開源了語言翻譯 AI 模型

Meta(前身是 Facebook)在開源世界做出了不小的貢獻。Meta 除了專注于元宇宙Metaverse和其社交媒體平臺外,還致力于各種研究和創新工作,比如 React(一個 JaveScript 庫)。

現在,Meta 的研究人員決定開源一個叫 “不落下任何語言No Language Left Behind” 項目。

(LCTT 校注:這個直譯項目名稱不夠好聽,我來拋磚引玉,似可稱做“無人獨語”,讀者有什么建議嗎?)

目前,雖然世界上有大約 7000 個在使用中的語言,但大多數在線的內容都是以少數的流行語言來提供的,比如英語。這讓許多不懂這些語言的人處于不利的地位。

雖然現存的許多翻譯工具,但語法錯誤會讓錯誤變得難以閱讀和理解。另外,如果你想把內容翻譯為一個不流行的語言(特別是非洲和亞洲的一些語言),翻譯體驗不會很好。

因此,Meta 正在開發有最高質量的翻譯工具,可以幫助解決這一全球性的問題。

NLLB-200(不落下任何語言No Language Left Behind) 是一個人工智能翻譯模型,其可以翻譯 200 多種語言。該模型在每種語言中的翻譯結果是通過一個名為 FLORES-200 復雜數據集來確定和評估的。

正如 Meta 所說,NLLB 的翻譯結果比以前的人工智能研究方法好 40% 。對于一些最不常見的語言,其翻譯準確率甚至超過 70%。了不起的工作!

為了幫助開發項目和提高模型的翻譯質量,Meta 向所有感興趣的研究人員開放了源代碼,包括 NLLB-200 模型、FLORES-200 數據庫、模型訓練和重建訓練數據庫的代碼。

Meta 宣布向從事聯合國可持續發展目標UN Sustainable Development Goals任何領域工作和翻譯非洲語言的非營利組織和研究人員提供高達 20 萬美元的捐贈,也鼓勵其他學術領域如語言學和機器翻譯的研究人員申請。

盡管 Meta 主要打算在其數字平臺上,特別是在“元宇宙”上使用 NLLB,但 NLLB 也有可能在其他領域產生巨大影響。

許多用戶可以用他們的母語輕松地訪問和閱讀在線資源。項目開源后,社區應該能夠幫助實現這個目標。

你對 Meta 的這個項目有什么看法?

via: 買粉絲s://news.itsfoss.買粉絲/meta-open-source-ai-model/

作者:Rishabh Moharir選題:lkxed譯者:fenglyulin校對:wxy

搜索关键词: