04 youtube官網 中文新聞文本分析與(2021.1.8浙江首考真題閱讀A篇閱讀文本與原文對比)

时间:2024-05-02 12:50:47 编辑: 来源:

年前或可能10年前,IT人員處理的主要是字母數字數據,它們很容易存儲在關系數據庫中整齊排列的行和列中。現在不再是這樣了。如今,推特和Facebook上的帖子、各種文檔及網頁內容等非結構化數據都是大數據組合的一部分。

列式(或列型)數據庫

一些新一代數據庫(如開源Cassandra和惠普的Vertica數據庫)被設計成了按列存儲數據,而不是像傳統的SQL數據庫那樣按行存儲數據。這種設計提供了更快的磁盤訪問速度,提高了處理大數據時的性能。對數據密集型業務分析應用系統而言,列式數據庫尤其受到歡迎。

數據倉庫

數據倉庫這個概念存在至今已有大概25年了,具體指將數據從多個操作IT系統復制到面向業務分析應用系統的輔助離線數據庫

ETL

將數據從一個數據庫(比如支持銀行應用事務處理系統的數據庫)轉移到另一個數據庫(比如用于業務分析的數據倉庫系統)時,就要用到提取、轉換和加載(ETL)軟件。數據從一個數據庫傳送到另一個數據庫時,常常需要對數據進行重新格式化和清理操作。

由于數據量急劇增長,數據處理速度大大加快,對ETL工具的性能要求也大大提高了。

Flume

Flume是屬于Apache Hadoop大家族(其他技術包括HBase、Hive、Oozie、Pig和Whirr)的一項技術,這種框架用于為Hadoop填充數據。該技術使用散布于應用服務器、Web服務器、移動設備及其他系統上的軟件代理,收集數據,并將數據傳送到Hadoop系統。

比如說,公司可以使用在Web服務器上運行的Apache Flume,收集來自推特帖子的數據,以便分析。

地理空間分析

推動大數據潮流的一個趨勢是,由如今的IT系統生成和收集的地理空間數據越來越多。常言道,一幅圖片的信息量抵得上1000個單詞;所以難怪越來越多的地圖、圖表、照片及其他基于地理位置的內容是導致如今大數據呈爆炸式增長的主要動因。

地理空間分析是一種特殊形式的數據可視化(參閱下面的"可視化"條目),在地理地圖上覆蓋數據,以幫助用戶更清楚地理解大數據分析的結果。

Hadoop

Hadoop是一種開源平臺,用于開發分布式、數據密集型的應用程序。它由Apache軟件基金會控制。

Hadoop的發明者是雅虎公司的開發者道格o卡廷(Doug Cutting),他在谷歌實驗室的MapRece概念這個基礎上開發出了Hadoop,以他兒子的玩具象命名。

另外,HBase是一種非關系數據庫,它是作為Hadoop項目的一部分開發而成的。Hadoop分布式文件系統(HDFS)是Hadoop的一個關鍵組成部分。Hive則是建立在Hadoop基礎上的數據倉庫系統。

內存中數據庫

計算機在處理事務或執行查詢時,一般從磁盤驅動器獲取數據。但是當IT系統處理大數據時,這個過程可能實在太慢。

內存中數據庫系統利用計算機的主內存來存儲經常使用的數據,因而大大縮短了處理時間。內存中數據庫產品包括SAP HANA和甲骨文Times Ten內存中數據庫。

Java

Java是一種編程語言,由現隸屬甲骨文公司的Sun開發,于1995年發布。Hadoop和其他許多大數據技術都是使用Java開發而成的,它仍是大數據領域一種主要的開發技術。

Kafka

Kafka是一種高吞吐量的分布式消息傳送系統,最初是在LinkedIn開發而成,用于管理該服務網站的活動流(關于網站使用情況的數據)和操作數據處理流水線(關于服務器組件的性能)。

Kafka在處理大量流式數據時很有效,而流式數據是許多大數據計算環境的一個關鍵問題。由推特開發的Storm是另一種大行其道的流處理技術。

Apache軟件基金會已將Kafka列為一個開源項目。所以,別以為這是有缺陷的軟件。

延遲時間

延遲時間是指數據從一個點傳送到另一個點過程中的延遲,或者是某個系統(如應用程序)響應另一個系統的延遲數量。

雖然延遲時間不是什么新術語,但是隨著數據量不斷增長,IT系統竭力跟上步伐,如今你更常聽到這個術語。簡單地說,"低延遲"是好事,"高延遲"是壞事。

映射/化簡

映射/化簡(Map/Rece)這種方法是指把一個復雜的問題分解成多個較小的部分,然后將它們分發到多臺計算機上,最后把它們重新組裝成一個答案。

谷歌的搜索系統用到了映射/化簡概念,這家公司有一個品牌名為MapRece的框架。

谷歌在2004年發布的一份白皮書描述了它使用映射/化簡的情況。Hadoop之父道格o卡廷充分認識到了其潛力,開發出了同樣借用映射/化簡概念的第一個版本的Hadoop。

NoSQL數據庫

大多數主流的數據庫(如甲骨文數據庫和微軟SQL Server)基于關系型體系結構,使用結構化查詢語言(SQL)用于開發和數據管理。

但是名為"NoSQL"(有些人現在稱NoSQL表示"不是只有SQL")的新一代數據庫系統基于支持者們認為更適合處理大數據的體系結構。

一些NoSQL數據庫是為提高可擴展性和靈活性設計的,另一些NoSQL數據庫在處理文檔及其他非結構化數據方面比較有效。典型的NoSQL數據庫包括Hadoop/HBase、Cassandra、MongoDB和CouchDB,而甲骨文等一些知名開發商已推出了各自的NoSQL產品。

Oozie

Apache Oozie是一種開源工作流引擎,用于幫助管理面向Hadoop的處理工作。使用Oozie,一系列工作可以用多種語言(如Pig和MapRece)來加以定義,然后彼此關聯起來。比如說,一旦從操作應用程序收集數據的作業已完成,程序員就可以啟動數據分析查詢任務。

Pig

Pig是Apache軟件基金會的另一個項目,這個平臺用于分析龐大的數據集。就其本質而言,Pig是一種編程語言,可用于開發在Hadoop上運行的并行計算查詢。

定量數據分析

定量數據分析是指使用復雜的數學或統計模型,解釋金融和商業行為,或者甚至預測未來的行為。

一個問題是,擁有這種分析技能的人才嚴重匱乏。知名買粉絲公司麥肯錫表示,光美國就需要150萬名擁有大數據分析技能的分析員和管理員。

關系數據庫

關系數據庫管理系統(RDBM)是如今使用最廣泛的一種數據庫,包括IBM的DB2、微軟的SQL Server和甲骨文數據庫。從銀行應用系統、零售店的銷售點系統到庫存管理應用軟件,大多數的企業事務處理系統都在RDBM上運行。

但有些人認為,關系數據庫可能跟不上如今數據量和種類都呈爆炸式增長的形勢。比如說,RDBM當初在設計時著眼于處理字母數字數據,處理非結構化數據時不是同樣有效。

分片

隨著數據庫變得越來越龐大,處理起來也變得越來越困難。分片(sharding)是一種數據庫分區技術,把數據庫分成了更小、更容易管理的部分。具體來說,數據庫被橫向分區,以便單獨管理數據庫表中的不同行。

分片方法讓龐大數據庫的片段可以分布在多臺服務器上,從而提高數據庫的整體運行速度和性能。

另外,Sqoop是一種開源工具,用于將來自非Hadoop來源(如關系數據庫)的數據轉移到Hadoop環境。

文本分析

導致大數據問題的因素之一是,從推特和Facebook等社交媒體網站、外部新聞源,甚至公司內部收集而來以便分析的文本數量越來越多。由于文本是非結構化數據(不像通常存儲在關系數據庫中的結構化數據),主流的業務分析工具面對文本時常常束手無策。

文本分析采用了一系列方法(關鍵字搜索、統計分析法和語言研究法等),從基于文本的數據中獲得洞察力。

非結構化數據

就在不久前,大部分數據還是結構化數據,這種字母數字信息(如來自銷售交易的財務數據)很容易存儲在關系數據庫中,并由商業智能工具來分析。

但是如今共計2.7澤字節的存儲數據中很大一部分是非結構化數據,比如基于文本的文檔、推特消息、發布在Flickr上的照片、發布在YouTube上的視頻,等等。(頗有意思的是,每分鐘有長達35個小時的視頻內容上傳到YouTube。)處理、存儲和分析所有這些凌亂的非結構化數據常常是如今的IT系統面臨的難題。

可視化

隨著數據量的增長,人們使用靜態的圖表和圖形來理解數據越來越困難了。這就導致開發新一代的數據可視化和分析工具,能夠以新的方式呈現數據,從而幫助人們理解海量信息。

這些工具包括:標以色碼的熱圖,三維圖形,顯示一段時間內變化的動畫可視化,以及在地理地圖上覆蓋數據的地理空間呈現。今天的先進數據可視化工具還具有更強的互動性,比如允許用戶放大某個數據子集,進行更仔細的檢查。

Whirr

Apache Whirr是一組Java類庫,用于運行大數據云服務。更確切地說,它可以加快在亞馬遜彈性計算云(EC2)和Rackspace等虛擬基礎設施上開發Hadoop集群的過程。

XML

可擴展標記語言(XML)用來傳輸和存儲數據(別與HTML混為一談,后者用來顯示數據)。借助XML,程序員們就可以創建通用的數據格式,并通過互聯網共享信息和格式。

由于XML文檔可能非常龐大、復雜,它們往往被認為導致IT部門面臨大數據挑戰。

堯字節

堯字節(yottabyte)是一種數據存儲度量指標,相當于1000澤字節。據知名調研機構IDC公司估計,今年全球存儲的數據總量預計將達到2.7澤字節,比2011年增長48%。所以,我們離達到堯字節這個大關還有很長一段路,不過從目前大數據的增長速度來看,那一天的到來可能比我們想象的要快。

順便說一下,1澤字節相當于1021字節的數據。它相當于1000艾字節(EB)、100萬拍字節(PB)和10億太字節(TB)。

ZooKeeper

ZooKeeper是由Apache軟件基金會創建的一項服務,旨在幫助Hadoop用戶管理和協調跨分布式網絡的Hadoop節點。

ZooKeeper與HBase緊密集成,而HBase是與Hadoop有關的數據庫。ZooKeeper是一項集中式服務,用于維護配置信息、命名服務、分布式同步及其他群組服務。IT管理人員用它來實現可靠的消息傳遞機制、同步流程執行及實施冗余服務。

現在西方青少年的生活和心理

我對樓上的無語了

我找了那么久

我又沒說是自

搜索关键词: