03 youtube 買粉絲 music 買粉絲s(Hive實戰之Youtube數據集)

时间:2024-05-12 18:48:03 编辑: 来源:

://買粉絲.lysator.liu.se/herzeleid/買粉絲/bizarre_festival_1997/01_-_Tier.mpg

買粉絲://買粉絲.lysator.liu.se/herzeleid/買粉絲/bizarre_festival_1997/02_-_Bestrafe_mich.mpg

買粉絲://買粉絲.lysator.liu.se/herzeleid/買粉絲/bizarre_festival_1997/03_-_Du_riechst_so_gut.mpg

買粉絲://買粉絲.lysator.liu.se/herzeleid/買粉絲/bizarre_festival_1997/04_-_Du_hast.mpg

買粉絲://買粉絲.lysator.liu.se/herzeleid/買粉絲/bizarre_festival_1997/05_-_Sehnsucht.mpg

買粉絲://買粉絲.lysator.liu.se/herzeleid/買粉絲/bizarre_festival_1997/06_-_Bueck_dich.mpg

買粉絲://買粉絲.lysator.liu.se/herzeleid/買粉絲/bizarre_festival_1997/07_-_Asche_zu_Asche.mpg

買粉絲://買粉絲.lysator.liu.se/herzeleid/買粉絲/bizarre_festival_1997/08_-_Seemann.mpg

買粉絲://買粉絲.lysator.liu.se/herzeleid/買粉絲/bizarre_festival_1997/09_-_Spiel_mit_mir.mpg

買粉絲://買粉絲.lysator.liu.se/herzeleid/買粉絲/bizarre_festival_1997/11_-_Der_Meister.mpg

買粉絲://買粉絲.lysator.liu.se/herzeleid/買粉絲/bizarre_festival_1997/10_-_Heirate_mich.mpg

買粉絲://買粉絲.lysator.liu.se/herzeleid/買粉絲/bizarre_festival_1997/12_-_Laichzeit.mpg

買粉絲://買粉絲.lysator.liu.se/herzeleid/買粉絲/bizarre_festival_1997/13_-_Engel.mpg

買粉絲://買粉絲.lysator.liu.se/herzeleid/買粉絲/bizarre_festival_1997/13_-_Engel.mpg

買粉絲://買粉絲.lysator.liu.se/herzeleid/買粉絲/bizarre_festival_1997/14_-_Rammstein.mpg

買粉絲://買粉絲.lysator.liu.se/herzeleid/買粉絲/bizarre_festival_1997/15_-_Wollt_ihr_das_Bett_in_Flammen_sehen.mpg

買粉絲://買粉絲.lysator.liu.se/herzeleid/買粉絲/misc/Engel_-_Live_at_the_Hultsfred_Festival_1997.rm

買粉絲://herzeleid.買粉絲/files/買粉絲/1996_-_schwarzes_glas.rm

悉尼演唱會

買粉絲://買粉絲.lysator.liu.se/herzeleid/買粉絲/bdo_sydney/bestrafe_mich.mpg

買粉絲://買粉絲.lysator.liu.se/herzeleid/買粉絲/bdo_sydney/_hast.mpg

買粉絲://買粉絲.lysator.liu.se/herzeleid/買粉絲/bdo_sydney/heirate_mich.mpg 買粉絲://買粉絲.lysator.liu.se/herzeleid/買粉絲/bdo_sydney/links_234.mpg 買粉絲://買粉絲.lysator.liu.se/herzeleid/買粉絲/bdo_sydney/rammstein.mpg

98年歐洲MTV頒獎典禮上的live:

買粉絲://買粉絲.lysator.liu.se/herzeleid/買粉絲/misc/Du_hast_-_Live_at_mtv_euro_music_awards_1998.rm

MV

買粉絲://買粉絲.cs.toxic.買粉絲.pl/rammstein/pl/download/wideo/_riechst_so_gut_95.avi

買粉絲://買粉絲.cs.toxic.買粉絲.pl/rammstein/pl/download/wideo/engel.avi 買粉絲://lupo.homedns.org/買粉絲s/clips/Rammstein%20-%20Du%20riechst%20so%20gut.mpeg

買粉絲://lupo.homedns.org/買粉絲s/clips/Rammstein%20-%20Du%20Hast.mpeg

買粉絲://買粉絲.ceskyinterier.cz/temp/Ohne_Dich.zip

買粉絲://買粉絲.greenways.eclipse.買粉絲.uk/買粉絲/links234.mpeg 買粉絲://買粉絲.cs.toxic.買粉絲.pl/rammstein/pl/download/wideo/seemann.avi

買粉絲://買粉絲.cs.toxic.買粉絲.pl/rammstein/pl/download/wideo/feuer_frei.avi 買粉絲://blacklyrics.20fr.買粉絲/買粉絲s/amerika.zip 買粉絲://rx7.cyberosity.買粉絲/87GTR/mp3/Rammstein-Ich_Will.mpg 買粉絲://買粉絲.iol.ie/~pearse14/mb/rammstein-mein_teil-LeTHaL81-mb.mpg

買粉絲://買粉絲.astro-jawil.teleskopy.pl/買粉絲/tele/Rammstein%20-%20Sonne%20Diabloator.mpg

買粉絲://power買粉絲work.買粉絲.fr/tv/買粉絲/Rammstein-Mutter.mpeg

一些別的演唱會

買粉絲://買粉絲.lysator.liu.se/herzeleid/買粉絲/misc/Du_hast_-_Live_at_mtv_euro_music_awards_1998.mpg

買粉絲://買粉絲.lysator.liu.se/herzeleid/買粉絲/misc/Engel_-_Live_at_the_Hultsfred_Festival_1997.mpg

買粉絲://買粉絲.lysator.liu.se/herzeleid/買粉絲/misc/Links_234_-_Live_in_Berlin_5-19-01.mpg

買粉絲://買粉絲.lysator.liu.se/herzeleid/買粉絲/misc/Mein_Herz_brennt_and_Interview(Paris_11-30-01).mpg

02. Mann gegen Mann

買粉絲://rds.yahoo.買粉絲/S=96781308/K=RAMMSTEIN/v=2/OID=d74a454e93f05c14/SID=e/l=VDP/SIG=1227bafo8/EXP=1140588350/*-買粉絲%3A//216.86.150.60/買粉絲s/0/357200_baf0a.wmv

Rammstein--04現場

買粉絲://買粉絲.haopy.買粉絲/index.asp?lianjie=買粉絲/2006_down.asp?

Benzin

買粉絲://買粉絲.youtube.買粉絲/watch?v=px-hL4UO88o&search=Benzin%20%20

Rosenrot

買粉絲://買粉絲.youtube.買粉絲/watch?v=seL-fSCUjUY&search=Rosenrot%20%20

Mann gegen Mann

買粉絲://買粉絲.youtube.買粉絲/watch?v=aurQitzh8fU&search=Mann%20gegen%20Mann%20

Hive實戰之Youtube數據集

本次實戰的數據來自于"YouTube視頻統計與社交網絡"的數據集,是西蒙弗雷澤大學計算機學院在2008年所爬取的數據

數據集地址

數據之間采用"\t"作為分隔符

具體數據如下:

數據量大小為1G,條數為500萬+

使用環境為

hive-1.1.0-cdh5.4.5

hadoop-2.6.0-cdh5.4.5

演示形式為使用hive shell

我們一起來看看數據

主要的問題在于category和relatedIDs處理,由于Hive是支持array格式的,所以我們想到的是使用array來存儲category和relatedIDs,但是我們發現category的分割符是"&"而realatedIDs的分隔符是"\t",我們在創建表格的時候能夠指定array的分隔符,但是只能指定一個,所以再將數據導入到Hive表格之前我們需要對數據進行一定轉換和清洗

并且數據中肯定會存在一些不完整數據和一些奇怪的格式,所以數據的清洗是必要的,我在這里所使用的數據清洗方式是使用Spark進行清洗,也可以使用自定義UDF函數來進行清洗

數據清洗注意點

1)我們可以看到每行數據以"\t"作為分隔符,每行有十列數據,最后一列關聯ID可以為空,那么我們對數據進行split之后數組的大小要大于8

2)數據中存在 "uNiKXDA8eyQ KRQE 1035 News & Politics 107" 這樣格式的數據,所以在處理category時需要注意 News & Politics中間的 &

處理后的數據如下:

下面的實戰都是基于數據清洗后的數據進行的

1)youtube1的創建,文件格式為textf

搜索关键词: