03 instagram可以把粉絲置頂嗎(怎樣在網上發布信息?)

时间:2024-05-21 15:23:31 编辑: 来源:

“今日頭條”既然是依賴于算法推送新聞,那它背后的數據庫必然是強大的,“網頁蜘蛛”和“頭條號”就是支撐今日頭條平臺消息來源的重要渠道,其消息來源極其豐富,何時何地有何新鮮事,都能高效率抓取信息。

第一個消息來源的渠道是“網頁蜘蛛”,“網頁蜘蛛”又叫網頁爬蟲,頭條使用的就是搜索引擎爬蟲叫“Bytespider”。它能按照一定的規則,自動爬行抓取互聯網的信息或腳本,就像蜘蛛通過蛛網進行捕食,當發現新的信息資源,蜘蛛會立刻出動抓取信息內容并將其收入自己的數據庫中。和買粉絲的垂直搜索不同,Bytespider是能夠抓取全網內容的全新搜索引擎,因此“今日頭條”的搜索引擎功能很全面,搜索的資源很廣,資源包容性極高。

Bytespider信息抓取的基本流程如下:首先是網頁抓取。Bytespider順著網頁中的超鏈接,從這個網站爬到另一個網站,通過超鏈接分析連續訪問抓取更多網頁。被抓取的網頁被稱之為網頁快照。由于互聯網中超鏈接的應用很普遍,理論上,從一定范圍的網頁出發,就能搜集到絕大多數的網頁。第二步是處理網頁。搜索引擎抓到網頁后,還要做大量的預處理工作,才能提供檢索服務。其中,最重要的就是提取關鍵詞,建立索引庫和索引。其他還包括消除重復網頁、判斷網頁類型、分析超鏈接、計算網頁的重要度、豐富度等。第三步提供檢索服務。用戶輸入關鍵詞進行檢索,搜索引擎從索引數據庫中找到匹配該關鍵詞的網頁,為了用戶便于判斷,除了網頁標題和URL外,還會提供一段來自網頁的摘要以及其他信息。

3.2 推薦維度之二:用戶分析

用戶分析通過提取用戶的有效數據,如用戶經常瀏覽的文字類型、經常搜索的關鍵字、注冊時登記信息的內容等,算法系統可以將每個用戶的瀏覽記錄、瀏覽時間、留言、評論和轉發等行為進行關鍵字提取,最終形成用戶畫像,以便之后對用戶進行文章和視頻的精準推送。舉個例子,給喜歡閱讀“體育”的用戶標上“體育”標簽;給喜歡“娛樂”的用戶標上“娛樂”的標簽,這一步的作用是給用戶的興趣進行建模,包括用戶對文章和視頻的全局熱度、分類熱度,主題熱度,以及關鍵詞熱度等。熱度信息在大的推薦系統能夠解決新聞冷啟動問題,幫助新聞實現推送。

用戶分析還具有協同特征,它可以在部分程度上幫助解決所謂算法越推越窄的問題。協同特征也就是“聯想式”的推送方法,并非只考慮用戶已有歷史,而是通過用戶行為分析不同用戶間相似性,比如點擊相似、興趣分類相似、主題相似、興趣詞相似,甚至向量相似,從而擴展模型的探索能力。根據用戶之間計算數據的相似程度,把用戶細化分類成為不同的目標群體,再向目標群體集中的推送其感興趣的新聞內容

內容分析和用戶分析是相輔相成的,如果沒有分析的文本標簽,無法得到用戶興趣標簽,沒有用戶的興趣標簽就無法給用戶定位實現精準推送。

3.3 推薦維度之三:環境分析

環境分析就是根據文章的時效性和接近性推送給相應的用戶,比如獲取用戶當前所在位置是否在旅游區,這個可以通過獲取用戶的實時位置來實現。還會不斷與用戶之前經常出現的所在地進行對比等方式確認當前狀態,分析出用戶是在常住地區還是在旅行。這時若系統檢測到用戶正在泰山及周邊游玩,則可能會相應推送泰山的相關文章、周邊的交通新聞和天氣信息等等。

通過上面三個推薦維度可以作為數據基礎,分析當前用戶處于什么環境,結合用戶畫像以及文章的內容分類來推薦,盡量做到推送的內容都是用戶所感興趣的。算法系統還會通過內容分類、分析抽取,把文本相似度高的文章,包括新聞主題、內容相似的文章進行消重,解決推送重復的問題,進一步對目標用戶進行精確且不重復的內容推薦。最后過濾質量低俗色情的內容,以免造成平臺會有負面傾向。

3.4 “今日頭條”新聞推薦算法的價值取向

3.4.1 “用戶為上”

“今日頭條”的算法推送是站在用戶的立場上的,以滿足用戶個性化和推送的精準性,“今日頭條”也重新衡量了新聞價值標準:以用戶為上,用戶對新聞內容和閱讀方式的滿意度便是平臺推送新聞的價值宗旨。傳統媒體時代,只有報紙和電視,有什么受眾就得看什么,而如今“今日頭條”根據用戶興趣去進行推送。算法推送平臺用戶范圍廣,很多用戶熱衷關注負面,也有許多用戶都有窺視欲和好奇心,喜歡無聊八卦和無聊新聞,而且在好奇心作用下用戶都有從眾心理。這使得生產者過度去迎合受眾,只要是用戶喜歡看就可以發表在“今日頭條”上。

3.4.2 “算法主導”

“今日頭條”更注重技術分發,生產者是用戶,受眾者也是用戶,這樣一來內容監管和分發就很困難。算法推送機制根據用戶愛好進行推送,這樣生產的內容快、也無疑會加速內容配送效率。在算法推送模型中,用戶點擊頻率、閱讀時間、點贊評論以及轉發在算法時代都是可以進行量化的目標。在這樣情況下生產的內容,想要獲得較大點擊率和推送率,需要標題才能吸引用戶,因為用戶在平臺一眼能看到的就是標題和配圖。標題和配圖決定用戶是否會打開你的內容,這導致許多內容生產者在編輯新聞標題時陷入標題黨的怪圈,還有導致低俗內容的呈現,以制造沖突制造懸念貼標簽等方式引用戶點擊,意圖把自己的文章做成爆文。對于海量的信息內容,即使今日頭條數據和智能推薦做的再好,目前來說也難以抵擋海量的垃圾信息。

4.算法推送新聞引發的倫理問題

在如今網絡時代的傳播思維中,“用戶為上”、“算法主導”的新聞價值取向已經在算法聚合類平臺成為了普遍,算法推送技術作為吸引用戶的手段,搭建起一個充滿誘導的媒介環境,以此增加用戶對平臺的粘性。算法推送技術在獲取信息、傳播速度等方面與以往相比有著跨時代的進步,但與此同時,由于算法推送技術的加入,衍生出新的倫理問題,并且日漸復雜化。

4.1 算法推送引發的倫理問題

4.1.1 算法推送過于機械化,沒有思考能力

單向的算法推薦對用戶來說經常會帶來內容雜亂無章、信息量過大、信息價值低等問題。從邏輯講,算法只是從關鍵字的檢索匹配來完成統計推薦,但對新聞報道或文學作品具有藝術性、專業性的內容來說,是不能保證推送的質量的。算法方面,目前主要基于匹配檢索與統計,大部分都是個人關注的信息類型和標簽,難以達到較好的推送效果。一千個人眼里有一千個哈姆雷特,但是計算機只有只有一個。算法技術過于注重機械化的統計,只根據關鍵詞來推薦用戶,對我們中國具有博大精深的中國文字文化底蘊,推薦算法是遠遠不夠的。整個新聞客戶端顯得像是一個菜市場,沒有態度、沒有風格,閱讀感受單一化,呈現了碎片化的特點。新聞不只是讓用戶能夠了解身邊發生的新鮮事,還有宣傳正面思想和傳播正能量的作用,新聞應該還要給人們帶來新的思考。讓機器做出正確判斷很簡單,但是讓機器綜合心理學、社會學、乃至某細分領域內的規則做出判斷還要正確地引導受眾則很難,正如現在算法技術還不能完成一篇富有人文性、文學性和批判性的深度報道,它止步在了碎片式的、表層的傳播范疇。

4.1.2 容易引起“信息繭房”效應

“信息繭房”這一概念是凱斯.桑斯坦在《信息烏托邦》一書中提出的。意指受眾在過度的信息自我選擇之中,這樣會降低接觸外界其他信息的可能,從而將自己的生活桎梏于蠶繭一般的“蠶房”中的現象。人們的信息領域會習慣性被自己的興趣引導,信息窄化帶來了受眾對信息接收的單一性,這種單一性的可能會使受眾陷入循環,加重受眾信息同質化。

4.1.3 算法推送的“偽中立性”

客觀和全面是新聞倫理的基本要求,新聞從業者必須從可好信息源來獲取真實的信息,以客觀的態度反應現實。我們慣常認為,互聯網技術服務商是技術中立者,不需要承擔約束大眾媒體的社會責任,然而當信息把關人又新聞編輯轉變為算法工程師,傳統的媒介倫理似乎已經失效。算法具有商業傾向性,“中立性”是算法平臺用以逃避媒體責任的理由,給大眾媒介造成傳播亂象,如此一來更像是一場算法平臺“肆意妄為又不想負責”的詭辯。

算法平臺的信息源是經過選擇和過濾的,“頭條號”的內容占“今日頭條”整個信息系統的絕大部分,然而在“人人都可以做新聞人”的時代,頭條號平臺是一個開放的網絡媒介環境,存在大量的偏見和錯誤的認知。無論是“今日頭條”平臺設立的算法規則,還是其他爬蟲的抓取的關鍵詞,算法系統的信息源很多是具有目的性的、有偏見和非客觀的信息,所以信息源不能直接作用于用戶。因此,篩選算法系統的信息源與傳統的人工編輯相比較,范圍極廣且很難把關,若算法被惡意利用,那么使整個傳播系統將會被輕易控制。

4.1.4 算法推送里的“議程設置”

原議程設置功能揭示的重要內涵是:“受眾對新聞的看法雖然被大眾媒體議程設置功能所主導,但其更深刻的是議程設置給大眾媒體新聞帶來放大與延伸,從而使受眾對新聞選擇做出能動性修正,讓受眾在滿足需求和媒介依賴中逐漸培養出的潛在認同感”。

推送算法技術在互聯網平臺的運用,使原來傳統媒體主導的議程設置過程發生了變化,伴隨著傳播權的轉移、公眾參與度的提高和信息量劇增等原因導致議程設置功逐漸能減弱。過往傳統新聞的內容是由編輯有選擇地進行報道后再呈現在受眾面前的,而個性化新聞推送是用戶自己來選擇看哪一方面的內容,而這一環節中,天然的技術賦權將傳播權從傳統媒體下放至平臺的用戶,使得受眾和社會的連接無需依賴傳統媒介,新聞媒體作為把關人的作用和議程設置功能都在減弱。

4.2 算法新聞治理缺陷下的算法權利異化

算法作為人工智能的基石之一,是“一種有限、確定、有效并適合用計算機程序來實現的解決問題的方法,是計算機科學的基礎”。近年來,伴隨人工智能深度學習算法取得的重大突破和大數據時代的到來,人工智能的應用場景不斷拓展,人工智能時代正逐漸從想象成為現實。借助于海量的大數據和具備強大計算能力的硬件設備,擁有深度學習算法的人工智能機器可以通過自主學習和強化訓練來不斷提升自身的能力,解決很多人類難以有效應對的治理難題。伴隨人工能算法在國家和社會治理中重要性的日漸凸顯,國家和社會對于算法的依賴也逐漸加深,一種新型的權力形態——算法權力也隨之出現。

可以把算法權利分為四種:數據主權、算法設計權、研發的資本權和算法控制權。由于前三種權利都是單向的、算法開發者賦予算法的權利,是屬于算法開發者的,與算法分發平臺呈現的效果沒有直接的影響,所以本文將著重論述算法控制權。

算法控制權是雙向的,用戶是算法技術數據行為的提供者,同時又是被算法技術控制的受害者。例如我們看到“今日頭條”會通過推送算法來監管用戶的發布和瀏覽行為,同時平臺會通過算法決策系統來實現內容的發布去引導用戶。算法控制權當然是一種天然技術賦予的權利,但算法控制權是在用戶提供數據行為的情況下才得以實現的,因此算法控制權既存在內容生產權,同時有要尊重和保護算法相對人的義務。

正因為如此,算法技術被認為是一種雙刃劍,一方面算法能夠做出精準的行為預測,可以為管理者提供非常好的循環干預機制;對于公共行為主體來說,可以通過對大數據的應用來解決社會治理問題,對于私人主體來說可以借助數據來提供個性化和定制化的服務;另一方面,算法技術存在著諸如利益和風險不對稱等問題,而且由于算法技術發展的超前性,新科技的創造者具備不對稱的信息和技術優勢,能夠按照自身利益的需求來塑造在平臺上的算法推送邏輯和社會系統,這帶來了監管的不確定性。人們要通過集體行為去承擔社會責任,通過這樣的方式規制算法權利,可以讓我們能夠對算法分發系統的意義和價值得到更深刻的思考。

搜索关键词: