02 facebook權重算法(騰訊算法高級研究員陳松堅:智能問答技術及其應用)

时间:2024-05-20 04:48:15 编辑: 来源:

效的方式。

對于轉發指標,我們可以套用BuzzFeed的病毒傳播系數的計算方式:

四、粉絲增長分析

對于自媒體而言,虛高的粉絲數除了忽悠投資人和廣告主以外,對自身成長是毫無意義的。

想要可持續發展,只有精準的粉絲才有價值。

那什么是精準的粉絲?

我想,應該是指能夠給自媒體帶來變現價值的粉絲。

粉絲增長分析,就是圍繞有變現價值粉絲算的一筆賬:如果一個粉絲能給自媒體帶來5塊的凈利潤,那么花低于5元的成本來購買這個粉絲就是劃算的。

首先,引入三個概念——LTV、CAC和ROI。

LTV(Life Time Value):生命周期總價值。

一個粉絲從關注你的那一天開始到取關或者脫離平臺為止,能夠帶來的收益。

通常按渠道來計算,如果某個渠道或某個平臺的用戶不精準、付費意愿差,那么這個渠道的用戶LTV就相對較低。

CAC(Customer Acquisition Cost):用戶獲取成本。

同樣跟渠道有關,自媒體需要持續的發現低價、優質的渠道,搶占紅利期。

比如2015年初,買粉絲廣點通渠道的買粉絲漲粉,單個用戶獲取成本只有1-2塊錢。

ROI(Return On Investment):投資回報率。

計算公式為(收入-成本)/成本。

應用于粉絲增長場景就是(LTV-CAC)/CAC。

衡量的是:你從一個粉絲身上掙到的錢,是否能夠覆蓋獲取這個粉絲的成本。

通常應該做ROI1的事情,這樣才能夠保證業務的可持續發展。后續也都圍繞這個角度展開。

首先,現身說法,舉一個親身犯下的“人傻錢多”的蠢事。

15年初,買粉絲朋友圈集贊的路數還很火熱,我們也不能免俗,搞了三場集贊有禮的活動。

三場集贊有禮的活動,表面上看起來一面光鮮,各種指標在活動日都有顯著的提升。但是興奮過去之后的分析,卻讓人笑不出來了。

三次活動中,發起活動的老用戶重疊度越來越高,帶來的新用戶越來越少,同時,新用戶的次日留存情況也越來越差。

于是,我們開始反思用戶為什么要參加集贊有禮的互動?唯利爾。

老用戶發起活動,他所帶來的新用戶無非是看一眼品牌廣告,幫朋友支持一下。

如果實物獎品價值還不錯,那么這個新用戶也會發起,但目的在于獎品而非買粉絲。

此外,設計過高的門檻使得有的用戶不樂意參與,有的用戶則自建了群開始互相點贊,達不到拉新的作用。

想要提升用戶增長的ROI,就必須降低新用戶中非精準用戶的比例,從而拉升渠道用戶的LTV,降低用戶獲取成本CAC。

由此入手,我們優化了轉發集贊拉新的方式,新一期集贊活動的禮品是凱叔西游記第二部的部分章節收聽權,每個用戶只需要拉5個用戶就能獲得。

因為是虛擬產品,CAC得到了顯著降低。

而兒童故事音頻跟買粉絲賬號捆綁只能自用,用戶如果不是真有需求就絕不會參與活動,從而提升了新增用戶的精準程度。

在后續的此類活動中,我們都有意識的對禮品的形態進行了控制:

實物禮品用于鼓勵已有的活躍老粉絲,虛擬禮品用于激活和拉新。

運營微博、買粉絲這樣的平臺,我們很容易沉迷于追求短期粉絲數字的飆漲而舉辦各種活動。

某些活動拉新從CAC的角度看或許是劃算的,但深究其所帶來的真實活躍粉絲,就往往會發現ROI遠遠小于1,充其量只能算是一次展示廣告曝光,做了一筆又一筆的蝕本生意。

想要算清楚用戶的ROI,有賴于用戶身份的識別和渠道的追溯。

在這一點上,微博和買粉絲的基礎建設比較完善。

以買粉絲為例,基于平臺提供的二維碼,我們可以追溯不同用戶的來源并標識,就像是安卓應用下載對于不同的應用市場打不同的渠道包一樣。

進而,通過平臺提供的外鏈功能、私信功能,來識別用戶的活躍情況。

對于付費增粉渠道,每隔一段時間暫停一些,比較渠道暫停前后自己粉絲量的增長情況和粉絲閱讀占比、線上活動粉絲參與量情況,建立起對付費渠道更清醒的了解。

通過數據分析的方式,能夠讓我們更加清醒的審視內容創作的消費性好壞,粉絲積累的性價比高低,從而以更經濟的方式提升自己的增長速度。

目標檢測算法(R-CNN,fast R-CNN,faster R-CNN,yolo,SSD,yoloV2,yoloV3)

深度學習目前已經應用到了各個領域,應用場景大體分為三類:物體識別,目標檢測,自然語言處理。  目標檢測可以理解為是物體識別和物體定位的綜合 ,不僅僅要識別出物體屬于哪個分類,更重要的是得到物體在圖片中的具體位置。

2014年R-CNN算法被提出,基本奠定了two-stage方式在目標檢測領域的應用。它的算法結構如下圖

算法步驟如下:

R-CNN較傳統的目標檢測算法獲得了50%的性能提升,在使用VGG-16模型作為物體識別模型情況下,在voc2007數據集上可以取得66%的準確率,已經算還不錯的一個成績了。其最大的問題是速度很慢,內存占用量很大,主要原因有兩個

針對R-CNN的部分問題,2015年微軟提出了Fast R-CNN算法,它主要優化了兩個問題。

R-CNN和fast R-CNN均存在一個問題,那就是 由選擇性搜索來生成候選框,這個算法很慢 。而且R-CNN中生成的2000個左右的候選框全部需要經過一次卷積神經網絡,也就是需要經過2000次左右的CNN網絡,這個是十分耗時的(fast R-CNN已經做了改進,只需要對整圖經過一次CNN網絡)。這也是導致這兩個算法檢測速度較慢的最主要原因。

faster R-CNN 針對這個問題, 提出了RPN網絡來進行候選框的獲取,從而擺脫了選擇性搜索算法,也只需要一次卷積層操作,從而大大提高了識別速度 。這個算法十分復雜,我們會詳細分析。它的基本結構如下圖

主要分為四個步驟:

使用VGG-16卷積模型的網絡結構:

卷積層采用的VGG-16模型,先將PxQ的原始圖片,縮放裁剪為MxN的圖片,然后經過13個買粉絲nv-relu層,其中會穿插4個max-pooling層。所有的卷積的kernel都是3x3的,padding為1,stride為1。pooling層kernel為2x2, padding為0,stride為2。

MxN的圖片,經過卷積層后,變為了(M/16) x (N/16)的feature map了。

faster R-CNN拋棄了R-CNN中的選擇性搜索(selective search)方法,使用RPN層來生成候選框,能極大的提升候選框的生成速度。RPN層先經過3x3的卷積運算,然后分為兩路。一路用來判斷候選框是前景還是背景,它先reshape成一維向量,然后softmax來判斷是前景還是背景,然后reshape恢復為二維feature map。另一路用來確定候選框的位置,通過bounding box regression實現,后面再詳細講。兩路計算結束后,挑選出前景候選框(因為物體在前景中),并利用計算得到的候選框位置,得到我們感興趣的特征子圖proposal。

卷積層提取原始圖像信息,得到了256個feature map,經過RPN層的3x3卷積后,仍然為256個feature map。但是每個點融合了周圍3x3的空間信息。對每個feature map上的一個點,生成k個anchor(k默認為9)。anchor分為前景和背景兩類(我們先不去管它具體是飛機還是汽車,只用區分它是前景還是背景即可)。anchor有[x,y,w,h]四個坐標偏移量,x,y表示中心點坐標,w和h表示寬度和高度。這樣,對于feature map上的每個點,就得到了k個大小形狀各不相同的選區region。

對于生成的anchors,我們首先要判斷它是前景還是背景。由于感興趣的物體位于前景中,故經過這一步之后,我們就可以舍棄背景anchors了。大部分的anchors都是屬于背景,故這一步可以篩選掉很多無用的anchor,從而減少全連接層的計算量。

對于經過了3x3的卷積后得到的256個feature map,先經過1x1的卷積,變換為18個feature map。然后reshape為一維向量,經過softmax判斷是前景還是背景。此處reshape的唯一作用就是讓數據可以進行softmax計算。然后輸出識別得到的前景anchors。

另一路用來確定候選框的位置,也就是anchors的[x,y,w,h]坐標值。如下圖所示,紅色代表我們當前的選區,綠色代表真實的選區。雖然我們當前的選取能夠大概框選出飛機,但離綠色的真實位置和形狀還是有很大差別,故需要對生成的anchors進行調整。這個過程我們稱為bounding box regression。

假設紅色框的坐標為[x,y,w,h], 綠色框,也就是目標框的坐標為[Gx, Gy,Gw,Gh], 我們要建立一個變換,使得[x,y,w,h]能夠變為[Gx, Gy,Gw,Gh]。最簡單的思路是,先做平移,使得中心點接近,然后進行縮放,使得w和h接近。如下:

我們要學習的就是dx dy dw dh這四個變換。由于是線性變換,我們可以用線性回歸來建模。設定loss和優化方法后,就可以利用深度學習進行訓練,并得到模型了。對于空間位置loss,我們一般采用均方差算法,而不是交叉熵(交叉熵使用在分類預測中)。優化方法可以采用自適應梯度下降算法Adam。

得到了前景anchors,并確定了他們的位置和形狀后,我們就可以輸出前景的特征子圖proposal了。步驟如下:

1,得到前景anchors和他們的[x y w h]坐標。

2,按照anchors為前景的不同概率,從大到小排序,選取前pre_nms_topN個anchors,比如前6000個

3,剔除非常小的anchors。

4,通過NMS非極大值抑制,從anchors中找出置信度較高的。這個主要是為了解決選取交疊問題。首先計算每一個選區面積,然后根據他們在softmax中的s買粉絲re(也就是是否為前景的概率)進行排序,將s買粉絲re最大的選區放入隊列中。接下來,計算其余選區與當前最大s買粉絲re選區的IOU(IOU為兩box交集面積除以兩box并集面積,它衡量了兩個box之間重疊程度)。去除IOU大于設定閾值的選區。這樣就解決了選區重疊問題。

5,選取前post_nms_topN個結果作為最終選區proposal進行輸出,比如300個。

經過這一步之后,物體定位應該就基本結束了,剩下的就是物體識別了。

和fast R-CNN中類似,這一層主要解決之前得到的proposal大小形狀各不相同,導致沒法做全連接。全連接計算只能對確定的shape進行運算,故必須使proposal大小形狀變為相同。通過裁剪和縮放的手段,可以解決這個問題,但會帶來信息丟失和圖片形變問題。我們使用ROI pooling可以有效的解決這個問題。

ROI poo

搜索关键词: