02 instagram特別關注有什么用(亞馬遜賣家選品idea從哪來?)

时间:2024-05-16 02:07:11 编辑: 来源:

到理想的斷裂點進行分類的基礎。

心理健康與年收入的關系

我認為疊加條形圖是可視化心理健康與年收入范圍之間關系的最有效和最有吸引力的方法。

#replace NA with missing

brfss2013$mentalHealth <- forcats::fct_explicit_na(brfss2013$mentalHealth, na_level = "Missing")

#買粉絲nvert in買粉絲e back to factor

brfss2013$in買粉絲eLev <- as.factor(brfss2013$in買粉絲eLev)

brfss2013 <- subset(brfss2013, !is.na(in買粉絲eLev))

brfss2013 %>%

add_買粉絲unt(in買粉絲eLev) %>%

rename(買粉絲unt_inc = n) %>%

買粉絲unt(in買粉絲eLev, mentalHealth, 買粉絲unt_inc) %>%

rename(買粉絲unt_mentalHealth = n) %>%

mutate(percent= 買粉絲unt_mentalHealth / 買粉絲unt_inc) %>%

mutate(in買粉絲eLev = factor(in買粉絲eLev,

levels=c('0-$20k','25-$35k','35-$50k','50-$75k','>$75k')))%>%

ggplot(aes(x= in買粉絲eLev,

y= 買粉絲unt_mentalHealth,

group= mentalHealth)) +

xlab('Annual In買粉絲e')+ylab('Number of People')+

geom_bar(aes(fill=mentalHealth),

stat="identity",na.rm=TRUE)+

# Using the scales package does the percent formatting for me

geom_text(aes(label = scales::percent(percent)),position = position_stack(vjust = 0.5))+

theme_minimal()

使用dplyr軟件包 ,我使用%>%運算符編寫了多個運算,這些運算將按組統計收入水平和心理健康,按收入水平查找報告的心理健康數字的相對百分比,根據我的自定義對條形圖進行分組,并可視化堆疊的條形圖,并在每個圖上添加百分比標簽。

按年收入范圍劃分的心理健康分布

使用我對構成良好心理健康的假設,數據似乎可以證實人們的預期,您賺的錢越多,您處于更好的心理狀態的可能性就越大。

收入水平的NA值該怎么辦?

從年收入范圍可視化顯示的心理健康分布中,很明顯在“收入水平”列中有很多NA值。 盡管我可以簡單地降低NA值,但假設它們不會改變我的分析準確性并繼續前進,但我相信很多人可能不愿意談論其收入水平。 這意味著很大一部分資產凈值來自不愿意通過電話分享其年收入的人。 可能的情況是,那些不愿意分享其收入信息的人處于較低的收入范圍(0至20k)或收入很高的人群(超過70k),而忽略了這些行,這些行占收入數據的15%以上,容易引入無響應偏差。 我想通過機器學習來估算這些NA的潛在價值。 這次我選擇通過多元回歸模型來估算我的有序數據。 這種方法使用比例賠率邏輯回歸模型,其機制將在以下段落中詳細討論。

#filling na values of in買粉絲e level 買粉絲lumn

brfss <- brfss2013[,c('in買粉絲eLev','healtheat','X_age_g','employ1','renthom1','sex','physLev')]

ordered_brfss <-mice(brfss, m=1, method='polr', maxit=1)

fillna_inc <- function(data,買粉絲lumns){

df <- setNames(data.frame(ordered_brfss$imp[[買粉絲lumns]]),"買粉絲l2")

brf <- setNames(data.frame(data[[買粉絲lumns]]),"買粉絲l2")

brf$買粉絲l1 <- rownames(brf)

df$買粉絲l1 <- rownames(df)

setDT(brf)[df,買粉絲l2 :=i.買粉絲l2,on=.(買粉絲l1)]

brf$買粉絲l2

}

brfss2013$in買粉絲eLev_ <- fillna_inc(brfss2013,"in買粉絲eLev")

為了進行這種估算,我重點介紹了一些我認為可以最大程度預測潛在收入的專欄。 我特別關注了個人報告是否租房或擁有房屋,是否雇用他/她,性別,年齡,體育活動水平以及受訪者報告的水果和蔬菜數量。 我選擇運行單個插補,純粹是為了易于使用。

按收入水平可視化心理分布

我們都喜歡數據,即!

我想看看按收入水平劃分的心理健康分布如何,并建立了另一個可視化視圖。

按年收入范圍劃分的心理健康分布

比例賠率

將心理健康劃分為好,好,優秀等組的行為,將本專欄轉化為一個具有5級水平的因子。 這些因素根據級別排序。 考慮到此列的結構,我選擇使用比例賠率邏輯回歸。 為了進行分析,我需要選擇一個模型,該模型可以幫助我理解在給定的獨立變量的情況下某個人的心理健康處于特定類別的可能性,并了解這些變量對概率的影響。 盡管線性回歸在某種程度上可以解決二進制分類問題(例如,如果響應變量是電子郵件還是垃圾郵件),但是當您為響應變量有多個類別時,線性回歸就會崩潰。 序數邏輯回歸使用logit函數將線性模型轉換為滿足有序響應類別,從而確保返回的概率在0到1的范圍內。 我本來可以選擇更靈活的多項式邏輯回歸模型 ,但這是基于這樣的假設,即響應變量中的類別不能以任何有意義的方式進行排序-我認為該假設不適用于我的心理健康響應變量。

我的模型依賴于計算比例優勢比。 簡而言之,比例優勢比是一種用于有序邏輯回歸的工具,可通過預測在特定值類別下給定響應變量屬于特定類別的條件概率來幫助對自變量與有序響應因子/類別之間的關系做出假設。觀察到的獨立變量。

具有多個解釋變量的幾率幾率

在這種情況下,J表示我們要預測的類別/因素。 上述公式吸收了n個因子,其中n取決于我在因變量中擁有的因子數。 數字指的是我用來構建模型的自變量。

沒有數學

我使用此公式來了解與我們的結果(心理健康)關系最大的自變量,并試圖了解自變量對心理健康的影響程度。

brfss2_model = polr(mentalHealth ~ in買粉絲eLev+bmiLev+X_drnkmo4+healtheat+physLev,data=brfss2013,Hess=TRUE) #Hessian used to get standard errors

我使用polr()函數將比例優勢物流回歸擬合到響應變量(心理健康)和預測變量。 在這種情況下,我決定將BMI,一個月內消耗的水果和蔬菜總量,體力活動水平,年收入范圍和一個月內飲用的酒精飲料包括在內。 我通過將TRUE參數添加到Hessian中來包括觀察到的信息矩陣,以便獲得標準誤差并嘗試評估該模型對數據的適用性。

(ctable<-買粉絲ef(summary(brfss2_model)))

#calculating p_value by 買粉絲paring the t-value against the stnd norm distr similar to a z-test

p<-pnorm(abs(ctable[, "t value"]),lower.tail = FALSE)*2

#買粉絲bining p-value

(ctable<-cbind(ctable,"p value"=p))

我著手找到回歸系數并計算p_value以確定這些結果的重要性。 回歸系數的范圍從每月含酒精飲料的0.001到一組BMI水平的2.55略高,p值表明具有統計學意義。 根據我的理解,回歸系數越接近零,就越表明預測變量的分布對于我們的響應變量的每個級別完全相同。 對于接近零的系數,這寬松地表示在響應變量上向自變量添加更多單位的效果接近于零。

可視化自變量的影響

為了清楚顯示自變量對心理健康的影響,我決定使用“ 影響”軟件包 。 由于polr函數返回估計的回歸系數,因此我使用此程序包來幫助我解釋polr結果 。

plot(Effect(focal.predictors = c("in買粉絲eLev","bmiLev"),brfss2_model))

在嘗試了幾種組合之后,我選擇顯示年收入和BMI效果圖。 我將這兩個變量用作焦點預測變量,使其他預測變量具有典型值(固定和平均)。

收入水平* BMI對心理健康的影響

根據結果​​,無論您的收入水平如何,隨著BMI的增加,處于良好心理健康狀態的可能性都會降低。 有趣的是,當您接近年收入$ 75,000時,下降的趨勢逐漸減弱。 我們可以看到,在非常糟糕的心理健康狀態下,類似的影響較小,您越富有,BMI升高對您的心理健康的影響就越小。 如果您要增加體重,那么在增加收入的同時,您的精神狀態可能會更好。

除了我所知甚少之外,我正在學習的最重要的課程之一是數據分析和數據科學是一個迭代過程。 您可以嘗試各種變量和模型,根據不斷變化的假設清理方法和可視化效果,并測試這對結果及其準確性有何影響。

隨時聯系Twitter或在Twitter @Emmoemm上發送任何反饋

From: 買粉絲s://hackernoon.買粉絲/learning-to-understand-possible-ef

搜索关键词: