1. 程式人生 > >【秋招】今日頭條_資料分析崗_面試題整理

【秋招】今日頭條_資料分析崗_面試題整理

1. 做自我介紹,著重介紹跟資料分析相關的經驗,還有自己為什麼要做資料分析

略。

2. 如果次日使用者留存率下降了 5%該怎麼分析

    1)首先採用“兩層模型”分析:對使用者進行細分,包括新老、渠道、活動、畫像等多個維度,然後分別計算每個維度下不同使用者的次日留存率。通過這種方法定位到導致留存率下降的使用者群體是誰

    2)對於目標群體次日留存下降問題,具體情況具體分析。具體分析可以採用“內部-外部”因素考慮,內部因素分為獲客(渠道質量低、活動獲取非目標使用者)、滿足需求(新功能改動引發某類使用者不滿)、提活手段(簽到等提活手段沒打成目標、產品自然使用週期低導致上次獲得的大量使用者短期內不需要再使用等);外部因素採用PEST分析,政治(政策影響)、經濟(短期內主要是競爭環境,如對競爭對手的活動)、社會(輿論壓力、使用者生活方式變化、消費心理變化、價值觀變化等偏好變化)、技術(創新解決方案的出現、分銷渠道變化等)

3. 關於假設檢驗的問題,然而我並沒有答上來,面試官說沒關係

假設檢驗的基本原理是:全稱命題不能證明但可以被證偽。

令我們研究假設的相反假設為原假設,認為我們研究假設的發生是小概率事件。

如果我們的觀察值是研究假設,那麼認為可以排除原假設,我們的研究假設並不是小概率事件。

4. 問了筆試中的題目為什麼沒做,現場做

略。

5. 對今日頭條的看法

略。

6. 關於取樣的問題

略。

7. 賣玉米如何提高收益,價格提高多少才能獲取最大收益

收益 = 單價*銷售量,那麼我們的策略是提高單位溢價或者提高銷售規模。

提高單位溢價的方法:品牌打造獲得長期溢價,但缺陷是需要大量前期營銷投入;加工商品佔據價值鏈更多環節,如熟玉米、玉米汁、玉米蛋白粉;重定位商品,如禮品化等;價格歧視,根據價格敏感度對不同使用者採用不同定價。

銷售量=流量*轉化率,上述提高單位溢價的方法可能對流量產生影響,也可能對轉化率產生影響。

那麼 收益 = 單價*流量*轉化率,短期內能規模化採用的應該是進行價格歧視,如不同時間、不同商圈的玉米價格不同,採取高定價,然後對價格敏感的使用者提供優惠券等。

8. 類比到頭條的收益,頭條放多少廣告可以獲得最大收益,不需要真的計算,只要有個思路就行

收益 = 出價*流量*點選率*有效轉化率,放廣告的數量會在提高流量,但會降低匹配程度,因此降低點選率。最大收益是找到這個乘積的最大值,是一個有約束條件的最優化問題。

同時參考價格歧視方案,可以對不同的使用者投放不同數量的廣告。

9. 最後問頭條的使用感受

略。

10. 為什麼做資料分析

略。

11. 自己的優缺點

略。

12. APP啟用量的來源渠道很多,怎樣對來源渠道變化大的進行預警

    1)如果渠道使用時間較長,認為渠道的app啟用量滿足一個分佈,比較可能是正態分佈。求平均值和標準差,對於今日數值與均值差大於3/2/1個標準差的渠道進行預警

    2)對於短期的新渠道,直接與均值進行對比。

13. 使用者剛進來APP的時候會選擇屬性,怎樣在保證有完整使用者資訊的同時讓使用者流失減少

採用技術接受模型(TAM)來分析,影響使用者接受選擇屬性這件事的主要因素有:

    1)感知有用性:

        a. 文案告知使用者選擇屬效能給使用者帶來的好處

    2)感知易用性:

        a. 關聯使用者第三方賬號(如微博),可以冷啟動階段匹配使用者更有可能選擇的屬性,推薦使用者選擇

    b. 互動性做好

    3)使用者態度:使用者對填寫資訊的態度

        a. 這裡需要允許使用者跳過,後續再提醒使用者填寫

        b. 告知使用者填寫的資訊會受到很好的保護

    4)行為意圖:使用者使用APP的目的性,難以控制

    5)外部變數:如操作時間、操作環境等,這裡難以控制

14. 男生點選率增加,女生點選率增加,總體為何減少

因為男女的點選率可能有較大差異,同時低點選率群體的佔比增大。

如原來男性20人,點選1人;女性100人,點選99人,總點選率100/120。

現在男性100人,點選6人;女性20人,點選20人,總點選率26/120。

即那個段子“A系中智商最低的人去讀B,同時提高了A系和B系的平均智商。”

15. 立方體每面抽掉一層非稜角部分,面積和體積的變化

看不懂題意。

16. F檢驗是幹嘛的

    1)F檢驗是檢驗兩個正態分佈的樣本的方差是否存在顯著差異

    2)也可以用於對多組樣本之間比較

    3)計量中,F檢驗原假設所有自變數對因變數都沒有影響,排除原假設說明至少有一個自變數對因變數有影響

17. 如何識別作弊使用者(爬蟲程式, 或者渠道偽造的假使用者)

分類問題可以用機器學習的方法去解決,下面是我目前想到的特徵:

    1)渠道特徵:渠道、渠道次日留存率、渠道流量以及各種比率特徵

    2)環境特徵:裝置(一般偽造假使用者的工作坊以低端機為主)、系統(刷量工作坊一般系統更新較慢)、wifi使用情況、使用時間、來源地區、ip是否進過黑名單

    3)使用者行為特徵:訪問時長、訪問頁面、使用間隔、次日留存、活躍時間、頁面跳轉行為(假使用者的行為要麼過於一致,要麼過於隨機)、頁面使用行為(正常使用者對圖片的點選也是有分佈的,假使用者的行為容易過於隨機)

    4)異常特徵:裝置號異常(頻繁重置idfa)、ip異常(異地訪問)、行為異常(突然大量點選廣告、點贊)、資料包不完整等

18. 如何學習新知識? (思路大概就是利用什麼渠道,怎麼獲取)

19. 行儲存和列儲存的區別

    1)行儲存:傳統資料庫的儲存方式,同一張表內的資料放在一起,插入更新很快。缺點是每次查詢即使只涉及幾列,也要把所有資料讀取

    2)列儲存:OLAP等情況下,將資料按照列儲存會更高效,每一列都可以成為索引,投影很高效。缺點是查詢是選擇完成時,需要對選擇的列進行重新組裝。

“當你的核心業務是 OLTP 時,一個行式資料庫,再加上優化操作,可能是個最好的選擇。

當你的核心業務是 OLAP 時,一個列式資料庫,絕對是更好的選擇”