1. 程式人生 > >從移動為例,看運營商的大資料能力

從移動為例,看運營商的大資料能力

備註:此部落格轉載自科技雜談,原地址請點選此處

【摘要】本文以中國行動通訊集團浙江有限公司為例,從平臺、資料和技術3方面闡述了運營商的大資料能力。




| 科 技 | 雜 談 |

中國通訊行業第一自媒體



本文作者:三墩IT人

本文來源:三墩IT人(SanDunIT)

雜談投稿郵箱:[email protected]


1 引言


隨著網際網路業務和應用的迅猛發展以及移動網際網路的爆炸式增長,電信運營商客戶基礎屬性、行為資料、信令資料和終端資料等海量資料的儲存與分析日益成為電信運營商的重要挑戰,大資料技術的出現與機器學習的發展為電信運營商深挖資料提供了新的技術手段,同時也為其更好地服務客戶提供了新的機遇。


運營商通過大資料平臺的建設、海量資料的載入、豐富的畫像標籤沉澱以及上層機器學習演算法的深入研究,針對幾大相關行業進行了深入探索和實踐,也推出了系列創新產品,在支撐金融風險控制、使用者徵信領域和商業決策等方面發揮著越來越重要的作用。


本文以中國行動通訊集團浙江有限公司為例,從平臺、資料和技術3方面闡述了運營商的大資料能力,並結合企業實踐和探索,分享了浙江移動在移動信用評分和智慧選址產品的案例。


2 大資料基礎能力


2.1 平臺架構


中國行動通訊集團浙江有限公司(以下簡稱浙江移動)大資料平臺經過兩期建設,已建成Hadoop、MPP、流處理和記憶體資料庫等平臺,叢集規模已達1400+,日均處理離線資料100多TB、實時資料千億條,融合了OSS(operation support system ,運營支撐系統)、BOSS(business support system ,業務支撐系統) 、MSS(management support system ,管理支撐系統)三域內部資料+網際網路外採多維資料,為大資料應用提供有力的PaaS能力支撐。浙江移動大資料平臺如圖1所示。


圖1 浙江移動大資料平臺


2.2 資料標籤能力


運營商在資料方面天然具有優勢,擁有壟斷的通話關係網資料,最實時、最全面的位置資料,最豐富的上網行為資料,最全面的終端行為資料,最權威的使用者身份資訊資料,最詳細的通訊消費資料。以下是各類資料的特點和價值。


(1)通話關係網資料


通話社交關係資料:基於通話交往圈的大小、主被叫及時間規律,就掌握了任何一個使用者的社交特徵,比如某人的影響力,人與人之間的親密程度,人群之間的上下屬關係,甚至可以得到人脈路徑。


通話時序資料:通話的頻次、時序、時長及對端等重要資料,又可以用來挖掘使用者的性格甚至身份特質,作息規律等。


(2)位置資料


全方位的信令位置資料:運營商的位置資料不單單是需要通話、上網、簡訊才能獲取,而是通過定期基站切換、週期性位置上報而直接獲取使用者全方位位置資料,不依賴使用者是否登入使用某一手機應用,這是較GPRS(general packetradio service,通用分組無線服務技術)定位最大的優勢。


實時性強:具備實時的流處理分鐘級的使用者位置資料,可用於各類實時位置服務應用。


(3)上網資料


擁有移動使用者手機上網的所有行為資料,經過DPI(deeppacket inspection,深度分組檢測技術)內容解析,網際網路商品最深可到7級,APP(application,應用程式)識別近9000個;


使用者搜尋行為資料:使用者手機上的搜尋行為是使用者近期最強的需求指向,只要進行語義解析並結合一定的知識庫,就可以在精確營銷中發揮巨大價值。


(4)使用者終端資訊


使用者使用的終端資訊:包括型號,品牌,換機頻次,品牌忠誠度等,可以掌握終端市場,可以從終端看使用者檔次;


使用者換機軌跡:可以用於分析終端品牌之間的流向。


(5)身份資訊資料


實名制普遍推廣後,運營商的身份資料質量極高,包括身份證號碼、姓名等真實資訊。


(6)通訊消費資料


使用者每月的通訊支出、支出分佈、充值情況、充值頻次等,一定程度上可以體現使用者的消費習慣,收入水平。


基於使用者畫像維度和運營商資料特點,標籤體系從上往下結構化分為七大類60小類,分別從客戶的基礎屬性、通訊屬性、習慣偏好、社交關係、App行為、線上事件和位置軌跡進行展現,標籤規模突破了10萬。浙江移動標籤體系如圖2所示。


圖2 浙江移動標籤體系


2.3 技術能力


(1)雲爬蟲平臺


為豐富資料型別和規模,浙江移動自主研發了雲爬蟲平臺來獲取外部資料並提供分詞和自然語言的解析能力。雲爬蟲平臺可以抓取一切呼叫API訪問的網站內容,支援定製化的垂直爬取需求,租戶能夠自主指定各主流網站所要爬取的資料。目前,雲爬蟲平臺可實現日均1億URL的採集量,有效爬取資料儲存能力大於500TB,日均處理請求1500萬+,日均爬取資料量超過2TB。目前已採集了工商企信、個人徵信和POI(point of interest,興趣點)等外部資訊。


(2)MR精準定位


MR(measurementreport,測量報告)精準定位模型利用MR和OTT(over the top,通過網際網路向用戶提供各種應用服務)資料,通過定位演算法對移動終端使用者進行精準定位,能夠精確到50m以內,可精準輸出目標使用者的位置規律,為解讀使用者的位置行為研究提供資料保障。當前,浙江移動的MR精準定位模型已經開展全量資料處理和試用,定位精度從基站的300~500m可有效提升到50~100m,定位誤差達到商用要求。


(3)DPI深度解析技術


浙江移動運用DPI針對每天500億網頁進行解析,已解析9000+款App,涵蓋金融、購物、遊戲、娛樂、閱讀等19大類,網頁內容解析後,識別圖書、視訊、音樂、資訊、商品、點評等26大類8000細類。


3  運營商大資料案例分享


3.1移動信用評分應用


3.1.1專案背景


隨著P2P市場的野蠻生長和消費金融在中國的興起,個人徵信市場的需求大幅爆發。在2015年1月,央行釋出通知要求芝麻信用、騰訊徵信等8家公司機構做好個人徵信的準備工作,這一舉動說明徵信業正式向市場化發展,同時,也標誌著中國徵信業正式進入2.0時代。2.0時代的個人徵信業存在兩個特徵:一是徵信機構的多元主體化,徵信牌照的發放使更多的機構進入市場,這有利於豐富和完善個人徵信的服務體系;二是技術產品的創新,隨著大資料的到來,資料規模越來越多,在徵信資料來源和徵信模型方面都有較多的創新和突破,徵信體系有很多的改善空間。


中國移動擁有全國近10億使用者的通訊行為資料、使用者位置資料及全網移動網際網路資料以及公共事業單位擁有的日常支付消費資料。這些資料擁有全面性、及時性、形式多樣性和可信度高等優勢。中國移動可以依據多年積累的大資料技術,充分應用這些資料搭建個人徵信評分體系,用於服務自身傳統業務運營以及提供給其他徵信金融機構作為個人信用評估標準或徵信資料來源的補充。


3.1.2模型介紹


浙江移動在充分借鑑FICO、芝麻信用等行業標杆先進做法的基礎上,基於浙江移動的大資料平臺,充分整合客戶身份、通話、上網和位置等核心資料,利用決策樹、邏輯迴歸和隨機森林等資料探勘模型,從身份特徵、消費能力、行為偏好、人脈關係和信用記錄五個維度構建客戶信用評分模型,實現了對客戶信用的客觀評價,並通過欠費、壞賬、行業違約等資料的驗證,來不斷迭代和優化模型。移動信用評分體系如圖3所示,移動信用評分建模過程如圖4所示。


圖3移動信用評分體系


圖4移動信用評分建模過程


3.1.3模型效果


模型在測試樣本下預測的準確率如圖5所示。圖中可以看出,該模型ROC曲線的AUC值能達到80%,說明模型預測效果不錯。模型在測試樣本下K-S曲線如圖6所示。從測試樣本的K-S曲線來看,個人信用分的最大K-S值能達到0.7,區分度較好。


圖5模型在測試樣本下預測的準確率


圖6模型在測試樣本下K-S曲線


3.1.4產品應用


浙江移動首選欠費免停機場景作為試點業務啟動,針對不同的星級客戶給予了不同的信用額度(透支額度)。當客戶產生的欠費在信用額度內時,對使用者進行停機操作。通過該試點業務,在當前的星級體系下找出星級較低但是信用分較高的群體,賦予他們更高的信用額度,以減少使用者的停機可能,提升收入同時控制欠費風險。


(1)目標客戶撈取


從客戶星級和信用分兩個維度綜合考慮欠費率情況,最終撈取信用分在700分以上,但星級在五星以下的客戶提供免停機服務。


(2)信用額度調整


針對目標客戶群體,根據不同的信用分等級,將其提升至不同檔次的信用額度。高信用低星級使用者信用額度調整規則如圖7所示。


圖7高信用低星級使用者信用額度調整規則


(3)目標使用者體驗


基於信用的話費透支額度提升體驗活動於8月1日開始在浙江多地開展,目標使用者中隨機選取使用者進行外呼,8月份累計外呼25.6萬人,其中接通11.3萬人,成功7.1萬人,最終轉化率為27.6%。在8月份期間,共有2.2萬人使用了話費透支服務(即8月份發生過欠費),佔所有參與活動客戶33%。


應用成效顯著,主要體現在以下方面:停機得到明顯改善。由於信用額度的提升,停機使用者數下降98%以上,客戶的服務感知得到了提升和改善。收入提升顯著。為了排除自然增長等因素的影響,與全省同條件且未參加活動的使用者相比,參加活動的使用者8月份ARPU(averagerevenue per user,使用者平均收入)提升2.17元。欠費風險較低。活動客戶8月的欠費率為0.49%(39天后),顯著小於全網客戶同期的欠費率1.1%。


3.1.5產品展望


基於信用評分應用浙江公司當前已規劃了六大基於信用分的場景,對內逐步從欠費免停機、國內漫漫免預存、信用購機方面開展;對外將從消費貸、免押金騎行和酒店信用住等領域拓展合作。


3.2智慧選址


3.2.1專案背景


選址一直是實體商業、城市規劃、基礎設施建設領域的重要課題。目前,在學術界一直有非常廣泛的研究和探索。才鑫等主要基於行動通訊使用者的上網資料、通話資料及位置更新資料對使用者社會化行為進行有效分析,通過對具有相似興趣的使用者軌跡進行聚類、預測及視覺化顯示,來進行商業選址,而沒有將交通、環境、競爭等因素考慮進去;同時,並不能解決系統自動決策網點位置的問題。黎夏等將遺傳演算法、蟻群演算法、粒子群演算法等人工智慧演算法應用到多點選址問題中; 黎海波等利用多目標粒子群優化演算法和區域形狀變異演算法相結合來解決複雜的空間選址問題,取得了較好的效果。但這些都是基於GIS(geographic information system,地理資訊系統)體系的POI(point of information,資訊點)資料體系來構建的選址體系,都沒有考慮人類活動的因素,造成選址結果與人們真實需要往往存在一定差距。隨著資訊科技的發展,手機信令資料、社交網路資料等大資料漸漸發揮出重要的作用,大資料技術就是將原本看起來很難利用的資料抽絲剝繭,發現其中的真正內涵,整合多方資料進行選址也成為可能。


浙江移動大資料體系目前已經整合使用者特徵資料、使用者通訊行為資料、使用者位置資料、使用者網際網路行為資料以及外部的POI資料和商業網點資料,形成了涵蓋地理空間、產業和居民的全量資料體系,具備了進行智慧選址的資料基礎。同時,鑑於目前大量的選址研究還僅僅是停留在GIS熱力圖展示的定性化研究的現狀,本文將基於浙江移動大資料建模和分析平臺能力,結合全量資料體系,提出基於地理資料、產業資料和使用者資料的智慧選址體系,對傳統的單純基於POI或“人”的選址方法進行優化補充,構建智慧推薦和決策的選址系統。


3.2.2方案介紹


整合信令位置、客戶特徵、POI 3方面資料,採用分散式+MPP並行資料處理架構,構建基於地圖網格式分析模型,實現智慧選址應用。為規模性的連鎖機構或高價值、低頻次的大型商場提供商圈初篩、商圈分析、商圈對比等功能,輔助商家決策更加合適的選址點。對內提供區域客戶對實體渠道、擺攤方式的需求評估、周邊客戶的效能評估、競爭環境監測與分析等能力,輔助評估備選點是否適合開實體渠道或進行擺攤。對內對外均可通過特徵選取、匯入客群、相似客群挖掘3種方式提取潛在客戶,採用圖形化介面展示目標客戶的特徵和分佈,便於選擇最佳營銷觸點方式和營銷策略,力求更科學的精準營銷,只能選址產品技術如圖8所示。


圖8智慧選址產品技術


3.2.3應用效果


選址應用在對外應用方面,已經與房地產、商場零售等各行業商家開展選址、拓客合作。在對內應用方面,已開始支援中國移動的渠道佈局決策、加盟廳評估和稽核等工作。以加盟廳評估為例,原來加盟廳審批時,地市移動需人工採集和上報廳店周邊人口、競爭、商圈業態等資訊,現在由應用直接提供,簡化了流程,開店時間縮短至原來1/3,低效廳控制在10%以下。在對外應用上,通過對點評評分排名前10的快餐店進行位置與模型智慧推薦的排名前10位置進行對比,有7個點模型推薦的位置與實際的位置基本一致,同時實際排名靠前的另外3個點也都在模型推薦的理想開店地址。因此,能夠明顯地看到通過多方資料的結合以及智慧推薦模型的構建,能夠幫助餐飲行業實現智慧化一鍵選址。


作者介紹:


湯勁鬆 浙江移動資訊科技部副總經理兼大資料中心主任


蔡韻 大資料中心建模師


王曉亮 大資料中心產品經理


傅一平 大資料中心資料管理部經理


陳永剛 大資料中心產品經理


張挺 大資料中心產品經理


 
近期熱點文章

3月5日,圍城崩塌的電信業

華為還能火多久?

未來八九個月,電信業將失業八九萬人?

華為的紅旗不會永遠飄揚

2018年的通訊業:大衰退還是大發展?

5G之後,再無“運營商”

科技雜談:keji_zatan