移動廣告平臺在移動廣告行業(yè)發(fā)展進程上起著重要的促進作用,作為廣告主、開發(fā)者和用戶間的紐帶,市場要求移動廣告平臺必須擁有更領先的技術、更優(yōu)質(zhì)的資源、更創(chuàng)新的服務模式。如何讓廣告主獲得最好的流量,如何讓開發(fā)者獲得 的變現(xiàn),如何讓用戶看到不會拒絕的內(nèi)容,是移動廣告平臺時刻在思考的問題。
作為業(yè)內(nèi)覆蓋流量最多的移動廣告平臺,來聽聽暢思廣告技術專家的解答,移動廣告平臺是怎樣有條不紊又高效合理的整合整個市場流量走向的。
暢思廣告數(shù)據(jù)中心
在現(xiàn)今DT時代,數(shù)據(jù)中心作為企業(yè)數(shù)據(jù)的集散地,既要保證數(shù)據(jù)的準確性、及時性、可靠性,也需要對數(shù)據(jù)的價值進行深度發(fā)掘,從而推動整個公司業(yè)務的發(fā)展。
不同的領域對數(shù)據(jù)中心的職責有不同的劃分,本文主要介紹暢思廣告數(shù)據(jù)平臺的搭建以及改進,希望與大家共同學習交流。
本文只是一篇概述性的文檔,后面的一系列文章會分模塊對數(shù)據(jù)平臺的各個部分進行詳細深入的介紹。
暢思數(shù)據(jù)平臺每天接收到的數(shù)據(jù)量有3TB,每天有近萬個數(shù)據(jù)分析及挖掘任務運行,同時支持廣告平臺、媒體分析平臺、數(shù)據(jù)追蹤等多條業(yè)務線;對外則提供了每天billion級別訪問量的用戶標簽及CTR服務接口。暢思的集群目前不到100臺,可靠性現(xiàn)在可以達到5個9(99.999%),并且支持數(shù)據(jù)及指標自動監(jiān)測回溯。
首先看下暢思數(shù)據(jù)中心的整體部署及分層圖
圖一 暢思數(shù)據(jù)中心部署圖
圖二 暢思數(shù)據(jù)中心分層示意圖
數(shù)據(jù)中心一般有四個主要組成部分。基礎支撐、BI系統(tǒng)、數(shù)據(jù)分析挖掘、數(shù)據(jù)展示。下面分部分進行介紹
1. 基礎支撐
數(shù)據(jù)中心,為高效的完成數(shù)據(jù)的收集、存儲、分析、展示,穩(wěn)定高效的基礎支撐非常重要。
目前市面上可用的產(chǎn)品比較多,商業(yè)化的有Oracle,IBM InfoSphere,InfoBright,阿里云,AWS等存儲,開源的有Hadoop,Cassandra,Hbase等存儲。
如圖二 所示,暢思數(shù)據(jù)中心主要基于Hadoop生態(tài)圈,以及其他開源軟件進行搭建。
數(shù)據(jù)中心通過分析挖掘,會產(chǎn)生大量的挖掘結果,不同的用戶層次有不同的挖掘結果,廣告、媒體等粗粒度的用戶還好,對于單個用戶的挖掘結果,數(shù)量級非常大,如何保證這類用戶的挖掘結果能被及時有效的訪問到,是大部分數(shù)據(jù)中心必須解決的問題之一。暢思選用自建的KVCluster集群進行挖掘內(nèi)容的存儲以及對外服務;暢思的kv集群主要基于Zookeeper進行集中式資源管理及分區(qū)調(diào)度,目前可自動加入到集群中的NoSql類型有Hbase、Redis、Ssdb以及Tair,通過集中化管理的方法可以統(tǒng)一調(diào)配這些kv分組,在保證滿足業(yè)務需求的同時,大大降低Kv的部署及運維成本。
2. BI系統(tǒng)
BI系統(tǒng),主要提供數(shù)據(jù)收集、處理、入庫、訪問接口的大型服務。目前業(yè)內(nèi)比較流行的BI系統(tǒng)不管是商用的還是開源的有很多;考慮到廣告平臺本身的業(yè)務邏輯以及成本問題,暢思是基于Hadoop自己構建的BI系統(tǒng),分數(shù)據(jù)收集、ETL、存儲入庫、調(diào)度四個部分。
2.1 數(shù)據(jù)收集
暢思的數(shù)據(jù)源包括三大類:第一方數(shù)據(jù)(廣告主、媒體回傳的用戶行為數(shù)據(jù)),第二方數(shù)據(jù)(廣告平臺展示、點擊、激活等數(shù)據(jù)),第三方數(shù)據(jù)(其他平臺合作數(shù)據(jù))。
第一方數(shù)據(jù),可以通過SDK采集、廣告主回調(diào)等方式進行數(shù)據(jù)的收集;第二方數(shù)據(jù)可直接通過內(nèi)網(wǎng)進行互傳;第三方數(shù)據(jù)一般采用API、第三方存儲(AWS S3, 阿里云存儲)、RSYNC等方式進行批量傳輸?shù)姆绞竭M行同步。
暢思目前的解決方案如圖三所示
圖三 日志收集示意圖
第一方和第二方數(shù)據(jù)。離線分析,采用批量傳輸和獲取的方式進行數(shù)據(jù)收集;實時分析,則使用APIlume進行數(shù)據(jù)的收集。第三方數(shù)據(jù),一般通過第三方可靠性存儲作為媒介來獲取,而對于第三方需要實時獲取信息的,則采用API的方式進行通信。
2.2 日志ETL
針對第一方、第二方數(shù)據(jù)。提供配置控制功能,ETL對于不同類型的數(shù)據(jù)根據(jù)配置文件使用不同的解析、轉換、加載的邏輯;注意,需要考慮ETL數(shù)據(jù)解析各個階段以及后續(xù)處理各個階段之間的時間同步,目前chance直接在同步標識存入到kv中,以進行同步?商鎿Q為使用消息隊列進行同步,不同的邏輯使用不同的隊列,在解耦處理邏輯的同時,保證數(shù)據(jù)處理的有序性。
2.3 數(shù)據(jù)存儲入庫
暢思選用Hadoop生態(tài)圈作為存儲以及計算的基本工具,并基于原生的Hadoop進行了定制化開發(fā),滿足廣告業(yè)務在穩(wěn)定性、擴展性以及安全性方面的需求。
在使用層次上,用HDFS分用戶存儲原始數(shù)據(jù),對ETL之后產(chǎn)生的格式化數(shù)據(jù),按照事先定義好的分區(qū)加載到Hive表中。
2.4 BI系統(tǒng)任務調(diào)度
數(shù)據(jù)倉庫數(shù)據(jù)錄入完畢之后,業(yè)務方就可以訪問庫中的數(shù)據(jù),計算分析各類指標;為保證服務的可靠性以及數(shù)據(jù)的安全性,暢思基于數(shù)據(jù)倉庫構建了可視化的調(diào)度系統(tǒng)。
主要的流程如圖四所示:
圖四 BI系統(tǒng)調(diào)度平臺
3. 數(shù)據(jù)分析與挖掘
3.1 數(shù)據(jù)分析
目前暢思的數(shù)據(jù)分析服務包括三個部分:廣告平臺的運營分析、媒體運營分析以及數(shù)據(jù)管理調(diào)度平臺。
廣告平臺運營分析。分權限分角色,對廣告平臺上各個項目在不同環(huán)境下在各個流量端的展示、點擊、激活、平臺支出,平臺收入等進行統(tǒng)計分析;
游戲運營平臺。主要對媒體應用的新增、活躍,付費,留存,TAD,流失,回流等運營指標進行分析,上述指標可以分渠道、分活動、分項目進行深層次分析,以評估各個廣告推廣活動帶來用戶的質(zhì)量;
數(shù)據(jù)管理平臺。為了提高運營、商務等的工作效率,暢思數(shù)據(jù)中心提供數(shù)據(jù)管理功能。用戶可以分權限在該平臺上提交數(shù)據(jù)到數(shù)據(jù)倉庫或者不同的數(shù)據(jù)存儲,用戶可以根據(jù)這些數(shù)據(jù)分析產(chǎn)生結果,并可以將這些數(shù)據(jù)或者數(shù)據(jù)結果開放給其他用戶使用;用戶也可以根據(jù)數(shù)據(jù)中心分配的權限,從數(shù)據(jù)倉庫中分析產(chǎn)生結果。
3.2 數(shù)據(jù)挖掘
基于三方數(shù)據(jù)深挖數(shù)據(jù)價值。
包括五個部分:反作弊,用戶標簽,媒體/用戶質(zhì)量評估,CTR預測,Lookalike。
3.2.1 反作弊
廣告行業(yè),流量端作弊十分常見,如何過濾掉這部分假量,對于廣告主以及平臺來講至關重要。暢思作為業(yè)內(nèi)第一家使用并推廣反作弊的企業(yè),在反作弊方面有許多成熟的積累。目前暢思反作弊包括規(guī)則策略以及模型兩部分。規(guī)則策略主要是對固定的作弊模式進行直接查殺,目前暢思反作弊系統(tǒng)的規(guī)則策略大概有30大項,可以有效過濾一大批“小白”作弊用戶;反作弊模型則是根據(jù)已發(fā)現(xiàn)作弊用戶的行為,提取作弊用戶的特征,用機器學習的方法盡早發(fā)現(xiàn)作弊用戶,減少平臺以及廣告主的損失。
規(guī)則策略流程如圖五所示,模型策略如圖六所示。
圖五 反作弊規(guī)則流程圖
圖六 反作弊模型流程圖
反作弊模型與規(guī)則策略相輔相成,可以通過反作弊模型發(fā)現(xiàn)新的作弊模式,然后結合行為序列發(fā)掘,歸結為固定的規(guī)則,可進一步豐富規(guī)則策略;而規(guī)則策略,對于已查殺的用戶,分析其被殺掉之前的行為,可有效豐富反作弊需要的樣本,進一步提高反作弊模型的泛化能力。
3.2.2 用戶標簽
對用戶進行精準化投放的基礎。用戶的標簽分為靜態(tài)標簽和動態(tài)標簽,靜態(tài)標簽主要指用戶的性別,年齡,地域等信息,動態(tài)標簽主要是用戶的興趣標簽。
目前暢思數(shù)據(jù)中心有效的標簽量在幾千個,并且提供了可定制化功能開放給廣告主使用,廣告主可以根據(jù)自己的需求,定義自己的標簽,用定制的標簽來指導投放。
定制化標簽可以基于關鍵詞,也可以基于已有標簽進行邏輯計算獲得,暢思支持的邏輯運算有與,或,非,加,減等。
3.2.3 媒體/用戶質(zhì)量評估
有了用戶標簽、用戶在廣告平臺中的行為信息、用戶在媒體應用上的行為信息,暢思數(shù)據(jù)平臺對媒體流量以及用戶進行了分級。
媒體質(zhì)量,分類別、分效果計算出各個媒體的基礎得分,對質(zhì)量不同的媒體,指導廣告投放平臺進行區(qū)別投放。
用戶質(zhì)量,采用聚類的方法對用戶進行人群劃分,對各個群體進行廣告效果、活躍度等多方面的評估,得到各類人群的評分。
3.2.4 CTR預測
基于用戶的畫像信息,媒體流量信息,廣告項目信息等多種特征,進行點擊率預測。目前采用的特征有600+,使用的基礎模型是LR,采用LR的主要原因是移動廣告平臺用戶受媒體或者渠道切入流量的限制,信息過于稀疏,對于特征的提取,進行了較多的人工介入,后續(xù)我們也會嘗試在LR中加入特征選擇的步驟,提高訓練及調(diào)優(yōu)效率。
3.2.5 Lookalike
相似用戶發(fā)現(xiàn),主要根據(jù)廣告主或者投放項目反饋回來的用戶信息,進行同類用戶的精準投放。Lookalike發(fā)現(xiàn)的方法有兩大類:有監(jiān)督訓練獲取以及無監(jiān)督訓練獲取。有監(jiān)督獲取采用分類的方法進行用戶發(fā)現(xiàn),該類方法的優(yōu)點的準確度高,缺點是得到的用戶覆蓋面不夠,并且負樣本不太容易收集;無監(jiān)督獲取主要采用聚類的方法對用戶進行分群,然后根據(jù)群體的信息,從用戶庫中獲取類似的用戶,該類方法的優(yōu)點是得到的用戶覆蓋面較廣,并且得到的用戶在行為上符合某類分布,對異常用戶不敏感,缺點是需要的訓練樣本比較多,對于比較大的投放項目比較合適。目前,暢思主要以無監(jiān)督的方法為基礎,對同一個項目下的用戶進行人群切分,然后去積累的用戶系統(tǒng)中獲取相似的用戶。
4. 數(shù)據(jù)可視化
數(shù)據(jù)可視化作為數(shù)據(jù)分析結果以及數(shù)據(jù)挖掘結果呈現(xiàn)的重要媒介,在數(shù)據(jù)平臺產(chǎn)品化方面起著非常重要的作用。目前暢思數(shù)據(jù)可視化主要包括三個平臺:廣告運營指標可視化,媒體運營可視化,數(shù)據(jù)管理可視化。各平臺的介紹可以看數(shù)據(jù)分析部分的內(nèi)容。
廣告運營指標可視化,主要提供各類指標,指標同比/環(huán)比對比等分析功能,如圖七所示:
圖七 暢思平臺數(shù)據(jù)運營中心
媒體運營可視化,主要是展示媒體運營中所使用的指標以及詳細分析情況,如圖:
圖八 暢思游戲運營平臺示例
數(shù)據(jù)管理可視化,主要提供用戶獲取數(shù)據(jù)、上傳數(shù)據(jù)、分析數(shù)據(jù)的可視化接口,提高廣告主或者運營的分析效率。
圖九 暢思數(shù)據(jù)管理平臺示例
5.總結
…過幾年的沉淀,暢思廣告平臺已累計了海量的大數(shù)據(jù)樣本,并且在業(yè)內(nèi)最領先技術的支配下,可以輕松實現(xiàn)三方利益最大化。
通過以上的介紹,希望大家對數(shù)據(jù)中心的功能以及作用有一個比較清晰的認識及了解。數(shù)據(jù)中心的搭建是一個長期過程,其相關技術也在快速的發(fā)展進步,在這里通過與大家交流,希望大家更加關注數(shù)據(jù)技術在移動互聯(lián)網(wǎng)領域的應用,為流量以及數(shù)據(jù)變現(xiàn)提供更有效的技術支持方案。
投稿郵箱:chuanbeiol@163.com 詳情請訪問川北在線:http://fishbao.com.cn/