今日頭條推薦系統(tǒng)作為國內(nèi)領(lǐng)先的內(nèi)容分發(fā)引擎,其核心在于構(gòu)建一個(gè)精準(zhǔn)預(yù)測用戶滿意度的復(fù)雜函數(shù)模型。該模型通過融合內(nèi)容特征、用戶特征與環(huán)境特征三大維度的變量,實(shí)現(xiàn)個(gè)性化內(nèi)容的高效匹配與分發(fā)。在內(nèi)容維度,平臺已形成圖文、視頻、UGC小視頻、問答、微頭條等多元內(nèi)容矩陣,需針對不同類型提取差異化特征,如圖像的視覺語義、視頻的幀間動(dòng)態(tài)信息、文本的主題分布等;用戶維度則涵蓋顯式標(biāo)簽(如職業(yè)、年齡、性別)與隱式興趣(通過行為序列挖掘的潛在偏好),通過深度學(xué)習(xí)模型刻畫用戶興趣的動(dòng)態(tài)演化;環(huán)境維度則聚焦移動(dòng)互聯(lián)網(wǎng)的實(shí)時(shí)性與場景化特征,結(jié)合地理位置、時(shí)間戳、使用場景(通勤、辦公、休閑等)調(diào)整推薦策略,以適配用戶在不同情境下的信息需求。

模型目標(biāo)的設(shè)定需兼顧可量化指標(biāo)與生態(tài)價(jià)值。點(diǎn)擊率、閱讀時(shí)長、互動(dòng)行為(點(diǎn)贊、評論、轉(zhuǎn)發(fā))等數(shù)據(jù)可直接用于模型優(yōu)化,但廣告頻控、特型內(nèi)容(如問答卡片)的社區(qū)貢獻(xiàn)激勵(lì)、低俗內(nèi)容打壓、標(biāo)題黨治理、重要新聞加權(quán)等非量化目標(biāo),則需通過算法規(guī)則與人工干預(yù)協(xié)同實(shí)現(xiàn)。例如,廣告推薦需控制展示頻率避免用戶反感,問答內(nèi)容需優(yōu)先推薦能激發(fā)用戶回答的優(yōu)質(zhì)問題,而涉及社會(huì)責(zé)任的內(nèi)容則需通過強(qiáng)插、置頂?shù)确绞酱_保信息觸達(dá)。
算法實(shí)現(xiàn)層面,今日頭條采用靈活的模型架構(gòu),結(jié)合傳統(tǒng)機(jī)器學(xué)習(xí)與深度學(xué)習(xí)技術(shù)。經(jīng)典協(xié)同過濾、邏輯回歸(LR)可處理結(jié)構(gòu)化特征,而因子分解機(jī)(FM)、梯度提升決策樹(GBDT)則擅長捕捉高維非線性關(guān)系,深度神經(jīng)網(wǎng)絡(luò)(DNN)能有效學(xué)習(xí)用戶與內(nèi)容的深層語義關(guān)聯(lián)。平臺通過自研算法實(shí)驗(yàn)平臺支持多模型組合與架構(gòu)調(diào)優(yōu),不同業(yè)務(wù)場景(如主信息流、垂直頻道)采用差異化模型配置,例如LR與DNN融合架構(gòu)在特征交叉場景表現(xiàn)優(yōu)異,LR與GBDT結(jié)合則在處理稀疏特征時(shí)更具優(yōu)勢。
推薦特征體系可分為四類:相關(guān)性特征通過關(guān)鍵詞匹配、分類歸屬、主題分布等評估內(nèi)容與用戶的匹配度,結(jié)合FM模型計(jì)算用戶向量與內(nèi)容向量的隱式相似性;環(huán)境特征包含地理位置、時(shí)間周期等偏置項(xiàng),并衍生出“地域+內(nèi)容”的交叉特征;熱度特征覆蓋全局熱度、分類熱度、主題熱度等多層級指標(biāo),在用戶冷啟動(dòng)階段發(fā)揮關(guān)鍵作用;協(xié)同特征則通過用戶行為相似性(點(diǎn)擊相似、興趣詞相似、向量空間距離)緩解“信息繭房”效應(yīng),拓展推薦多樣性。
實(shí)時(shí)訓(xùn)練是支撐模型迭代的核心能力?;赟torm集群構(gòu)建的流式計(jì)算系統(tǒng),實(shí)時(shí)處理用戶點(diǎn)擊、展現(xiàn)、收藏等行為數(shù)據(jù),通過自研高性能參數(shù)服務(wù)器完成模型更新。數(shù)據(jù)流經(jīng)Kafka隊(duì)列進(jìn)入Storm集群,客戶端回傳推薦標(biāo)簽構(gòu)造訓(xùn)練樣本,模型在線更新后實(shí)時(shí)生效,整個(gè)流程延遲主要來自用戶行為反饋時(shí)延,系統(tǒng)整體保持準(zhǔn)實(shí)時(shí)特性。相較早期Hadoop批量計(jì)算,流式處理節(jié)省80% CPU資源,支撐每日千萬級用戶標(biāo)簽的快速更新。
召回策略作為海量內(nèi)容篩選的第一道關(guān)卡,需在50毫秒內(nèi)完成千級內(nèi)容庫的篩選。今日頭條采用倒排索引思路,離線構(gòu)建以分類、topic、實(shí)體、來源為key的倒排表,線上根據(jù)用戶興趣標(biāo)簽快速截?cái)鄡?nèi)容,結(jié)合熱度、新鮮度、互動(dòng)動(dòng)作等指標(biāo)排序,實(shí)現(xiàn)高效召回。該策略在處理千萬級小視頻內(nèi)容時(shí),通過多級緩存與索引優(yōu)化確保性能。
內(nèi)容分析是推薦系統(tǒng)的基石,其中文本分析尤為重要。通過語義標(biāo)簽(預(yù)定義分類、實(shí)體體系)、隱式語義(topic分布、關(guān)鍵詞特征)、文本相似度(主題、行文、主體相似性判斷)、時(shí)空特征(地域時(shí)效性)、質(zhì)量特征(低俗、軟文識別)等多維度特征提取,實(shí)現(xiàn)用戶興趣建模與內(nèi)容冷啟動(dòng)支持。層次化文本分類算法(從Root到細(xì)分類別)解決數(shù)據(jù)傾斜問題,實(shí)體詞識別結(jié)合知識庫拼接與詞向量去歧,確保實(shí)體映射準(zhǔn)確性。語義標(biāo)簽雖標(biāo)注成本高,但對頻道運(yùn)營與技術(shù)驗(yàn)證不可或缺,例如“科技”分類需覆蓋全面,“梅西”實(shí)體需精準(zhǔn)指代,而“人工智能”等抽象概念則通過概念體系描述。
用戶標(biāo)簽工程面臨數(shù)據(jù)規(guī)模與實(shí)時(shí)性的雙重挑戰(zhàn)。用戶標(biāo)簽包括興趣類別/主題、關(guān)鍵詞、來源、聚類群體、垂直特征(車型、球隊(duì)、股票)及基礎(chǔ)屬性(性別、年齡、常駐地點(diǎn))。性別通過第三方社交賬號獲取,年齡由機(jī)型、閱讀時(shí)間等預(yù)測,常駐地點(diǎn)基于位置信息聚類并推測工作/出差/旅游場景。數(shù)據(jù)處理策略包括:過濾短時(shí)停留點(diǎn)擊(標(biāo)題黨)、熱門內(nèi)容降權(quán)(熱點(diǎn)懲罰)、時(shí)間衰減(新行為權(quán)重更高)、展現(xiàn)懲罰(未點(diǎn)擊特征降權(quán)),并綜合考慮全局內(nèi)容密度與用戶關(guān)閉信號。早期Hadoop批量計(jì)算隨用戶增長陷入瓶頸,2014年升級為Storm流式系統(tǒng),實(shí)現(xiàn)用戶行為觸發(fā)的標(biāo)簽實(shí)時(shí)更新,僅數(shù)十臺機(jī)器即支撐千萬級用戶日更。
評估分析需構(gòu)建多維度體系,兼顧短期指標(biāo)(點(diǎn)擊率、停留時(shí)長)與長期指標(biāo)(用戶留存、內(nèi)容生態(tài)健康),平衡用戶價(jià)值、創(chuàng)作者收益與廣告主利益。強(qiáng)大的A/B Test實(shí)驗(yàn)平臺支持自動(dòng)流量分配、離線分桶、實(shí)時(shí)數(shù)據(jù)統(tǒng)計(jì),工程師僅需配置實(shí)驗(yàn)參數(shù),系統(tǒng)自動(dòng)生成對比分析、置信度評估與優(yōu)化建議。但數(shù)據(jù)指標(biāo)與用戶體驗(yàn)存在差異,重大改進(jìn)需人工二次驗(yàn)證。
內(nèi)容安全是平臺的生命線。PGC內(nèi)容直接風(fēng)險(xiǎn)審核,UGC內(nèi)容經(jīng)風(fēng)險(xiǎn)模型過濾后人工復(fù)審,推薦后若觸發(fā)負(fù)向反饋(舉報(bào)、評論)則重新審核。識別技術(shù)涵蓋低俗模型(深度學(xué)習(xí)+千萬級樣本,高召回率)、謾罵模型(百萬級樣本,召回率95%+)、泛低質(zhì)識別(假新聞、標(biāo)題黨等,需人工輔助)。頭條持續(xù)投入技術(shù)攻關(guān),如與密歇根大學(xué)共建謠言識別平臺,以最高標(biāo)準(zhǔn)維護(hù)內(nèi)容生態(tài)。