
百度搜索于2017年7月4日首次發(fā)布颶風(fēng)算法,聚焦惡劣采集行為的打擊;2018年9月13日升級至2.0版本,強化對低質(zhì)內(nèi)容的識別力度;2019年8月,颶風(fēng)算法3.0正式上線,進(jìn)一步擴展治理維度。該算法的核心目標(biāo)在于清除內(nèi)容生產(chǎn)領(lǐng)域的“搬運主義”與“流量投機”行為。具體而言,惡劣采集行為表現(xiàn)為內(nèi)容未經(jīng)授權(quán)搬運、機械拼接導(dǎo)致邏輯混亂、排版失序,頁面存在明顯采集痕跡,對用戶無實質(zhì)增益價值;跨領(lǐng)域采集則指站點或小程序為追求流量曝光,發(fā)布與自身領(lǐng)域定位嚴(yán)重不符的內(nèi)容,導(dǎo)致領(lǐng)域?qū)W⒍认陆?,搜索系統(tǒng)將據(jù)此限制其展現(xiàn)機會;站群問題則通過批量構(gòu)造低質(zhì)站點、復(fù)用相似模板等方式獲取流量,此類站點內(nèi)容同質(zhì)化嚴(yán)重,資源稀缺性低下,難以滿足用戶真實需求。
2020年2月,百度搜索推出勁風(fēng)算法,針對惡意構(gòu)造聚合頁的行為進(jìn)行專項治理。聚合頁本應(yīng)是對特定主題下多源信息的有效整合,但惡劣聚合頁缺乏實質(zhì)主體內(nèi)容,僅為索引鏈接的機械堆砌,無法滿足用戶對深度信息的需求。此類問題主要包括四類典型場景:頁面內(nèi)容與站點所屬領(lǐng)域不符或無專注領(lǐng)域,多為采集拼湊內(nèi)容;頁面內(nèi)容與標(biāo)題及標(biāo)簽標(biāo)記的主題嚴(yán)重脫節(jié);由網(wǎng)站搜索功能生成的靜態(tài)搜索結(jié)果頁,缺乏原創(chuàng)性整合;空短、無有效信息或已失效的聚合頁,完全浪費用戶搜索資源。
B2B領(lǐng)域作為商業(yè)信息交互的重要場景,其內(nèi)容質(zhì)量直接影響供需對接效率。2018年6月,百度搜索發(fā)布細(xì)雨算法,初步規(guī)范B2B行業(yè)站點行為;2019年11月,細(xì)雨算法2.0升級上線,重點治理惡劣違規(guī)問題與低質(zhì)內(nèi)容。該算法的治理范圍覆蓋頁面標(biāo)題作弊(如堆砌關(guān)鍵詞、穿插特殊符號、冒充官網(wǎng)等)、正文內(nèi)容中的違規(guī)受益信息(如變形聯(lián)系方式、配圖中嵌入聯(lián)系方式等)、惡劣違規(guī)內(nèi)容(如采集拼接、發(fā)布軟文、空白頁面、商品信息與實際不符等)及低質(zhì)內(nèi)容(如圖文不符、圖片無有效信息等),通過多維度識別與處罰,保障B2B商業(yè)信息的真實性與有效性。
2016年11月,百度搜索推出藍(lán)天算法,持續(xù)打擊新聞類站點售賣軟文、目錄等破壞搜索公正性的行為。此類行為通過商業(yè)交易操縱搜索排名,導(dǎo)致優(yōu)質(zhì)內(nèi)容被低質(zhì)軟文或付費目錄淹沒,嚴(yán)重?fù)p害用戶對搜索結(jié)果的信任。藍(lán)天算法通過識別站點目錄交易行為,降低違規(guī)站點在搜索系統(tǒng)中的評價,維護(hù)搜索結(jié)果的客觀性與中立性,為用戶營造“信息藍(lán)天”。