日常在SEO優化中,在查看百度統計數據時,總能有一堆無效、垃圾的關鍵詞記錄在表中,讓技術分析后,可以堅信網站建設中沒有被黑,沒有被掛馬,沒有被植入,那這些關鍵詞都是從哪里來的呢。
操作原理也很簡單,先寫一個機器爬蟲,爬取頁面內容,找到你的網站,源代碼尋找「#/hm.js」如果找到了就說明網站建設初期使用了百度統計,然后再取后面的參數,就得到了站點的百度統計ID,然后保存到數據庫,拿到網站的百度統計ID以后,就可以進行下一步,使用程序批量的給百度統計接口發送數據,也就是說這些內容他們根本不是真的去你的網站,而是直接給百度統計的接口提交了數據,這樣,就模擬用戶關鍵詞訪問,把一條條垃圾關鍵詞,寫入你的統計報表里。
既然我們已經知道原理,那就有方法去處理這個問題。 雖然不能徹底杜絕刷百度統計代碼的行為,但能有效遏制這種垃圾操作數據統計。
首先,你的舊的統計代碼ID已經被他們獲取到了,保存到了他們的數據庫,所以建議舊的代碼就放棄吧,去百度統計刪除掉,再新增網站,你會獲得一個新的統計代碼。
然后,為了讓他們的爬蟲程序識別不到百度統計代碼,我們需要將百度統計的URL地址做一個變換,我的方式是將原有的百度統計URL地址打散成一個一個的字符串數組,然后再拼裝起來,實例如下:
百度統計給我們的代碼:
var _hmt = _hmt || [];
(function() {
var hm = document.createElement("script");
hm.src = "https://#/hm.js?ee1f1987ccfc332s9bcd61a1d220f5ae41e1";
var s = document.getElementsByTagName("script")[0];
s.parentNode.insertBefore(hm, s);
})();
將百度統計的特征,也就是地址打散成數組,再組裝使用:
var _hmt = _hmt || [];
(function() {
var hm = document.createElement("script");
var analytics_bd = 'ee1f1987ccfc332s9bcd61a1d220f5ae41e1';
hm.src = ['ht', 't', 'ps', ':/', '/h', 'm', '.', 'ba', 'i', 'd', 'u.c', 'o', 'm/', 'h', 'm', '.j', 's?', analytics_bd].join('');
var s = document.getElementsByTagName("script")[0];
s.parentNode.insertBefore(hm, s);
}
)();
需要改動的就只有一行,注意「hm.src = "https://#/hm.js?ee1f1987ccfc332s9bcd61a1d220f5ae41e1";」這行代碼,被拆散為數組,然后再拼裝起來使用。這樣他們的爬蟲程序就無法識別到你在使用百度統計了。
上一篇新聞:提高網站權重的幾大的技巧
下一篇新聞:網站優化中如何讓網站單頁面的權重提高
專屬營銷顧問為您提供免費方案及報價!