回首發(fā)現(xiàn)SEMWATCH已經(jīng)許久沒有更新了,雖然博客流量愈下,但作為一個(gè)非盈利性的群博,當(dāng)它給予真正需要的人一點(diǎn)點(diǎn)切實(shí)有用的文章時(shí),那就足夠了。作為編輯的一員,我想有必要把這樣的精神以自己的微薄之力延續(xù)下去。
當(dāng)我們開始開展一項(xiàng)SEO工作時(shí),第一件要做的事情是要保證我們做的任何事情都可以有數(shù)據(jù)的支撐——而不是自己的直覺。SEO的主要數(shù)據(jù)來源來自兩塊:網(wǎng)站的服務(wù)器日志、第三方流量分析工具。
網(wǎng)站服務(wù)器日志
Apache,Nginx等常用服務(wù)器的內(nèi)置日志配置格式Combine已經(jīng)可以滿足大多數(shù)SEO分析需求。它看上去類似是這樣的:
111.111.111.111 – - “[20/Feb/2012:18:09:25 +0800]” “GET / HTTP/1.1″ 200 3121 “http://semwatch.org/” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
必須記錄的信息諸如:訪問來源IP、訪問時(shí)間、訪問頁面、HTTP響應(yīng)狀態(tài)碼、訪問來源及客戶端標(biāo)識等,這些在Combine日志格式里面都有。
在確保服務(wù)器日志可以滿足其他部門的分析需求下,至少要確保上面提到的幾項(xiàng)被記錄在服務(wù)器日志里面。但也不要將任何可以記錄的數(shù)據(jù)都記錄下來,只選擇實(shí)際需要的部分,不然會使得網(wǎng)站日志體積非常大,不利于分析起來的效率。這些內(nèi)容可能需要和運(yùn)維進(jìn)行溝通解決。
然后關(guān)于日志的分析,我認(rèn)為沒太多固定的準(zhǔn)備工作可做,因?yàn)樗臄?shù)據(jù)來源是原始的(raw似乎聽上去會更有感覺?),所以可選擇的數(shù)據(jù)維度幾乎是無限的。因此尤其要按實(shí)際需求進(jìn)行相應(yīng)的處理與分析。
對于一些要求并不是特別高的日志分析需求,可以嘗試使用光年日志分析系統(tǒng)。雖然我個(gè)人對所有圖形界面的實(shí)用類程序都不帶好感,但它提供了一些很不錯(cuò)的數(shù)據(jù)維度的思路。
聽說有一家大型的旅游網(wǎng)站是采用MongoDB結(jié)合Map/Reduce進(jìn)行日志分析的,我個(gè)人也用過MongoDB實(shí)現(xiàn)過前面提到的光年日志分析的一部分重要功能。所以感覺MongoDB是個(gè)可以考慮的選擇。
第三方流量分析工具
Google Analytics的安裝
對于免費(fèi)流量分析工具,Google Analytics絕對是其中的佼佼者(以下簡稱GA)。不過如果網(wǎng)站的月瀏覽量大于500W的話,只有Google Adwords的用戶,才能繼續(xù)免費(fèi)使用GA進(jìn)行流量的記錄與分析。下面都以它為例。
在GA添加需要追蹤流量的網(wǎng)站以后,它會提示你添加一段JavaScript代碼,到每一個(gè)你需要追蹤頁面的標(biāo)記之前。代碼的添加可能是一件很輕松的工作,但也可能非常麻煩,主要取決于網(wǎng)站的模板層。
先提下常見開源博客程序WordPress的方法,它采用了包含的模板處理方式,比如網(wǎng)站首頁、列表頁、文章頁等自身的模板,都是只有當(dāng)中一部分的。而包含網(wǎng)頁LOGO等的網(wǎng)頁頭部,都使用WordPress的get_header方法來加載另一個(gè)獨(dú)立的模板文件(get_header方法本質(zhì)上是PHP里面的include函數(shù))。簡言之,只要在header.php那個(gè)文件上面添加代碼,包含它的所有網(wǎng)頁都會跟著改,很快就可以把GA代碼添加好。
但情況并不總是理想的,尤其對于使用網(wǎng)站框架自己進(jìn)行開發(fā)的網(wǎng)站,有時(shí)并沒有將包含這樣的方式很好的運(yùn)用。這可能是網(wǎng)站的建設(shè)規(guī)范不完善的關(guān)系,也可能是網(wǎng)站需求導(dǎo)致了確實(shí)無法使用和WordPress類似的包含方式。那么,至少要在每個(gè)網(wǎng)頁的頭部,額外包含一小段加載全局JavaScript的區(qū)塊,以方便的添加全局性的JavaScript代碼。
雖然未必在添加GA代碼時(shí),對可能糟糕的網(wǎng)站模板結(jié)構(gòu)去進(jìn)行更改,最多到幾十個(gè)不同的模板文件里面去分別加下代碼就是了(當(dāng)然也要花些時(shí)間去保證沒有漏過哪些頁面)。但一次性搞定一些本質(zhì)性的問題會帶來很多日后的便利性——比如又要換一套統(tǒng)計(jì)代碼。
相對最麻煩的事情或許是如何說服程序員為了一些看似小的需求而修改模板結(jié)構(gòu),這邊就略過了。
一些基礎(chǔ)的Google Analytics設(shè)置
對于SEO而言,一項(xiàng)最基礎(chǔ)的設(shè)置,就是要把網(wǎng)站上對SEO有價(jià)值的頁面進(jìn)行歸類。對頁面進(jìn)行區(qū)分,并以此掌握了它們的流量現(xiàn)狀及趨勢以后,才能把握SEO的側(cè)重點(diǎn),及更好的分析網(wǎng)站上每次SEO修改的成效等等。
如最簡單的例子,對于一個(gè)網(wǎng)站,如果手頭有1000條外鏈,應(yīng)該給網(wǎng)站的欄目頁還是產(chǎn)品頁?這主要取決于哪類頁面有更高的轉(zhuǎn)化率與更大的SEO流量提升空間。
對于每個(gè)網(wǎng)站而言,都存在不同的情況。比如一個(gè)書籍類的電商網(wǎng)站,它列表頁不會有太多流量,沒多少人搜索什么“計(jì)算機(jī)書籍”,但會更多人搜索《喬布什自傳》之類,因?yàn)橛脩粲泻苊鞔_的需求。而對于一個(gè)服飾電商,相應(yīng)更多人會搜索“襯衫”之類,而非“2012年春季新款白色襯衫”等,因?yàn)橛脩糁皇窍氲骄W(wǎng)站上挑衣服,他們只有需求的意向,但具體需求是模糊的。
以上兩個(gè)是比較典型的例子,但有更多情況我們無法用自己的直覺做出準(zhǔn)確的判斷,那就需要用流量數(shù)據(jù)來收集事實(shí)。
盡管博客的流量數(shù)據(jù)分析起來沒太大價(jià)值,出色的文章是博客的一切,但這里還是以SEMWATCH為例來簡單介紹下方法。假設(shè)我們需要把SEMWATCH的欄目頁和文章頁流量進(jìn)行區(qū)分,它們的URL分別是類似這樣的:/category/seo/,/2012/02/post/
首先要到GA的數(shù)據(jù)頁面內(nèi),找到高級細(xì)分一項(xiàng),點(diǎn)擊右側(cè)新自定義細(xì)分。然后進(jìn)行類似下圖的設(shè)置:

通常情況下,將頁面的URL匹配相應(yīng)的正則以后,就可以把它們區(qū)分開來。注意,如果網(wǎng)站的初期URL規(guī)劃不完善,可能會導(dǎo)致無法用URL來區(qū)分頁面類型的非常非常糟糕的情況,務(wù)必保證每一類頁面擁有其獨(dú)立的URL標(biāo)識。
在該例中,SEMWATCH的欄目頁匹配正則表達(dá)式是:^/category/.*?/$,文章頁是:^/2[0-9]{3}/[0-9]{2}/.*?/$
盡量用最嚴(yán)格的正則表達(dá)式寫法,這樣可能可以在無形中規(guī)避很多不必要的錯(cuò)亂。還需要注意的是,老版本的GA默認(rèn)情況下篩選器的“包含”即使用正則表達(dá)式,新版GA一定要選擇“匹配正則表達(dá)式”這項(xiàng)。
關(guān)于正則表達(dá)式,篇幅所限不可能進(jìn)行解釋,如果你不懂的話,可以考慮去尋找程序員求助。但我的個(gè)人建議是盡可能的要自己掌握它,這是一個(gè)比較基礎(chǔ)的技術(shù)要求,SEO不應(yīng)該被它所難倒。正則表達(dá)式雖然看上去很惡心——至少我從來看不懂自己寫出來的正則,但其實(shí)挺容易學(xué)的。
總之通過上面的步驟,我們就簡單的把頁面類型區(qū)分開來了。回到最初的例子,如果有1000外鏈給SEMWATCH隨便分配,現(xiàn)在應(yīng)該把外鏈給予哪些頁面呢?可以發(fā)現(xiàn)的是欄目頁幾乎沒流量、而文章頁天生流量就很高。多數(shù)情況下這證明了文章頁具有更大的流量發(fā)展空間,此時(shí)把外鏈分配給文章頁就是最明智的做法。(但也不能武斷的說,不能排除欄目頁的SEO有巨大問題的可能性,這問題一點(diǎn)都不罕見。所以還要結(jié)合我們的常識及其他方面的分析來綜合判斷。)
限于篇幅就告一段落了。另外關(guān)于Google Analytics的各類經(jīng)驗(yàn)在SEMWATCH上面有過較多的分享,大家可以擅用搜索功能。
最后的總結(jié)
實(shí)際可能要面臨的問題還有很多很多,當(dāng)然不可能是一篇文章所能涵蓋的。前面提到的只是兩個(gè)主要數(shù)據(jù),實(shí)際SEO過程中,還或許需要用到的數(shù)據(jù)如網(wǎng)站級的Google Webmaster Tool,估算流量的愛站、SEMRush、Google Adplanner、HitWise,關(guān)鍵詞的Google Keyword Tool、百度司南,鏈接類的MajesticSEO、Ahrefs等等。
最近我在看《麥肯錫方法》,提到:“以事實(shí)為基礎(chǔ),嚴(yán)格的結(jié)構(gòu)化,以假設(shè)為導(dǎo)向”,類似的稍總結(jié)下SEO的話:“以數(shù)據(jù)為基礎(chǔ),嚴(yán)格的邏輯化,以效果為目標(biāo)、技術(shù)為手段”。本文是為了作為根基的數(shù)據(jù)墊下基礎(chǔ)而已,它本身是沒任何價(jià)值的——光看數(shù)據(jù)的話,它只不過是死板的數(shù)字罷了。
如何借由數(shù)據(jù)的輔助,在最需要的地方進(jìn)行SEO的更改,使得流量獲得大的突破并給網(wǎng)站產(chǎn)生價(jià)值,這是我們要真正關(guān)注的部分,之后再慢慢分解。
p.s. 我平常寫文章比較隨便,文風(fēng)散亂、語句不通、中心不明,但如果認(rèn)為這樣也可以接受的話,不妨也可以看下我的個(gè)人博客:http://tech-field.org/。當(dāng)然該系列文章只在SEMWATCH連載,不能反過來搶它流量嘛。
推薦閱讀
同等競爭情況下,與網(wǎng)站首頁相比,網(wǎng)站內(nèi)頁要想取得好的排名,所需要做的工作要多得多。我們也知道,首頁所能照顧到的關(guān)鍵詞畢竟有限,因此,更多的關(guān)鍵詞需要由內(nèi)頁來實(shí)現(xiàn)排名,也就是說,必須要充分發(fā)揮內(nèi)頁的作用>>>詳細(xì)閱讀
本文標(biāo)題:SEO實(shí)踐(1)——開展SEO前的數(shù)據(jù)準(zhǔn)備
地址:http://www.sdlzkt.com/a/34/20120302/36014.html