web搜索引擎優(yōu)化技術 學習web搜索引擎機制,理解web設計方法,以改進頁面在搜索結果中的排名 1.1 搜索引擎 隨著網(wǎng)絡技術的迅速發(fā)展,萬維網(wǎng)成為巨量信息的載體,如何有效地檢索和利用這些信息成為巨大挑戰(zhàn)。在未知鏈接地址時,用戶要在這種信息海洋里查找信息無異于大海撈針。 搜索引擎(Search Engine)技術應勢而生,成功地解決了這一難題。搜索引擎為用戶提供信息檢索服務,作為輔助人們檢索信息的工具,是在Web上發(fā)現(xiàn)信息的關鍵技術,是用戶訪問萬維網(wǎng)的最佳入口。根據(jù)權威調查顯示,搜索引擎的導航服務已成為非常重要的互聯(lián)網(wǎng)服務,全球80%的網(wǎng)站,其訪問量70%-90%都來自于搜索引擎,因此,讓搜索引擎收錄更多的網(wǎng)頁,就是提高網(wǎng)站訪問量的最有效辦法。 搜索引擎借助于自動搜索網(wǎng)頁的軟件,在網(wǎng)絡上通過各種鏈接獲得大頁面文檔的信息,并按照一定算法與規(guī)則進行歸類整理,形成文檔索引數(shù)據(jù)庫,以備用戶查詢。提供這種服務的網(wǎng)站便是“搜索引擎”。 搜索引擎收集因特網(wǎng)上數(shù)以十億計的Web文檔,并對其每術語即關鍵詞進行索引,建立索引數(shù)據(jù)庫,當用戶查找某個關鍵詞的時候,所有在包含該關鍵詞的文檔都將作為搜索結果羅列出來。這些結果將按照與搜索關鍵詞的相關度高低,依次排列顯示。 搜索引擎搜索和收集的Web文檔類型有HTML、PDF、博客、FTP文件、圖片、字處理文檔(Word、PPT)、多媒體文件等。本文主要涉及頁面或Web文檔。 商業(yè)運作成功的著名搜索引擎有Google、Yahoo、MSN, Ask Jeeves和百度等。 1.1.1 搜索引擎的工作原理 搜索引擎有兩個重要組成部分,即離線部分和在線部分。離線部分由搜索引擎定期執(zhí)行,包括下載網(wǎng)站的頁面集合,并經(jīng)處理把這些頁面轉換成可搜索的索引。在線部分在用戶查詢時被執(zhí)行,根據(jù)與用戶需求的相關性,利用索引去選擇候選文檔并排序顯示。 搜索引擎的原理基于三段式工作流程,即搜集,預處理,提供服務。它以一定的策略在互聯(lián)網(wǎng)中發(fā)現(xiàn)和搜集信息,對信息進行處理和組織,以便為用戶提供檢索服務,從而起到信息導航的目的。因此,搜索引擎的工作原理包括搜索引擎收錄頁面、建立索引和向用戶提供查詢服務等。 1 網(wǎng)頁搜集 搜索引擎使用軟件按某種策略自動獲取文檔,軟件名稱不同,如Robot、Spider、crawler,Wanderer等。Robot直譯為機器人,crawler直譯為爬行器,spider直譯為網(wǎng)絡蜘蛛,Wanderer直譯為漫游器,它們是搜索引擎用來抓取網(wǎng)頁的工具或自動程序。 著名搜索引擎的探測器(Robot):谷歌的為googlebot,百度的為baiduspider,MSN的為MSNbot,Yahoo的為Slurp。 搜索引擎將檢索首頁,并根據(jù)其中的鏈接去搜索網(wǎng)站其它頁面。搜索引擎從Web中抓取頁面的過程如同蜘蛛(spider)在蜘蛛網(wǎng)(Web)上爬行(crawl),被稱為Web crawling或Spidering。 搜索引擎要從互聯(lián)網(wǎng)上抓取網(wǎng)頁,利用其Spider(蜘蛛)自動訪問互聯(lián)網(wǎng),并沿著網(wǎng)頁中的URL爬到其它網(wǎng)頁。搜索引擎將Web看作是一個有向圖: 搜集過程從初始網(wǎng)頁的URL開始,找出其中所有URL并放入隊列中; 根據(jù)搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁URL; 重復上述過程直到滿足系統(tǒng)的停止條件。 網(wǎng)頁抓取策略分為深度優(yōu)先、廣度優(yōu)先和最佳優(yōu)先三種。深度優(yōu)先在很多情況下會導致蜘蛛的陷入(trapped)問題,目前常見的是廣度優(yōu)先和最佳優(yōu)先方法。 Web有兩個重要特征:信息海量和更新頻率快,這使得Web crawling極其困難。 巨量信息意味著在給定時間蜘蛛只能下載部分Web頁面,這需要蜘蛛有針對性地下載。快速的更新頻率意味著蜘蛛在下載某個網(wǎng)站的最后一個頁面時,說不定前面下載的頁面已經(jīng)被更新了。Crawling Web在某些程度上相似于在晴空萬里的夜間觀望天空,你所看到的只是群星在不同時刻狀態(tài)的反映,因它們的距離不一。蜘蛛所獲取的頁面集合也非Web的快照,因這不代表任一時刻的Web。 如今,網(wǎng)絡速度雖然有所提高,但仍然滿足不了處理速度和存儲容量的要求。因此,搜索引擎的Spider一般要定期重新訪問所有網(wǎng)頁,時間間隔因搜索引擎和目標網(wǎng)頁而異,以便更新索引數(shù)據(jù)庫,比較真實地反映出網(wǎng)頁內容的更新情況,如增加新網(wǎng)頁信息,去除死鏈接,并根據(jù)網(wǎng)頁內容和鏈接關系的變化重新排序。從而使得網(wǎng)頁的具體內容及其變化情況比較準確地體現(xiàn)在用戶的查詢結果中。 2 預處理 預處理旨在為收集到的Web文檔建立邏輯視圖。 在傳統(tǒng)的信息檢索中,文檔邏輯視圖是“bag of words”模型,即文檔被視同為一些單詞的無序集合。而在Web搜索引擎中,這種視圖被逐步擴展了,如用詞頻、權重、Web文檔的元信息、文檔的權威性和使用情形等。 搜索引擎要處理蜘蛛所搜索到的信息,從中抽取出索引項,以便用戶檢索,索引項分為: 內容性索引項 元數(shù)據(jù)索引項,指文檔的作名、URL、更新時間、編碼、長度等 搜索引擎要給索引項賦于權值,以表示該索引項對文檔的貢獻程度,用于計算查詢結果的相關性。 然后用索引項建立索引表。索引表一般使用某種形式的倒排表(Inversion List)。倒排表由兩部分組成:詞匯及其位置列表。詞匯是所有關鍵詞的排序列表,對于詞匯中的每個關鍵詞,其在文檔集中的出現(xiàn)的“位置”列表。 3 查詢服務 搜索引擎為用戶提供查詢界面,以便用戶通過瀏覽器提交待查詢的詞語或短語。 當用戶輸入關鍵詞后,搜索系統(tǒng)程序從索引數(shù)據(jù)庫中找到符合該關鍵詞的所有相關網(wǎng)頁,并根據(jù)網(wǎng)頁針對該關鍵詞的相關性排序,相關性越高,排名越靠前。 然后很快返回與用戶輸入內容相關的信息列表,該列表中的每一條目代表一篇網(wǎng)頁,至少有3個元素,即網(wǎng)頁的標題、地址和摘要。 相關性(Relevance)體現(xiàn)著用戶查詢與查詢結果文檔的匹配程度。 1.1.2 信息檢索技術 信息檢索(Information Retrieval,IR) 指在一個集合中檢索文本和搜索有用的文檔,如在web上搜索文檔。按查詢有效地檢索相關文檔。用戶在進行信息檢索時,最關心如何在最短時間內找到所需要的信息,因此系統(tǒng)應判斷哪些信息最符合用戶的檢索意圖,并按級別排列出信息文檔。 關鍵詞的“匹配/位置/頻次”的原則,即內容中的字詞、詞組或短語與用戶輸入的關鍵詞越匹配,出現(xiàn)的次數(shù)越多。 信息檢索過程始于用戶輸入一個查詢字符串,該字符串是信息需求的形式化表示。在信息檢索中,一個查詢字符串可以識別出數(shù)據(jù)庫中多個文檔,這些文檔的相關性可能不同。 基本的IR方法是出文檔中的單詞,并與查詢中的單詞比較 三種經(jīng)典信息檢索(IR)模型 布爾模型:文檔被表示成關鍵詞集合,查詢被表示關鍵詞的成布爾表達式(And, Or, Not),其輸出是文檔的相關與否,而沒有匹配或排名。 統(tǒng)計模型:把文檔表示成關鍵詞集合(無序),被取樣的單詞相互獨立,根據(jù)詞頻對文檔進行排序。 矢量空間模型:每個文檔被表示成高維空間中的一個矢量,查詢也被表示成一個矢量,比較查詢和文檔集合,找出最接近的文檔組。大多數(shù)查詢系統(tǒng)計算數(shù)據(jù)庫中文檔匹配查詢字符串的程度,并按排名依次顯示。計算方法有統(tǒng)計法、信息論法和概率法等,這些方法大都基于矢量空間模型(vector space model)。矢量空間模型是把文檔表示索引項矢量的代數(shù)模型,矢量的維數(shù)是詞匯表中單詞的數(shù)目。每個維對應于一個索引項。若索引項出現(xiàn)在一個文檔中,其值(即權重值)為非零。 相關性基于文本和概念匹配,其中文本匹配主要關注:頁面中的術語,關鍵區(qū)域中的術語如title標簽、headlines等,鏈接中的術語。 Web搜索,應用IR到互聯(lián)網(wǎng)中的HTML文檔。 Web搜索與IR的區(qū)別是,必須通過crawling web 搜集文檔資料,這些文檔是不可控制的,可利用HTML (or XML)的結構性布局信息和元信息,能利用web 中的鏈接結構。 1.1.3 搜索引擎排名算法分類 在各種搜索引擎上進行同樣搜索時會產(chǎn)生不同的結果。究其原因,首先,檢索依賴于網(wǎng)絡蜘蛛能找到的信息。其次,并非搜索引擎都使用相同的排名算法。搜索引擎用排名算法決定索引中的信息與用戶所搜索的關鍵詞的一致性。 搜索引擎在為文檔排名時,除了考慮文檔內容及其元信息外,還要考慮文檔受用戶歡迎的程度如外部鏈接和訪問量等因素。 Web搜索排名算法變化趨勢: Yahoo!為代表的第一代文本搜索算法;雅虎的人工分類方式,網(wǎng)站目錄搜索 第二代以PageRank和HITS為代表的基于鏈接分析的搜索算法; 第二代半基于網(wǎng)站的訪問量。 第三代應該具有智能化、個性化和社區(qū)化等特征。 隨著Web頁面不斷增加以及網(wǎng)絡規(guī)模不斷擴大,搜索引擎技術也在不斷完善。搜索引擎在判斷頁面的相關性時,要考慮內容、元信息、名氣、實際訪問量等因素。 在為頁面排名時,有兩種算法: 查詢無關的排名如PR,給索引庫中的每個頁面賦予固定的分數(shù)。 查詢有關或主題敏感的排名如HITS,根據(jù)具體查詢?yōu)槊總€頁面賦予一個分數(shù)。 1.1.4 Google的幾種排名算法 在最初的Google排名算法中: 首先,使用IR(Information Retrieve)算法找到所有與查詢關鍵字相匹配的網(wǎng)頁; 其次,根據(jù)頁面因素(標題、關鍵字密度等)進行排名; 最后,通過PageRank得分調整排名結果。 Web上的鏈接結構是一種有價值的信息資源,若能利用好這種資源,可以極大地提高檢索結果的質量。如今,Web鏈接被搜索引擎用作判定頁面質量的關鍵技術之一。為了給用戶提供更有價值的搜索服務,目前各引擎在原有相關性基礎上,逐步在排名規(guī)則中引入了網(wǎng)頁的鏈接流行度(Link Popularity),網(wǎng)頁的鏈接在其他網(wǎng)頁中出現(xiàn)的數(shù)量。 算法要分析的另外一個要素是頁面與其它頁面的的鏈接方式。通過分析頁面如何相互鏈接,搜索引擎就能決定頁面的主題(假如被鏈接頁面的關鍵詞相似于原頁面的關鍵詞)和頁面是否被認為是重要的。 基于鏈接的分析主要基于如下基本假定: 共享鏈接的Web頁面很有可能具有主題相似性 超文本鏈接包含了對目標網(wǎng)站的認可信息; 網(wǎng)站的外部鏈接越多,則排名越靠前。 并非所有鏈接都一樣,來自于高質量網(wǎng)站的鏈接權重高。 以上假設在各種基于鏈接分析的算法中均以某種方式體現(xiàn)出來。 基于鏈接分析的算法,提供了一種衡量網(wǎng)頁質量的方法:獨立于語言、獨立于內容。 1 PageRank算法 在基于鏈接分析的排序算法中,最為著名的就是PageRank。PageRank在Google中的應用獲得了巨大的商業(yè)成功。 Google的創(chuàng)始人拉里•佩奇等于1998年在史丹福大學發(fā)明了PageRank算法。PageRank算法是與查詢無關的、針對Web頁面排序的、最早應用鏈接分析技術的搜索引擎算法。 把鏈接視同為選票,Google的PageRank算法假定鏈接能作為網(wǎng)站編輯對頁面的質量和相關性的投票,即PageRank算法通過網(wǎng)絡中鏈接關系確定頁面的等級和相關性,其基本思想是試圖為可以搜索的所有網(wǎng)頁賦予量化值,其值由指向該網(wǎng)頁的所有網(wǎng)頁的值決定。Google為互聯(lián)網(wǎng)中每個頁面賦予的數(shù)值權重范圍是0-10,以表明頁面的重要性。Google根據(jù)投票來源(甚至來源的來源,即連結到A頁面的頁面)和投票目標的等級來決定新的等級。簡單地講,高等級頁面可以提升其它低等級頁面的等級。 PageRank依賴于Web特有的民主性,使用其巨大鏈接結構衡量頁面價值。Google把從A頁面到B頁面的連結解釋為A頁面給B頁面的投票。而且,Google 不僅僅依靠投票的數(shù)量即頁面得到的鏈接數(shù),它還有分析投票頁面的質量,即來自重要頁面的投票分量大。換而言之,頁面PageRank源于其它Web頁面對該頁面的重要性的投票表決。 PageRank的原理類似于科技論文中的引用機制:誰的論文被引用次數(shù)多,誰就是權威。在互聯(lián)網(wǎng)上,鏈接就相當于“引用”,在B網(wǎng)頁中鏈接了A,相當于B在談話時提到了A,如果在C、D、E、F中都鏈接了A,那么說明A網(wǎng)頁是最重要的,A網(wǎng)頁的PageRank值也就最高。 一個頁面的PageRankge由遞歸定義,依賴于其外部鏈接的數(shù)目及其PageRank。被許多具有高PageRank的網(wǎng)頁鏈接的頁面也得到高排名。若頁面沒有外部鏈接,也就得不到支持。 頁面的PageRank大致基于導入鏈接(inbound links)的數(shù)量和提供這種鏈接的網(wǎng)頁的PageRank。其他因素如關鍵字在頁面上的相關度、根據(jù)Google toolbar 計算的頁面的訪問量也影響著PageRank。為了防止人為操作、spoofing和Spamdexing,Google沒有公開影響PageRank的其它因素。 然而,Google不僅僅依靠這種投票。最重要的事情是要在網(wǎng)站上發(fā)布一流文章,以便自然得到鏈接。根據(jù)Google內部人士透露,最好的鏈接是自愿給出的,別購買或交換鏈接,否則會弄巧反拙,欲速則不達。 PageRank算法是一種獨立于用戶查詢的、離線的、被實踐證明具有快速響應能力和很高成功率的算法,然而它仍存在著明顯缺陷: 獨立于用戶查詢,不能夠應用于特定主題獲取信息; 偏重舊網(wǎng)頁,過分強調網(wǎng)頁的外部鏈接而忽視專業(yè)站點; 鏈接權威性可以從任何頁面到任何頁面,而無論主題的相關性,從而使得那些從完全不相關鏈接的網(wǎng)站也在搜索結果中排名靠前; 在實踐中,PageRank難以抵制人為的取巧操作。 Google TrustRank出現(xiàn)的背景。九十年代發(fā)明的PageRank確實是識別一流網(wǎng)站的好方法,它曾是Google算法的核心概念,對Google的成功功不可滅。但PageRank在計算網(wǎng)頁排名時,對鏈接的依賴程度很大。較高的PageRank總會產(chǎn)生較好的排名,這能通過外部鏈接實現(xiàn):付費鏈接和交換鏈接在互聯(lián)網(wǎng)上很流行,許多Web垃圾頁面出于商業(yè)目的而誤導搜索引擎,它們利用各種技術獲取在搜索引擎結果頁面(search engines' result pages,簡稱SERP)上的虛假排名。因此,較高的PageRank不再是質量的保證,Google的PageRank面臨著人為操作的巨大挑戰(zhàn)。單純依靠PR辦法已遭到了各種樣作弊行為的挑釁。因此需要其它技術去甄別良莠。 如何確定網(wǎng)頁的PR值?可利用google工具條,使之在瀏覽網(wǎng)頁時,自動出現(xiàn)其PR值?;虻卿?a href="http://tool./pr.html">http://tool./pr.html查詢PR值。 2 TrustRank算法 改進排名的主流技術之一是借助于人工,專家能準確描述對網(wǎng)站的信任程度、輕易識別出垃圾。雖然人工可以很容易識別這些垃圾,但評估所有頁面但代價很昂貴、是不可行的,所以就提出了一種半自動化技術方案。 TrustRank便應勢而生,TrustRank是一種由斯坦福大學和雅虎研究人員提出的鏈接分析技術。Trustrank的基本思想是在為網(wǎng)頁排名時,要考慮到該頁面所在站點的信任指數(shù)和權威性。 Trustrank旨在應對輕易操縱google排名、提升搜索結果質量的作弊手段。實施這一方法極大地增加了短時間操作排名的難度,迅速改善了搜索結果的質量。所有要以TrustRank值作為網(wǎng)頁排名的重要依據(jù),頁面的TrustRank用來評價其是否具有真正權威性。TrustRank用以將來自Spam的鏈接與優(yōu)質內容帶來的真正意義上的好評區(qū)別開來。 TrustRank的工作原理:先用人工去識別高質量的頁面(即“種子”頁面),那么由“種子”頁面指向的頁面也可能是高質量頁面,即其TrustRank也高,與“種子”頁面的鏈接越遠,頁面的TrustRank越低。 TrustRank采用半自動的方法區(qū)分垃圾文件和高質量較文件。依靠專家去評估一系列“種子”頁面的TrustRank值。一旦確定了“種子”頁面,就容易區(qū)分好頁面和垃圾頁面,通過機器分析鏈接結構來確定其它頁面的TrustRank值。 TrustRank的主要概念是: 高質量頁面一般不連接垃圾頁面,而垃圾頁面總試圖連接到好頁面以提高其聲望; 種子頁面的候選者是專業(yè)網(wǎng)站,它們只基于優(yōu)點而鏈接其它頁面,如政府網(wǎng)站、非謀利性網(wǎng)站和嚴格管理的網(wǎng)站(DMOZ、Yahoo目錄、Search Engine Watch等),它們不會鏈接垃圾頁面的。 最權威和可信的網(wǎng)頁就是”種子”頁面本身。 在處理上TrustRank分兩個步驟,源目標的選定和評分的傳遞。 讓專家手工識別出少量高質量網(wǎng)站,并賦予其信任值(trust value); TrustRank值會隨著頁面的傳遞而降低,隨著頁面與“種子”頁面的跨度增加,其TrustRank值就會越低; 與PR值原理類似,若網(wǎng)頁獲得了來自高TrustRank值網(wǎng)頁的連接,則也就獲得了高TrustRank值。通過分析這種鏈接結構,并以此比較其它頁面,進而發(fā)現(xiàn)那些沒有作弊可能性的頁面。TrustRank傳遞方式與PageRank相似,但web頁面沒有內在的TrustRank值,因此使得通過鏈接模式去獲取TrustRank值變得更加困難。 PageRank不是Google用于決定頁面相關性的唯一算法,TrustRank已經(jīng)被融入PageRank中以改善搜索相關性,其重要性不言而喻,甚至已經(jīng)超過PR值的作用。 而隨著時間的推移,Trustrank引起的新問題開始漸漸凸顯,成為google的新麻煩: 搜索結果充斥著著名和權威站點的影子,即使這些頁面內容可能是Spam。 用一些權重高的站點發(fā)布同樣的內容頁,排名要明顯高得多。 優(yōu)秀的個人或企業(yè)站點,尤其是新建的,即使內容再好,也難有排名優(yōu)勢。 這已嚴重影響了Google搜索結果的質量。因此,Trustrank在給Google帶來眾多積極意義的同時,其負面影響也凸顯。Google如何改進算法和彌補不足,我們拭目以待。 3 Hilltop算法 HillTop也是搜索引擎結果排序的專利,是Google工程師Bharat在2001年發(fā)明的。Google的排序規(guī)則經(jīng)常在變化,但變化最大的一次也就是2003年的基于HillTop算法的優(yōu)化。 HillTop算法的指導思想和PageRank的一致,都通過網(wǎng)頁被鏈接的數(shù)量和質量來確定搜索結果的排序權重。但HillTop認為只計算來自具有相同主題的相關文檔鏈接對于搜索者的價值會更大:即主題相關網(wǎng)頁之間的鏈接對于權重計算的貢獻比主題不相關的鏈接價值要更高。Bharat稱這種對主題有影響的文檔為“專家”文檔,從這些專家文檔頁面到目標文檔的鏈接決定被鏈接網(wǎng)頁的權重值。 Hilltop算法定義一個網(wǎng)站與其它網(wǎng)站的相關性,作為識別跨站點的鏈接交換干擾與識別相似鏈接的技術,以杜絕那些想通過任意鏈接來擾亂排名規(guī)則、那些想通過增加無效鏈接來提高網(wǎng)頁PageRank值的做弊行為。 HillToP算法基本過程可以分為兩步: 首先,根據(jù)查詢尋找“專家網(wǎng)頁”,專家網(wǎng)頁是關于一定主題、指向許多非隸屬網(wǎng)頁、其中至少有一個短語包含查詢關鍵詞的網(wǎng)頁。 其次,給頂部專家網(wǎng)頁鏈向的目標網(wǎng)頁打分,這個過程綜合了它與所有相關專家網(wǎng)頁的鏈接關系。 基于“專家”文檔的HillTop算法最大的難點是第一次“專家文檔”的篩選,目前,Google首先給了教育(.edu),政府(.gov)和非盈利組織(.org)站點很高的優(yōu)先級。 作為對原始PageRank算法的補充,Hilltop算法具有以下優(yōu)點 與原始的PageRank相比,Hilltop是主題靈敏的,通過來自“權威性”文擋的鏈接來確定網(wǎng)頁的可信度。對于具有同樣主題、PR相近的網(wǎng)頁排序,HillTop算法顯得非常重要。與以購買離題鏈接而獲得高排名相比,這更難以人為操作。Hilltop解決了這個問題,隨意性鏈接已經(jīng)失去往日的作用,即使仍有一定的價值,但與來自于專家網(wǎng)站的鏈接相比,不能相提并論。 Hilltop與Trust Rank相似,但更加自動化。它依賴于專家文檔和源于這些文檔的鏈接,如X鏈接到Y,Y鏈接到Z,那么X和Z也相關。 然而,Hiltop在應用中還存在如下一些問題: 專家頁面的搜索和確定對算法起關鍵作用,專家頁面的質量決定了算法的準確性;而專家頁面的質量和公平性在一定程度上難以保證。 Hiltop忽略了大多數(shù)非專家頁面的影響。 在Hiltop的原型系統(tǒng)中,專家頁面只占到整個頁面的1.79%,不能全面反映民意。 Hiltop算法在無法得到足夠的專家頁面子集時(少于兩個專家頁面),返回為空,即Hiltop適合于對查詢排序進行求精,而不能覆蓋。這意味著Hilltop可以與某個頁面排序算法結合,提高精度,而不適合作為一個獨立的頁面排序算法。 Hilltop中根據(jù)查詢主題從專家頁面集合中選取與主題相關的子集也是在線運行的,這與前面提到的HITS算法一樣會影響查詢響應時間。隨著專家頁面集合的增大,算法的可伸縮性存在不足之處。 1.1.5 HITS算法 HITS(Hyperlink-Induced Topic Search)是由Kleinberg在90年代末提出的基于鏈接分析的網(wǎng)頁排名算法。該算法與查詢相關。 用HITS算法評估網(wǎng)頁質量,可得到內容權威度(Authority)和鏈接權威度(Hub)。內容權威度與網(wǎng)頁自身直接提供內容信息的質量相關,網(wǎng)頁被引用得越多,其內容權威度越高;而鏈接權威度與網(wǎng)頁提供的超鏈接的質量相關,引用內容質量高的網(wǎng)頁越多,網(wǎng)頁的鏈接權威度越高。 一個好中心網(wǎng)頁應該指向很多權威性網(wǎng)頁,而一個好的權威性網(wǎng)頁則應該被很多好的中心性網(wǎng)頁所指向。對整個Web集合而言,Authority和Hub是相互依賴、相互加強、相互優(yōu)化的關系,這是HITS算法的基礎。 HITS算法的施行是“迭代—收斂”的過程,即網(wǎng)頁A鏈接權威度的數(shù)值是通過其鏈向的網(wǎng)頁的內容權威度決定的,而網(wǎng)頁A的內容權威度的數(shù)值則是由鏈向其的網(wǎng)頁的鏈接權威度決定的。Authority和hub的值相互遞歸定義,即authority的值是指向給頁面的hub值之和,而hub的值則是該頁面指向的頁面的authority值之和。 每個節(jié)點的Hub和Authority的值用下述算法計算: • 賦予每個節(jié)點的hub值和authority值都為1。 • 運行Authority更新規(guī)則。 • 運行Hub更新規(guī)則。 • Normalize數(shù)值,即每個節(jié)點的Hub值除所有Hub值之和,每個Authority值除所有Authority值之和。 • 必要時從第二步開始重復。 在實施中還要考慮被鏈接頁面的相關性。該算法要完成一系列迭代過程,每個迭代過程包含兩個基本步驟: • Authority值更新:更新每個節(jié)點的Authority值,為該節(jié)點指向的Hub的數(shù)值之和。即由信息Hubs鏈接的節(jié)點被賦予了高authority值。 • Hub值更新:更新每個節(jié)點的Hub值,使之等于它指向的每個節(jié)點的Authority值之和。即通過鏈接到同一主題的authorities節(jié)點的節(jié)點被賦予了高hub值。 因在上述偽代碼中,hub和authority的值不收斂,有必要限制該算法的迭代步數(shù)。方法之一是,在每步之后規(guī)范化hub和authority的值,即通過:dividing each authority value by the sum of all authority values, and dividing each hub value by the sum of all hub values. 與PageRank相似,HITS也是基于Web文檔鏈接的迭代算法,然而也有一些重要差別: • 它是在查詢時執(zhí)行,而不是在建立索引時執(zhí)行,與查詢性能如時間等相關。因此,賦予頁面的hub和authority權值也是query-specific。 • 它不是搜索引擎通用的技術(雖然據(jù)說Ask.com的Teoma使用了相似的算法)。 • 它計算了文檔的兩種權重即hub和authority,而非一種權重。 • 它只處理相關文檔的很小子集,而PageRank針對文檔全集。 1.1.6 微軟的BrowseRank技術 網(wǎng)頁被訪問的次數(shù)也是搜索引擎決定網(wǎng)頁排名的關鍵因素。通過搜索引擎訪問某個網(wǎng)頁時,搜索引擎對這種訪問是由記錄的,以便作為排名網(wǎng)頁的指標。在某些搜索引擎中影響排名的一個因素是點擊流行度,對在搜索結果中網(wǎng)頁鏈接的點擊次數(shù)、頁面被訪問的次數(shù)可能會被統(tǒng)計。經(jīng)常被點擊的頁面的點擊流行度就較高。當訪問者從搜索結果中點擊網(wǎng)站時,搜索引擎將給網(wǎng)站獎勵一定分數(shù)。如果網(wǎng)站得到較高的點擊量(根據(jù)IP地址),那么也將得到更多的分數(shù)。 谷歌在忙于改進PageRank,旨在使重要網(wǎng)頁得到高PageRank排名,而微軟稱PageRank沒有實現(xiàn)這個目標,因為它阻止不了人為提高網(wǎng)頁的重要性。微軟微軟稱BrowseRank方法更優(yōu)越、能成為搜索引擎的支撐技術,該技術在決定搜索結果的相關性時,考慮了用戶瀏覽網(wǎng)頁或網(wǎng)站的時間,反映出人類的實際行為。用戶行為數(shù)據(jù)可以由網(wǎng)絡客戶端的互聯(lián)網(wǎng)瀏覽器記錄和在網(wǎng)絡服務器上搜集。 微軟研究人員指出,用戶瀏覽圖更能確切地描述瀏覽者的隨機行進過程,因此,對計算頁面的重要性更有用。用戶訪問網(wǎng)頁的次數(shù)越多、在網(wǎng)頁上瀏覽的時間越長,網(wǎng)頁就可能更重要。利用這個圖評估數(shù)百萬用戶對網(wǎng)頁的重要性,進行“隱式投票”。 BrowseRank是可行方案嗎?我們拭目以待。然而它也有其以下軟肋: 因BrowseRank考慮了用戶在具體網(wǎng)站上的所用的時間,很明顯這有利于social networking網(wǎng)站。然而,這種網(wǎng)站的內容并非具有普遍價值或對大多數(shù)瀏覽者有用。這個因素使BrowseRank失效,因它能導致許多不相關的、垃圾的結果。 微軟認為,依賴于鏈接的PageRank不可靠,因Web上的鏈接可以由Web內容的創(chuàng)建者任意增減。而用戶行為的可靠性也值得懷疑,因這也能以各種方式操作。網(wǎng)站管理員不用購買鏈接,而是雇傭廉價的Web瀏覽者在其網(wǎng)站上“耕作”。 最大問題是如何獲得這種時間信息。網(wǎng)站需要傳遞這種信息的機制,這有待時日去實現(xiàn)。 用瀏覽時間評估網(wǎng)頁的重要性也不完全公道。因內容性網(wǎng)站盡量保持瀏覽者長時間瀏覽網(wǎng)站,而交易性網(wǎng)站聚焦于用戶如何盡快完成交易,導航性網(wǎng)頁也旨在那用戶快速導向目的網(wǎng)頁。 1.1.7 Alexa流量排名 Alexa通過Alexa工具條收集用戶上網(wǎng)信息、統(tǒng)計網(wǎng)站流量以及相關信息。要想獲得較好的Alexa流量排名,就應該下載和使用Alexa工具條,并倡導其他瀏覽者這么做。 Alexa為Alexadex.com提供搜尋引擎,并為A9.com搜尋引擎提供“網(wǎng)站信息”服務。 顯示在ALEXA工具欄和其它地方的流量排名則是以三月平均流量數(shù)據(jù)為基礎進行計算的。日流量反映網(wǎng)站單日流量,具有偶然性,而季度流量排名則比較客觀。持續(xù)流量能更好地衡量網(wǎng)站,所以選擇季度流量排名代表網(wǎng)站的總體流行程度。 Alexa流量排名基于Alexa工具條用戶一個季度的歷史流量數(shù)據(jù),是頁面瀏覽數(shù)和到達用戶數(shù)的綜合體現(xiàn)。 到達率(Reach)由某天訪問網(wǎng)站的Alexa用戶數(shù)目決定,被表示為瀏覽某個網(wǎng)站的互聯(lián)網(wǎng)用戶的百分比。Alexa的周平均到達率和季度平均到達率是日到達率的平均值。其季度變化取決于對比網(wǎng)站當前及前一季度的到達率。 頁面訪問量(Page Views)衡量Alexa用戶瀏覽某個網(wǎng)站的頁面數(shù)。同一用戶在同一天對同一頁面的多次瀏覽只被計算一次。頁面的人均PV就是指瀏網(wǎng)站覽該者每天瀏覽此頁面的平均值。其季度變化取決于比較網(wǎng)站當前PV和前一季度PV。 Alexa流量排名的特點是: Alexa流量排名只針對頂級域名(網(wǎng)站),而不為頁面、子域名提供單獨排名; 若子域名被識別為博客和個人主頁,則被單獨提供排名,排名規(guī)則與頂級域名一樣,但名次后帶有星號; 鏡像網(wǎng)站將被合并到原網(wǎng)站; Alexa取樣量大、資料易取得,被最廣泛用于評估網(wǎng)站的受歡迎度。 如何計算變動(Movers & Shakers)? 變動列表基于平均到達率(用戶數(shù)量)的變化。對于每個網(wǎng)站,計算平均周到達率,并將其與前些周的平均到達率進行比較。變化越明顯,該網(wǎng)站的名次就越高。變動列表中的百分比變化基于到達率變化情況。 值得注意,變動顯示的流量排名是周流量排名,這不同于在其它ALEXA服務上的季度平均流量排名和用來生成列表的到達率排名。 如何計算流量趨勢圖? 在趨勢圖中則采用日流量排名,可以更加清楚地反映短期的流量波動。趨勢圖呈現(xiàn)三日內日流量排名變化情況。在趨勢圖中,網(wǎng)站季度流量排名有可能高于其任何單日流量排名。任何天都有可能臨時出現(xiàn)排名突出的某些網(wǎng)站。但是如果某網(wǎng)站有著持續(xù)流量表現(xiàn),則有可能在整個季度的平均流量排名取得最佳名次。 軟肋: 流量排名基于分析Alexa工具欄用戶瀏覽網(wǎng)站的信息,經(jīng)過分類、篩選和計算這些信息,得到排名。Alexa只基于使用Alexa工具條(即Alexa“社區(qū)”)用戶的信息衡量網(wǎng)站瀏覽情況,而不能代表因特網(wǎng)的所有用戶的信息,Alexa承認排名中幾項不準確性: 使用量較小的網(wǎng)站很難準確估量。由于Alexa用戶庫是因特網(wǎng)民眾的樣本,流量相對低的網(wǎng)站可能因為樣本統(tǒng)計局限性而得不到精確排名。Alexa數(shù)據(jù)來源于數(shù)百萬Alexa工具欄用戶這種龐大樣本,仍不足以進行統(tǒng)計學計量、不足以精確地對每月訪客少于1000的網(wǎng)站進行排名,流量在100,000位以后的排名也不可靠。網(wǎng)站的流量越大(越靠近第一位),其流量排名越可靠。 所采用的樣本可能對不同瀏覽器的用戶存在高估或低估的情況,具體程度不得而知。Alexa樣本包括了IE、FIREFOX和MOZILLA用戶,而不支持AOL/Netscape和Opera用戶。 所采用的樣本可能對使用不同操作系統(tǒng)的用戶存在高估或低估的情況,具體程度不得而知。Alexa樣本中包括了內建于Windows、Macintosh和Linux的工具條。 在某些情況下,流量數(shù)據(jù)也許會受我們對“網(wǎng)站”的定義。如鏡像網(wǎng)站、域名、主頁的變更不能得到及時反映。 在安全頁面(HTTPS)上,Alexa工作欄將自動關閉,所以具備安全頁面的網(wǎng)站可能會在Alexa流量數(shù)據(jù)上得不到充分體現(xiàn)。 數(shù)據(jù)規(guī)范化?Alexa排名方法在校正了大量的潛在偏差后才計算排名。校正基于瀏覽者的地理位置。在統(tǒng)計瀏覽者的分布時做了校正,校正了從Alexa工具條中采集的數(shù)據(jù)的潛在偏差,以更好地表示那么沒有使用Alexa工具條的瀏覽者的情形 新排名算法除保留Alexa權威的流量和頁面瀏覽等數(shù)據(jù)外,還考慮了獲得的其它信息,如用戶忠實度、Google PR值、互聯(lián)網(wǎng)信任度、頁面數(shù)量等多個新指標。 Alexa排名與Google Page Rank的比較 PageRank用10以內的數(shù)字為頁面的外部鏈接的數(shù)量和質量排名;而Alexa排名基于近3個月的網(wǎng)站用戶數(shù)目和瀏覽的頁面數(shù)為網(wǎng)站排名。 Alexa從不基于網(wǎng)站因素而實施排名懲罰。 Alexa排名基于流量,而不主觀;Google排名基于Google算法,若不符合此算法,網(wǎng)站即使好,也可能排名為0。 1.1.8 谷歌搜索引擎的服務趨向 Google秉持著開發(fā)“完美的搜索引擎”的信念,“確解用戶之意,返回用戶之需”,堅持不懈地追求創(chuàng)新,不受現(xiàn)有模型限制,開發(fā)出了具有突破性的PageRank™技術,使得搜索方式發(fā)生了根本性變化,而在業(yè)界獨樹一幟。 在谷歌誕生10周年之際,谷歌副總裁梅耶爾近期在其博客上陳述了對搜索未來的一些想法。她認為,雖然90%的搜索問題已經(jīng)得以解決,但解決剩余10%的問題將需要幾十年的時間。梅耶爾把當前的搜索技術比作16、17世紀時的生物學和物理學,并稱由10條搜索結果鏈接組成的谷歌搜索頁面才是剛剛開始,在搜索結果中加入圖片、視頻、新聞、書籍和地圖的全面搜索是邁向正確方向的第一步。谷歌團隊一直在為豐富媒體搜索結果改進界面設計和用戶體驗。用戶將在未來幾個月能看到谷歌的這些最新成果。梅耶爾還相信個性化將成為搜索的重要組成部分,個性化搜索能夠更好的了解用戶需求,搜索引擎將能做得更好。未來的搜索引擎或許可以知道你的地理位置,可能知道用戶已經(jīng)了解了哪些信息或者稍早時候獲得的信息,還可能完全知道用戶的偏好。用戶的社交圈也同樣重要,需要更好的利用用戶的好友,從而了解用戶會閱讀哪些新聞,關注哪些本地事件。梅耶爾心目中理想的搜索引擎概念,即搜索引擎是你最好的朋友,能夠幫助你立即獲知全球所有信息,也是你所見過的或者知道的最好的照相存儲器。 1.2 搜索引擎優(yōu)化原理與策略 如今,Web瀏覽者已經(jīng)習慣于通過搜索引擎查詢信息,因此網(wǎng)站在搜索結果中的排名對增加流量很重要。搜索引擎優(yōu)化(Search Engine Optimization,簡稱SEO)技術有助于改善網(wǎng)站的外觀和質量、有助于提高網(wǎng)站在搜索引擎結果中的排名。網(wǎng)站在搜索結果中的排名越前,就越吸引瀏覽者訪問網(wǎng)站,被用戶訪問的機會也就越大。 搜索引擎優(yōu)化指通過提高在搜索引擎的的搜索結果中排名而增加網(wǎng)站訪問量的過程?;ヂ?lián)網(wǎng)用戶的習慣性行為是不逐頁點擊搜索結果。因此,網(wǎng)站在搜索結果中的排名對導向網(wǎng)站的流量至關重要。SEO有助于確保網(wǎng)站是搜索引擎可訪問的、增加網(wǎng)站被搜索引擎發(fā)現(xiàn)的機會。 根據(jù)搜索引擎的搜索與排名原理,對網(wǎng)站結構、網(wǎng)頁內容和布局、網(wǎng)站之間的互動等進行小而合理的修改,以改善網(wǎng)站在搜索引擎的搜索表現(xiàn),進而增加客戶發(fā)現(xiàn)并訪問網(wǎng)站的可能性。單看每個變化時似乎可有可無,但當與其它優(yōu)化結合起來時,就會對網(wǎng)站產(chǎn)生巨大影響,無論是用戶體驗的滿意度,還是在搜索引擎搜索結果中的表現(xiàn)。 SEO是一種網(wǎng)絡營銷方式,通過網(wǎng)站在搜索引擎中獲得較好排名而贏得更多潛在客戶。搜索引擎優(yōu)化的目的是讓搜索引擎蜘蛛更好地閱讀和抓取。通過總結搜索引擎的排名規(guī)律,對網(wǎng)站進行合理優(yōu)化,使網(wǎng)站在搜索引擎的排名提高,讓搜索引擎為網(wǎng)站帶來潛在客戶。 在實際操作中,SEO以關鍵字為中心,通過對網(wǎng)站內容,網(wǎng)站結構及外部鏈接等的優(yōu)化,使該關鍵字在搜索引擎查詢結果頁面上獲得理想排名,出現(xiàn)在靠前的位置。 SEO的工作方式。SEO通過了解各類搜索引擎如何抓取互聯(lián)網(wǎng)頁面、如何建立索引、以及如何確定搜索引擎結果對某些特定關鍵詞的搜索結果排名等技術,來對網(wǎng)站網(wǎng)頁進行相關的優(yōu)化,提升網(wǎng)站的綜合能力,從而提高在搜索引擎上的排名, 讓網(wǎng)站對搜索引擎友好是搜索引擎優(yōu)化的基礎。搜索引擎優(yōu)化建立在用戶搜索體驗為中心的基礎之上,通過提高網(wǎng)頁級別、建立合理而順暢的網(wǎng)站鏈接結構、豐富的網(wǎng)站內容及表現(xiàn)形式,使網(wǎng)站自身結構、網(wǎng)頁代碼適應搜索引擎的抓取文檔,進而在搜索結果上獲得較前排名。 SEO貫穿于網(wǎng)站策劃、建設、運營、推廣全過程,通過制定和執(zhí)行有針對性的網(wǎng)站優(yōu)化策略,依靠搜索引擎平臺為企業(yè)引入潛在用戶,是企業(yè)網(wǎng)站、商業(yè)網(wǎng)站開展網(wǎng)絡營銷推廣的重要方式。SEO分析的幾個切入角度: 從市場角度:分析網(wǎng)站定位、目標、資源、現(xiàn)狀,競爭狀況,確定核心關鍵詞等。 從技術角度:分析網(wǎng)站的結構、網(wǎng)站導航、內部鏈接、導出鏈接、域名、url等。 從推廣角度:網(wǎng)站導入鏈接,目前被搜索引擎收錄的情況等。 從運營角度:內容編輯質量、原創(chuàng)數(shù)量、更新速度、蜘蛛到訪頻率;網(wǎng)站硬件平臺質量,穩(wěn)定性,同IP網(wǎng)站搜索引擎表現(xiàn)。 從歷史角度:網(wǎng)站以往的推廣措施,是否受到過懲罰、排名歷史情況、域名注冊時間長短、網(wǎng)站是否進行過大的改版?主題定位是否發(fā)生了變化等。 1.2.1搜索引擎優(yōu)化原理 網(wǎng)站優(yōu)化與搜索引擎優(yōu)化不同。網(wǎng)站優(yōu)化包括網(wǎng)站搜索引擎優(yōu)化、網(wǎng)絡環(huán)境優(yōu)化和用戶體驗優(yōu)化。網(wǎng)站設計人員在設計網(wǎng)站時,往往主要考慮如何吸引用戶,而忽視了對搜索引擎的友好性。以下主要討論針對搜索引擎的優(yōu)化。 SEO雖然名義上是針對搜索引擎的優(yōu)化,但應該把優(yōu)化策略首先基于網(wǎng)站用戶的需求。用戶是網(wǎng)站內容的最終消費者,他們要利用搜索引擎找到具有相關信息的網(wǎng)站。僅僅聚焦于在搜索引擎結果中的排名,或許會弄巧成拙。 任何搜索引擎都有其獨特的排名算法,因此,在優(yōu)化時只能顧及大方向,然后綜合考慮各種搜索引擎的具體要求。根據(jù)經(jīng)驗,若面向百度則要注重網(wǎng)站內部優(yōu)化;若面向Google則要注重網(wǎng)站外部優(yōu)化。 使頁面對搜索引擎檢索容易!如何創(chuàng)建頁面,為搜索引擎蜘蛛提供它們想要的信息呢? 記住游戲規(guī)則,別著迷與設計頁面外觀或鏈接地址,而忘記了SEO基本規(guī)則。頁面需要上好內容、元標記、高聲望的鏈接、合適的關鍵詞,這樣才有可能登上搜索引擎排名前列。 蜘蛛是機器。在設計網(wǎng)站時,要牢記它將被機器閱讀。這意味著若你把主頁的標題換成圖片,蜘蛛就是識別不了標題,也不知道核心文本從哪里開始,雖然這對人沒有任何問題。 搜索引擎賴以文本而工作。它們檢索頁面內容、頁面標題、元標記等,并把這類信息記錄在數(shù)據(jù)庫中。沒有文本,搜索引擎就無所適從。而且,若搜索引擎觸及不到頁面,其上的文本也無濟于事。搜索引擎必須能根據(jù)主頁上的鏈接到網(wǎng)站的其它頁面,以便搜索其文本內容。 “Web網(wǎng)站如同沙土城堡而非銅墻鐵壁”,即Web網(wǎng)站建設是循序漸進過程,要做有規(guī)律地維護。 在設計和優(yōu)化網(wǎng)站時,要考慮哪些因素呢?從搜索引擎蜘蛛的視角看,搜索引擎蜘蛛在檢索、抓取和分析頁面時會遇到哪些問題?解決了這些問題的網(wǎng)站就是搜索引擎友好的。 搜索引擎蜘蛛能不能找到網(wǎng)頁很關鍵。要讓搜索引擎找到主頁,就要有外部鏈接,在找到主頁之后,還必須能找到內部網(wǎng)頁,也就要求網(wǎng)站具有良好的物理結構,網(wǎng)頁之間要有良好的鏈接結構(邏輯結構),所有頁面都要能從主頁開始,順著鏈接能找到,最好在3次點擊之內,鏈接以文字鏈接最好。網(wǎng)站需要有網(wǎng)站地圖,把所有重要網(wǎng)頁都列上。 搜索引擎蜘蛛找到網(wǎng)頁后能不能順利抓取到網(wǎng)頁也不容忽視。只要搜索引擎能順利找到、抓取和分析網(wǎng)頁內容,網(wǎng)站才是搜索引擎友好的。同時網(wǎng)頁的HTML代碼要做優(yōu)化處理,格式標簽要少,內容要多,整個文件要小。 應該排除那些不利因素,如flash和java script等;使用這些技術得不償失,它們不能給網(wǎng)站增色,往往有害于網(wǎng)站的表現(xiàn)。如果必須要使用這些腳本,把它們作為外部文件。把CSS也要放在外部文件中。 網(wǎng)站設計越簡單越好。文字內容的比重應該大于HTML格式的比重。整個網(wǎng)頁應該規(guī)范化,應該在所有瀏覽器上能正常顯示。符合HTML3.2標準,搜索引擎蜘蛛目前還不太適應HTML4.0標準。 若網(wǎng)頁是由數(shù)據(jù)庫動態(tài)生成的,那么URL一般要改寫成靜態(tài)的,即要去掉URL中參數(shù)符號和Session ID等。搜索引擎并非無能讀取這種URL,但是為了避免陷入無限循環(huán),而通常遠離這類URL。若網(wǎng)站整體上基于flash,那也沒辦法讀取。框架結構(frame)是搜索引擎蜘蛛的大敵??傊?,要盡量去除不必要的、搜索引擎不能讀的東西,如像音頻文件,圖片,彈出窗口等。 1.2.2 搜索引擎優(yōu)化策略 用戶在使用搜索引擎查詢信息時,實際上是在搜索被搜索引擎預整理好的網(wǎng)頁索引數(shù)據(jù)庫。當用戶查找某個關鍵詞的時候,所有包含該關鍵詞的網(wǎng)頁都將被作為搜索結果并按照相關指標排列和顯示出來,如網(wǎng)頁與搜索關鍵詞的相關度、網(wǎng)頁被引用(鏈接)的程度等。 SEO策略指利用各種資源以充分發(fā)揮SEO作用的手段。SEO在原則上基于搜索引擎排名原理,但還要考慮其它相關因素,如服務器的性能、網(wǎng)站結構、網(wǎng)頁布局、內容與主題、關鍵詞選取與布置等。注重用戶體驗的網(wǎng)站自然會受到用戶的追捧,優(yōu)質內容自然也會獲得更多的外部鏈接。 在優(yōu)化時,要把關鍵詞的選取和布局、網(wǎng)頁內容的創(chuàng)建及其描述和布局放在首位;內部鏈接(邏輯結構)同目錄結構基本上屬于同一個層次;外部鏈接是網(wǎng)站的流量的重要來源。 若在激烈的市場競爭中占有一席之地,要有持續(xù)不懈的SEO策略,即監(jiān)視網(wǎng)站,確保排名穩(wěn)定;持續(xù)的鏈接發(fā)展運動,要考慮瀏覽者因素;要理解SEO需要時間,不是一周可以見效的事情,往往需要數(shù)月才能見效;要理解SEO應該是在線營銷策略的組成部分,有利于提高網(wǎng)站流量;增加網(wǎng)站流量才是最終目標。 搜索引擎關注,文本(關鍵詞)即與潛在用戶在搜索引擎中輸入的查詢字符串相匹配的單詞和短語;網(wǎng)站導航即搜索引擎蜘蛛能輕易跟蹤的網(wǎng)站導航URL結構,對網(wǎng)站的鏈接(外部鏈接)即標志著網(wǎng)站的流行度。因此SEO的基本概念有: 關鍵詞,利用針對潛在用戶的文本,吸引搜索引擎和外部站點的鏈接。 導航模式,有助于瀏覽者和蜘蛛能輕易找到內容。 設計要素,確保細節(jié)不破壞SEO效果。 Page Rank,研究鏈接策略以提高網(wǎng)站的流行。 搜索引擎優(yōu)化是一個持續(xù)過程。網(wǎng)站排名可能會波動。競爭對手們也在優(yōu)化他們的網(wǎng)站、更新頁面內容,搜索引擎也在不斷地更新排名算法。 1.3 網(wǎng)站結構及其優(yōu)化 網(wǎng)站結構設計要清晰明了,容易被用戶瀏覽和被搜索引擎爬蟲抓取。網(wǎng)站結構分為兩種,即邏輯結構和物理結構。 物理結構指網(wǎng)站真實的目錄及文件所存儲的位置所決定的結構。物理結構可以有兩種:扁平式結構,所有網(wǎng)頁都存在網(wǎng)站根目錄下,這比較適合于小型的網(wǎng)站;但被事實證明是很見效的方法。樹型結構,根目錄下分成多個子目錄,然后在每一個子目錄下再放上相應的網(wǎng)頁,對稍有些規(guī)模的網(wǎng)站來說,樹型邏輯結構比較容易管理。 邏輯結構(也稱為鏈接結構)是由網(wǎng)頁內部鏈接所形成的邏輯的或鏈接的網(wǎng)絡有向圖。搜索引擎更關注由鏈接形成的邏輯結構,被收錄的容易性在于離主頁有幾次點擊距離,而不是它的物理位置。蜘蛛根據(jù)網(wǎng)站的內部鏈接處理頁面,首先處理根目錄中的頁面,其次是第一級目錄,或許會處理第二級目錄,但通常不會處理第三級目錄。因此,大多數(shù)專業(yè)網(wǎng)站具有扁平結構。 1.3.1 服務器與域名選擇 服務器的地區(qū)分布影響排名。對于搜索引擎而言,針對不同的區(qū)域,有不同的搜索結果。SEO的排名效果不是為了網(wǎng)站管理員自戀,而是為了為其吸引潛在客戶。相同的英文關鍵詞,用相同的方法,放在美國服務器上的網(wǎng)站總排在搜索結果的首頁。所以服務器的區(qū)域選擇應選瞄準潛在客戶群體所在的區(qū)域。 同樣,服務器性能對搜索引擎也至關重要。服務器速度快了,蜘蛛爬行網(wǎng)站候效率就高,用戶滿意度也高。服務器運行要穩(wěn)定,能提供7X24服務。 如何檢查服務器質量?通過檢查服務器上網(wǎng)站被搜索引擎收錄情況而定。檢查步驟是:首先檢查服務器上放了多少網(wǎng)站?根據(jù)如下工具可以查出有多少域名指向同一個IP:(http://www./ip-domains.html)。其次,選擇其中的www.###.com,在Google中輸入:site:www.###.com,檢查Google收錄該網(wǎng)站頁面的情況。若發(fā)現(xiàn)Google還沒有收錄它,就多查幾個網(wǎng)站,若大部分都是沒有被Google收錄,則很可能該服務器被Google處罰過的。一般而言,被google處罰的域名(網(wǎng)站)比較多,而被Google處罰的服務器相對較少。 域名選擇。應該選擇容易建立品牌的域名,選擇諸如Google.com的域名,而不是keyword.com。域名當中所包含的關鍵詞曾經(jīng)有作用,但現(xiàn)在的作用非常小,充斥著關鍵詞的域名應該被拋棄。 二級域名和目錄。二級域名在中文網(wǎng)站中很流行,其中充斥著大量垃圾內容。建議使用目錄,除非在特別需要時,不要輕易使用二級域名。 設計與優(yōu)化原則如下:域名若要包含關鍵詞,可以選擇與關鍵詞相關的英語域名或漢語拼音域名。文件名要用關鍵詞,并且各個單詞之間要用中橫線“-”分開,不要用下橫線。頂級域名比二級域名和子目錄優(yōu)先(知名網(wǎng)站、權威網(wǎng)站的二級域名除外)。二級域名比欄目頁有優(yōu)勢,欄目頁比內頁有優(yōu)勢。靜態(tài)路徑比動態(tài)路徑有優(yōu)勢。目錄的層次不要太深,最多不要超過3層,層次越深,權重越低。 1.3.2 網(wǎng)站地圖及其提交 創(chuàng)建蜘蛛友好的網(wǎng)站地圖,以便搜索引擎蜘蛛發(fā)現(xiàn)所有頁面。因此,主頁上要有對網(wǎng)站地圖的鏈接。網(wǎng)站地圖本質上是網(wǎng)站頁面的分類列表。網(wǎng)站地圖分為兩種,即普通Html網(wǎng)站地圖(文件名為“sitemap.htm”)和XML Sitemap:普通Html格式的網(wǎng)站地圖,目的在于幫助用戶從宏觀上了解網(wǎng)站。Html格式的網(wǎng)站地圖根據(jù)網(wǎng)站結構特征制定,盡量把網(wǎng)站的功能結構和服務內容富有條理地列出來。首頁底部應有指向這種網(wǎng)站地圖的鏈接,其貓文本為“Site Map”。XML Sitemap通常稱為Sitemap,包括所有URL、頁面更新時間、URL的相對權重等。制作并給搜索引擎提交Sitemap,以便網(wǎng)站內容被搜索引擎更好地收錄。XML Sitemap 可以幫助搜索引擎機器人抓取原本不好獲得的、隱藏比較深的頁面。 若站點很簡單、所有頁面均可通過html鏈接到達,且層次不超過三層,則不用XML Sitemap也會被全部收錄。雖然說網(wǎng)站排名與XML Sitemap并沒有直接的關系,但因為XML Sitemap為搜索引擎提供了站點的更多信息,有利于搜索引擎更好地評估站點,有助于提高其排名。 1. 向搜索引擎提交網(wǎng)站 為了便于被搜索引擎及時發(fā)現(xiàn),有必要向搜索引擎及其關注的著名目錄提交網(wǎng)站。最簡單方式是把網(wǎng)站所有頁面的URL單獨列出來,命名為Sitemap.txt,然后直接提交給Google。其它搜索引擎則不支持這種方式。對于Google搜索引擎,XML Sitemap可以放在任何能爬取到的位置,包括其他網(wǎng)站上,通過Google網(wǎng)站管理員工具把存放地址提交Google;對其他搜索引擎而言,需要放在網(wǎng)站根目錄,同樣需要提交。 以下是向幾個重要搜索引擎提交網(wǎng)站的地址: 百度:http://www.baidu.com/search/url_submit.html Google:http://www.google.com/intl/zh-CN/add_url.html Google網(wǎng)站地圖注冊:https://www.google.com/webmasters/sitemaps/login 中國雅虎:http://search.help.cn.yahoo.com/h4_4.html 微軟Live&Msn:http://search.msn.com.cn/docs/submit.aspx 網(wǎng)易有道:http://tellbot./report
2. 向分類目錄提交網(wǎng)站 為了便于被搜索引擎及時發(fā)現(xiàn),還有必要向著名的分類目錄提交網(wǎng)站。 分類目錄分為免費登錄和付費登錄,都須通過手工輸入登錄。在分類目錄上發(fā)布網(wǎng)站信息非常重要,其重要性不在于訪問者是否通過目錄鏈接找到網(wǎng)站,而主要在于通過這些目錄使網(wǎng)站獲得了重要的、高質量的外部鏈接。因此,對于網(wǎng)站提高排名具有舉足輕重的作用。對于中文網(wǎng)站來說,最重要的分類目錄有開放式目錄ODP、Yahoo!門戶搜索引擎目錄等。 在免費分類目錄中,最著名的是開放式目錄庫Open Directory Project:www.。向ODP提交網(wǎng)站是網(wǎng)站完成后的首要工作。雖然ODP目錄是免費的,但要接受較為嚴格的人工審核和較長等待期,并且不能保證一提交就成功,可能需要反復提交。以下是提交必須遵守的注意事項:確保網(wǎng)站內容是原創(chuàng)而非轉載、鏡象或復制,不要采用虛假、作弊和夸張手段,確保網(wǎng)站具有良好外觀,確保網(wǎng)站中包含具體聯(lián)系信息,確保網(wǎng)站提交到正確的目錄,記下提交日期、目錄名和編輯郵箱。網(wǎng)站一旦被DMOZ收錄,那很快就可以被Google、Lycos、Netscape、AOL、HotBot和DirectHit等大型搜索引擎和門戶網(wǎng)站收錄。 3 創(chuàng)建網(wǎng)站地圖的工具 eXactMapper Lite,自動創(chuàng)建專業(yè)網(wǎng)站地圖.為用戶提供三種不同的、可定制的html/dhtml網(wǎng)站地圖的風格,包括UL列表,母本樹和索引頁。 SiteMapBuilder.NET,可自行創(chuàng)建Google XML網(wǎng)站地圖或以網(wǎng)站地圖為基礎的文本,能檢查出URL錯誤。需要NET框架支持。 Sitemap Creator,將目錄結構輸送到html文件上后創(chuàng)建網(wǎng)站地圖。不需要瀏覽在線網(wǎng)站. Sitemap 4 traffic,可以創(chuàng)建Google和html網(wǎng)站地圖,檢查不健全的鏈接,支持網(wǎng)站文件。需要Net框架1.1版本或更高版本和瀏覽器6+支持。 用生成器創(chuàng)建Sitemap,見http://www.google.cn/support/webmasters/?hl=zh-CN。 4. 搜索引擎的沙盒效應(Sandbox) 新上線的網(wǎng)站起初在Google很難有好的排名,甚至沒有排名,這種現(xiàn)象被稱為沙盒效應(Sandbox)。 Google的沙盒效應一般會持續(xù)6個月至一年,期間新站應該不斷完善。期間需要不斷提交網(wǎng)站,因它有可能被搜索引擎刪除掉。這是游戲規(guī)則,需要認真對待。在沙盒效應過后,一般會有不錯的排名。百度對新站也有一個為期2個月的建立信任期,這兩個月內,若頻繁修改網(wǎng)站結構、文章標題,會造成百度對站點信任度的降低。 凡事不能立竿見影。獲得良好的搜索引擎排名也需要時間。這是識別專家和班門弄斧者的方法之一。搜索引擎不愿意公布其方法和技術,這屬于商業(yè)機密。但很多事實說明了時間的重要性。搜索引擎不相信新網(wǎng)站會有良好表現(xiàn),新網(wǎng)站尚處于搖籃期有待成熟,把新網(wǎng)站當真未免顯得太憨;這樣也可以減輕搜索引擎的處理壓力。很多搜索引擎可能在網(wǎng)站上線六個月之后才去檢索。如同新入盟公司的職員要經(jīng)歷試用期以便確認其能否勝任工作,沙盒效應大多用于阻止垃圾網(wǎng)站。當網(wǎng)站處于沙盒效應中時,網(wǎng)站管理員要不斷地上傳原創(chuàng)性文章,以便自然地增加其外部鏈接。新網(wǎng)站即使已經(jīng)做了很好的SEO優(yōu)化,如擁有豐富的相關內容、大量的高質量外部鏈接、網(wǎng)站URL搜索引擎友好和網(wǎng)站結構用戶體驗友好等,但在剛上線的幾個月內,在Google上幾乎沒有好排名。 如前所述,Google的TrustRank用于評估網(wǎng)站的可信度,以便進一步改進其搜索結果的效能和相關性。決定TrustRank的主要因素是域名年齡和鏈接源網(wǎng)站的質量。最好的方法是要有規(guī)律地增加新內容,順其自然;而不要認為操縱鏈接、購買付費鏈接或濫用關鍵詞。 Sandbox和trustrank在本質上幾乎是同一算法的二個極端。沙盒效應是網(wǎng)站管理員想擺脫的狀態(tài),而trustbox則是網(wǎng)站管理員想獲得的狀態(tài)。當站點的Trustrank非常低時,該站點便進入了所謂的Sandbox,隨著站點的信任指數(shù)逐漸增加,就逐步從Sandbox過度到正常狀態(tài),再進入trustbox狀態(tài)。在Sandbox中,站點不受搜索引擎注意;而trustbox中,站點會受到搜索引擎的格外重視。若站點處于sandbox狀態(tài),不妨樂觀地認為站點進入了trustbox,尚需贏得足夠信任而已。擺脫SandBox的站點才可能獲得高TrustRank值。 1.3.3 蜘蛛搜索協(xié)議(robots.txt) 蜘蛛搜索協(xié)議robots.txt(Robots Exclusion Protocol)是業(yè)界的事實標準,它不屬于任何標準化組織。網(wǎng)站管理員可利用該協(xié)議件對robots作出訪問限制。沒有作出明確限制,就被認為是允許robots檢索的。Google、雅虎和微軟搜索引擎都尊重robots.txt文件及Meta標簽的標準規(guī)范和約束。 一般把robots.txt放在根目錄下,當Robot訪問Web站點時,先檢查根目錄中是否存在文件robots.txt文件。若存在,它便會分析該文件,以確定是否應該訪問該站點及其文件;通常,瀏覽者看不到這個文件。 Robots.txt有兩個元素,即User-agent和Disallow。其記錄格式是: <field>:<optionalspace><value><optionalspace>。 其記錄通常以一行或多行User-agent開始,后面加上若干Disallow行,表示不希望Robot訪問的URL,每個URL必須單獨占一行,不能出現(xiàn)Disallow: /cgi-bin/tmp/之類的語句。 相關幾個參數(shù)的意思如下:User-agent,用于描述搜索引擎robot的名字,如果有多條User-agent記錄說明有多個robot會受到該協(xié)議限制;如果需要限制robots,那么至少要有一條User-agent記錄。如果該項的值設為*,則該協(xié)議對任何蜘蛛都有效,User-agent: *只有一條。Disallow,該值用于禁止robot訪問的URL,URL是完整路徑或相對路徑。 在使用robots.txt是,要考慮以下兩點:一是有些Robots不顧及robots.txt,如探測web安全漏洞的惡意蜘蛛、電子郵件地址harvesters。二是Robots.txt文件對公眾是開放的,任何人都可以看到服務器對蜘蛛作出的訪問限制。因此,別用robots.txt去隱藏信息,要隱藏信息就得通過服務器設置。 在建設網(wǎng)站時,良好規(guī)范是要在根目錄中包含robots.txt文件,即使不想限定搜索引擎的搜索也罷。robots.txt起碼有助于搜索引擎避免浪費時間去處理圖像目錄,因蜘蛛不愿勞心去完全檢索網(wǎng)站,特別針對新網(wǎng)站。Robots.txt有助于引導搜索引擎檢索網(wǎng)站的重要頁面。 兩種robots.txt工具。robots.txt checker能檢查網(wǎng)站的robots.txt文件和元標簽。IP Lookup有助于找出那些蜘蛛訪問了網(wǎng)站。 1.3.4 鏈接優(yōu)化策略 鏈接是網(wǎng)站排名的重要因素,因此要為搜索引擎準備充分的基本鏈接(大多數(shù)搜索引擎不搜索動態(tài)鏈接)以便搜索。站點地圖是為搜索引擎提供鏈接的很好方法,因此網(wǎng)站應提供基本鏈接地圖。 鏈接是從網(wǎng)頁指向另一個目標的連接關系,這個目標是Web上的任何信息資源,如網(wǎng)頁、圖片、程序、相同網(wǎng)頁上的其他位置。如果單擊鏈接上的文字或圖片,則相當于指示瀏覽器移至同一網(wǎng)頁內的某個位置,或打開一個新網(wǎng)頁。鏈接的貓文本很重要,從搜索引擎的角度出發(fā),鏈接不要用FLASH按鈕和圖片,而是使用文本,其中應有策略性關鍵詞。 鏈接以特殊編碼的文本或圖形形式來實現(xiàn)信息資源之間的連接。鏈接是網(wǎng)頁內的對象,在本質上屬于網(wǎng)頁的有機組成部分。各個網(wǎng)頁鏈接在一起后,才真正構成網(wǎng)站。 鏈接的URL是信息資源的地址,如http://www.baidu.com。完整的URL包括協(xié)議、域名、端口號、目錄名和文件名。 常用的鏈接分類方法有,根據(jù)鏈接對象分為文本超鏈接、圖像(多媒體)鏈接和E-mail鏈接等。根據(jù)鏈接方向分為導出鏈接、導入鏈接和內部鏈接。根據(jù)鏈接的范圍,分為頁內鏈接和頁外鏈接。根據(jù)鏈接地址的完整性分為絕對URL鏈接、相對URL鏈接和網(wǎng)頁內部鏈接即書簽。根據(jù)頁面是否在服務器上存在分為動態(tài)連接和靜態(tài)連接。 設計和優(yōu)化鏈接的策略有七個。 1. 書寫得體的URL 一切以瀏覽者為中心。在靜態(tài)網(wǎng)頁時代,基于內容的邏輯性,把文檔組織在目錄中。如有新聞頻道,就放在/news/year/month/目錄中。而在動態(tài)地呈現(xiàn)內容時,這種約定就不能用了。 隱藏所使用的技術。良好的網(wǎng)站結構要求在鏈接中不能暴露網(wǎng)站技術。如當主頁是default.asp時,人們能猜測出網(wǎng)站的制作技術。這還不是關鍵問題所在。當要用PHP重寫網(wǎng)站時,那么需要把URLs從.asp換成php。而其例外是.htm 或.html頁面,可用任何web語言創(chuàng)建。隱藏技術的另一個優(yōu)點是使黑客對網(wǎng)站的破壞更加困難。 若不費力,也應該在URL中包含關鍵詞。讓用戶看到URL,就可以大致了解網(wǎng)頁的主題和內容。URL中的關鍵詞對搜索引擎排名還是有作用的,用dashes分開。我們不能保證這是谷歌算法的因素,但排名在前的頁面大多在域名或頁面URL中包含關鍵詞。即使它不是谷歌的計算因素,而肯定是一些小搜索引擎的計算因素。但最好不要為了放關鍵詞,而把目錄名文件名弄得很長、包含過多的單詞則肯定被搜索引擎視為作弊。 若在目錄名文件名中放上中文字,或者有時候有空格,這樣的URL出現(xiàn)在瀏覽器地址欄的時候,都會變成一些編碼字符。雖然搜索引擎可以辨識,但不雅觀。 用連詞符,在URL、目錄名、文件名中,單詞之間最好用連詞符-,這是IT規(guī)范。不要用下劃線_,肯定不能用空格,空格在搜索結果中被編碼成“%20”,很不雅觀的,部分舊瀏覽器也難處理空格。連詞符會被當作空格處理,看起來整潔,在google中也有良好表現(xiàn)。 大小寫,URL中最好統(tǒng)一全部使用小寫字母。大多數(shù)網(wǎng)站基于Unix/Linux服務器,后者對大小寫字母敏感。小寫字母便于人識別和鍵入。 URL靜態(tài)化,這幾乎是必須的。不要爭辯說有很多帶有一兩個問號的URL都被收錄得很好。其實能做得更好也很簡單,不要去跟做得不好的看齊。許多搜索引擎不能處理動態(tài)URLs。 圖片鏈接的注釋,要為鏈接增加title=“注釋內容”。圖片注釋標簽,alt=“注釋內容”,ALT注釋要簡明,不要冗長,否則會被視為作弊。 2. 鏈接的錨文本 鏈接的錨文本(Anchor Text)是鏈接中的可見、可點擊的文本。包含在錨文本中的單詞能決定頁面在搜索引擎上獲得的排名。錨文本通常給出鏈接目標文件的內容的相關描述或語境信息。錨文本在搜索引擎算法中的權重很高,因目標文本通常與源頁面相關。搜索引擎的目標是提供很相關的搜索結果,這是錨文本的重要性所在,因趨勢是錨文本與源頁面相關。 網(wǎng)站管理員可利用錨文本獲取在搜索引擎結果頁面中高排名。Google的網(wǎng)站管理員工具實施這種優(yōu)化,要求網(wǎng)站管理員研究導入鏈接的貓文的單詞。 錨文本可以與鏈接地址的實際內容相關,也可以不相關。因此,Google bombing就利用錨文本作弊。但從2007年1月起,Google更新了其算法,減少了Google bombs的影響。 錨文本,對頁面的描述比頁面本身更準確,尤其對不能被基于文本的搜索引擎所檢索的文檔如圖像、程序和數(shù)據(jù)庫而言,因此錨文本的意義比頁面大。 錨文本描述目標頁面的內容,影響著該頁面的相關性,因此避免使用“click here”鏈接。 3. 網(wǎng)站導航與內部鏈接 網(wǎng)站既有物理結構,又有邏輯結構(頁面之間相互鏈接)。網(wǎng)站要具有明確的邏輯層次結構,這可用文本鏈接導航或圖像導航實現(xiàn)。整個網(wǎng)站的結構看起來更像蜘蛛網(wǎng),既有欄目組成的主脈,也有網(wǎng)頁之間的適當鏈接。所有網(wǎng)頁上都要有指向網(wǎng)站地圖頁面的鏈接。導航模式要有利于瀏覽者和搜索引擎。若網(wǎng)站沒有導航模式,頁面排名將不會很好。 文本鏈接,大多數(shù)搜索引擎對文本鏈接比較友好,用于一級或二次導航,每個頁面都應從一個文本鏈接能到達。若利用圖像導航,則要使用alt文本。避免使用JavaScript,除非為網(wǎng)站提供二級文本導航模式。 有問題的導航模式是,Poor HTML coding,圖像導航、Frames、JavaScript、動態(tài)頁面、Flash頁面。 合理的網(wǎng)站鏈接結構有以下特點: 首先,要建立完整的網(wǎng)站地圖。網(wǎng)站地圖是方便搜索引擎和用戶快速查找信息的,網(wǎng)站地圖中的鏈接指向網(wǎng)站的重要網(wǎng)頁,應該在首頁給予其鏈接指向,以便搜索引擎發(fā)現(xiàn)和抓取該網(wǎng)頁。 其次,網(wǎng)站導航是為引導用戶訪問網(wǎng)站的的欄目、菜單、在線幫助、布局結構等形式的統(tǒng)稱。網(wǎng)站導航的目的在于引導用戶方便地訪問網(wǎng)站內容,告訴瀏覽者網(wǎng)站的主要內容和功能,告訴瀏覽者所在網(wǎng)站的位置,告訴瀏覽者訪問過的頁面(鏈接為紫色)。網(wǎng)站導航是評價網(wǎng)站專業(yè)度、可用度的重要指標。導航結構要清晰明了,網(wǎng)站導航鏈接是搜索引擎蜘蛛向下爬行的重要線路,也是保證網(wǎng)站頻道之間互通的橋梁,超鏈接要用文本鏈接,盡量使用文字導航(文字鏈接)。網(wǎng)站導航中的鏈接文字應該準確描述欄目內容,即鏈接文字中要有關鍵詞,但不要在這里堆砌關鍵詞。在網(wǎng)頁軟文中提到其他網(wǎng)頁內容時,要使用關鍵詞鏈接到其他網(wǎng)頁。網(wǎng)站導航中的文字鏈接如何放置需要一定的策略,這跟網(wǎng)站頻道的重要性或者說網(wǎng)站的特色有關,一般按頻道的重要性依次排列。若要使用圖片作為網(wǎng)站導航鏈接,那就對圖片進行優(yōu)化,以圖片鏈接指向頁面的主要關鍵詞作為ALT內容,另外在圖片下搭配文字鏈接作為輔助。 再者,面包屑導航的意義在于明確告知用戶目前處于網(wǎng)站的何種位置,方便用戶通過該導航快速達到上級頁面,這種導航的設計是應該在當前窗口打開的。面包屑導航應該列出用戶所處頁面的所有上級網(wǎng)頁的名稱及鏈接,這里是文字鏈接,若頻道名稱、分類名稱、子分類名稱設計得好,則下級頁面通過以關鍵詞為錨文本的鏈接指向上級頁面。 外部鏈接對網(wǎng)站排名至關重要,反向鏈接中的關鍵詞是排名的重要因素之一。但也不要忽略了站內鏈接(內部鏈接或交叉連接)的作用 。內部鏈接旨在把網(wǎng)站內高質量的內容連接起來。對Google來說,基于相似內容的相互鏈接對網(wǎng)站內分享PR是非常重要的。以實現(xiàn)網(wǎng)站PR的傳遞和流動,好的網(wǎng)站整體結構,其PR傳遞應該是很均勻的,首頁最高,欄目頁次之,內容頁再次。網(wǎng)站不需要使其他網(wǎng)頁黯然失色的某個明星網(wǎng)頁,如果發(fā)現(xiàn)網(wǎng)站里面有一頁確實吸引大部分流量,那么就應該把該頁的PR通過鏈接分散到其他網(wǎng)頁。若用戶在瀏覽完一篇文章后,文章內容結尾處提供了相關文章,很可能通過相關文章進行深入挖掘,這種方式可以使用戶達到最大的滿意度。但要注意網(wǎng)頁離首頁不能超過三個層次。因此,可以通過網(wǎng)頁鏈接影響PR值的傳遞,使某一頁或重要頁面PR值和重要性升高。內部鏈接可用nofollow控制權重分布,若在鏈接放上nofollow,可以主動控制鏈接權重及PR在網(wǎng)站中的分布。 4. 圖像鏈接的Alt描述 Alt描述是在圖像裝載前在圖像位置上顯示的文本。其正常用法是在瀏覽器不能顯示圖像時為瀏覽者顯示該文字。 利用貓文本去顯示關鍵詞是一種作弊手段,曾被濫用,被植入長串關鍵詞列表,蜘蛛不理會它們或甚至懲罰這種濫用。 5. 增加反向鏈接的策略 用戶通過超級鏈查找網(wǎng)站內容,搜索引擎蜘蛛通過跟蹤頁面中的鏈接以完成對網(wǎng)站信息的檢索和處理。 對搜索引擎尤其對Google而言,決定網(wǎng)站排名的關鍵因素是外部有多少高質量的鏈接指向這個網(wǎng)站。外部鏈接或反向鏈接或導入鏈接(Inbound links或backlinks)指從其它網(wǎng)站指向自己網(wǎng)站的鏈接。如前所述,外部鏈接相當于是對頁面的投票,當網(wǎng)站被其它網(wǎng)站鏈接時,相當于為該網(wǎng)站投了贊成票,這對提升網(wǎng)站PR值和搜索引擎排名有益。 如何精確查詢網(wǎng)站的反向鏈接數(shù)量?反向鏈接可以用語法來查:link:url。如要查百度的反向鏈接,就輸入“link:www.baidu.com”。 基于Page Rank的優(yōu)化技術 鏈接流行度(Link Popularity)是評價Web知名度的基本指標,基于外部鏈接數(shù)目為頁面的賦值;各種搜索引擎的流行度算法不同,Google的算法是Page Rank,其賦值為0-10。網(wǎng)站來自流行頁面的外部鏈接越多,頁面的流行度排名越高;即反向鏈接數(shù)量越多,說明站點越有價值,網(wǎng)站流行度越高。鏈接流行度不是本網(wǎng)站所能控制的,但可用策略來提高鏈接流行度。因此,有必要適當?shù)亟炔挎溄右越o頁面?zhèn)鬟fPR值。 影響流行度的因素有外部鏈接的錨文本、外部鏈接的數(shù)目及其流行度。注意,流行度是針對頁面的,而不針對網(wǎng)站;流行度也不能被繼承。 因此,選擇鏈接源網(wǎng)頁的原則是,高PR值頁面;或PR值不是太高但導出鏈接較少的頁面;或權威網(wǎng)站的主要頁面。因此,除了追求PageRank外,要聚焦于權威性鏈接。一個高PR值的網(wǎng)站的鏈接勝于多個低PR值的鏈接。 獲取反向鏈接的方法很多,比如向著名搜索引擎目錄如Yahoo和DMOZ提交(有助于蜘蛛發(fā)現(xiàn))、專家鏈接誘餌、與主題相關的網(wǎng)站建立互惠鏈接(友情鏈接)、網(wǎng)絡廣告、站點合作等等。當然其關鍵是網(wǎng)站的質量要高,有規(guī)律地更新內容,提供有價值的信息,其它網(wǎng)站管理員發(fā)現(xiàn)它有價值,就會主動進行鏈接,這都有助于提高網(wǎng)站的排名。一般而言,大多數(shù)SEO公司將推薦應該尋求鏈接的網(wǎng)站類型,如組織結構的網(wǎng)站、專業(yè)社區(qū)網(wǎng)站等。 基于Trust Rank的優(yōu)化技術 Hilltop和TrustRank是Google用于防范垃圾和過分使用SEO技術的措施。在這兩者實施之前,搜索引擎優(yōu)化技術人員能通過獲得高PR鏈接而穩(wěn)居關鍵詞查詢結果排名的前列。而使用這兩個算法后,這種游戲就有點困難。 Google利用Trust Rank區(qū)分種子頁面和商業(yè)垃圾頁面。因此SEO面臨的挑戰(zhàn)是如何找到這些種子頁面或網(wǎng)站,并設法取得從這些頁面的鏈接。 在分析要獲得鏈接的潛在網(wǎng)站時,尋找種子網(wǎng)站或有種子網(wǎng)頁的網(wǎng)站。域名年齡很重要,因新商業(yè)域名不會被標記為種子網(wǎng)站,而那些開展免費服務和研發(fā)某些業(yè)務模型的老域名更有可能是種子網(wǎng)站或含有種子頁面。若認為某個網(wǎng)站有種子潛力,那么值得努力去從中獲得鏈接,這或許需要你花費時間或資金,但至少將獲得一個高質量鏈接。 因TrustRank問世較早,很有可能已經(jīng)被Google改進和優(yōu)化。無疑,權威性鏈接是有價值的,種子是權威性鏈接的核心所在。 基于Hilltop的優(yōu)化技術 基于Hilltop的優(yōu)化需要找出專家文檔并設法從中獲得鏈接。這是基本的鏈接優(yōu)化策略:致力于從最權威的網(wǎng)站獲得鏈接。 尋找權威性網(wǎng)站的簡易方法是在搜索結果中尋找具有權威列表的站點,權威里表中包括sitelinks。Site links(image example)是搜索結果中的第一個鏈接。有些網(wǎng)站具有很高的權威性,and rank for generic terms with sitelinks.一般而言,sitelinks are shown for brand searches like “seo chat,” 而一旦網(wǎng)站被顯示成具有通用術語如“seo”的sitelinks,則說明該網(wǎng)站是那個主題上的高度可信的權威。 萬變不離其宗,建立鏈接要基于信息相關性。網(wǎng)站管理員題突出,就受到用戶親睞,得到的外部鏈接就越多。 如今PageRank技術日趨復雜,如能識別和忽視關鍵詞堆砌等,這沉重打擊了那些企圖通過建立人工鏈接去提高排名的網(wǎng)站管理員。但別受“鏈接數(shù)量之上”的說法愚弄,對于排名而言,質量優(yōu)于數(shù)量。建立豐富而有質量的反向鏈接始終是SEO重要工作之一。 6. 建立反向鏈接要謹慎 隨著互聯(lián)網(wǎng)的發(fā)展,搜索引擎調整算法的頻率越來越快,垃圾頁面可以鉆營的空間自然也就越來越少?;谶@種考慮,那種號稱能迅速讓網(wǎng)站獲得成百上千鏈接的自動處理方案應該被淘汰,這類鏈接來自鏈接養(yǎng)殖場(link farm),而后者是所有搜索引擎打擊的對象。 有些網(wǎng)站為了防止瀏覽者在評論或日志中添加垃圾鏈接,使用了nofollow屬性。賦予鏈接nofollow屬性很簡單,只需在鏈接代碼中加入rel=‘nofollow’。 目前主流博客如WordPress和MovableType均自動為其留言中的鏈接添加nofollow屬性,旨在杜絕作弊者試圖通過這種方法提高其網(wǎng)站的流行度。這相當于告訴搜索引擎該鏈接所指向的網(wǎng)頁非我所能控制,對其內容不予置評,或者該鏈接不是對目標網(wǎng)站或網(wǎng)頁的“投票”,搜索引擎在計算目標的網(wǎng)站的鏈接流行度時,不考慮該鏈接。 但nofollow屬性并沒有真正解決博客的垃圾問題。究其原因:首先,很多人并不清楚nofollow的含義,仍以為通過評論垃圾可以提高網(wǎng)站的鏈接流行度。其次,縱使明白這不能提高網(wǎng)站在搜索引擎結果頁面(SERP)中的排名,鏈接是用戶到達網(wǎng)站的途徑,只要廣泛地添加鏈接,積少成多,也會提高自己網(wǎng)站的訪問量。 7. 動態(tài)鏈接的靜態(tài)化 動態(tài)頁面的鏈接是動態(tài)產(chǎn)生的,在返回頁面內容之前,動態(tài)腳本需要一些信息,如cookie data、session id或字符串。動態(tài)頁面是基于數(shù)據(jù)庫驅動的,通過腳本語言動態(tài)產(chǎn)生的頁面。動態(tài)網(wǎng)站中有模板,內容一般存放于數(shù)據(jù)庫中。要瀏覽頁面時,模板調用數(shù)據(jù)庫中的內容,參數(shù)被添加到URL上, 這種復合型URL告訴了模板要裝載的具體內容。瀏覽者在動態(tài)網(wǎng)站中通過使用查詢字符串發(fā)現(xiàn)信息,這種查詢字符串被鍵入表單中或被預先編碼在主頁上的鏈接中。 蜘蛛不清楚如何使用查詢功能,若蜘蛛用沒有查詢字符串的不完整向服務器提交,服務器會要求信息完整地址,這是蜘蛛不能理解的,從而可能陷入了一種死循環(huán)中。搜索引擎難以處理動態(tài)網(wǎng)站,因不能提供產(chǎn)生頁面需要的信息,會陷入到動態(tài)頁面服務器中而不能自拔,蜘蛛和服務器陷入無限循環(huán)之中,會導致服務器癱瘓。因此,動態(tài)網(wǎng)頁內容對大多數(shù)搜索引擎蜘蛛是不可見的,大多數(shù)蜘蛛反感動態(tài)頁面,在識別出這種URL后,會敬而遠之。不會檢索它。因此需要把這些有價值的內容轉換成隨蜘蛛可見的形態(tài)。 這種復合型URLs 是搜索引擎難以檢索的,因搜索引擎不知道定義內容的參數(shù)。參數(shù)越多,越難以被檢索到。為此,需要克服這種不完整地址問題。有兩種解決方案: 搜索引擎友好的動態(tài)頁面,修改URLs,參數(shù)越少越好,最好把頁面靜態(tài)化,一般采用如下兩種方法。 建立靜態(tài)網(wǎng)關頁面,連接網(wǎng)站中的網(wǎng)頁。確保鏈接地址完整,不需要臨時產(chǎn)生,即不包含?符號,在需要時,服務器能轉換這些靜態(tài)鏈接以便蜘蛛不同回答問題就能直接訪問動態(tài)頁面。這種網(wǎng)關頁面要有豐富的文本,以免被蜘蛛忽視。這適合于動態(tài)頁面較少的情形。 對系統(tǒng)做技術維護,使服務器能應對蜘蛛的訪問,把“?”用其它符號如“/”代換。這種方法的實施依賴于Web服務器的種類和集成數(shù)據(jù)庫和Web網(wǎng)站的技術:Apache有一個特制的重寫模塊(mod_rewrite),允許把包含查詢字符串的URL轉換形成搜索引擎能跟蹤的URL。Active Server Pages:大多數(shù)搜索引擎能檢索.asp頁面,若URL中不含問號。XQASP提供的一個產(chǎn)品能自動地用“/”代替URL中的問號。 1.3.5 URL檢測工具簡介 檢測網(wǎng)站URL結構、無效鏈接等的工具,其地址分別是:www./soft/XENU.ZIP,http://validator./checklink 相似頁面檢測工具,對比兩個頁面間的相似度,來判斷是否有受到懲罰的危險,其地址是:www./similar-page-checker.php 蜘蛛程序模擬器,模擬蜘蛛可抓取到的文本及鏈接,其地址分別是:www./search-engine-spider-simulator.php,www./seotoolkit/spider_viewer.asp CheckWeb,強大的分析鏈接工具.可以查看在線和下線的HTML網(wǎng)頁,并對鏈接、錯誤和網(wǎng)頁大小信息作出報告。 Mihov Link Checker,檢查網(wǎng)站上多個鏈接和本地網(wǎng)頁.報告鏈接的狀態(tài),如空白網(wǎng)頁,錯誤網(wǎng)頁,被禁止訪問。可以將鏈接隱藏在文本文件中,只要點擊網(wǎng)頁就能自動彈出來。 SiteLinkChecker,檢查網(wǎng)站壞掉的鏈接,使用方便。輕而易舉地鎖定壞掉的鏈接和有句法錯誤的鏈接,并報告每個鏈接的狀態(tài)。 1.3.6 鏈接流行度檢測工具簡介 Indexa,顯示Google的網(wǎng)頁級別,記錄Google,Yahoo,MSN,Altavista和AlltheWeb上的返回鏈接數(shù)量和網(wǎng)頁數(shù)量。 Link Popularity Check,檢查網(wǎng)站流行度,查出在五大搜索引擎中競爭對手。 BackLinks Master,查出導入鏈接,分析鏈接是否是直接鏈接和錨文本中的關鍵字。 www.,綜合利率網(wǎng),查詢含鏈接廣度、PR、ALEXA排名。 www./publinkpop,可同時與多個競爭對手網(wǎng)站進行比較。 www.,同時檢測10個著名搜索引擎的收錄情況。 www./link_popularity_checker.asp,檢測網(wǎng)站的鏈接流行度。 www./directory/index.php,檢查網(wǎng)站是否登錄分類目錄。 1.4 網(wǎng)頁優(yōu)化 Web頁面由兩部分組成,即<head>和<body>。瀏覽器一般顯示網(wǎng)頁<head>中的頁面名稱(title)、鏈接地址(URL),和<body>中的正文。 在設計和優(yōu)化網(wǎng)站時,首先要考慮這些因素,優(yōu)秀的網(wǎng)站內容要包括:原創(chuàng)內容較多,容易被眾多網(wǎng)站引用,引用的過程中一般都會給這個頁面加有鏈接,所以這個頁面可以獲得較好的評分,排名自然會好;網(wǎng)站內容豐富,豐富的網(wǎng)站內容會讓Google收錄網(wǎng)站許多內容,網(wǎng)站各個頁面之間的鏈接有利于其提高網(wǎng)站各個頁面的在Google中的評分。合理調整頁面中關鍵詞的頻率,關鍵詞在網(wǎng)頁中出現(xiàn)的頻率保持在3%-8%比較好。網(wǎng)頁文本中的關鍵詞要專門突出:可以用<B></B>來突出,也可以用醒目的顏色來突出。網(wǎng)頁內容的邏輯層次要清新,要用標題標簽,其中要包含關鍵詞。網(wǎng)頁中導出鏈接要少。圖片要加上alt注釋,要合理地加圖片說明,但不要在說明中堆積關鍵詞。同時為頁面文件減肥。 其次考慮搜索引擎要利用的元數(shù)據(jù)如關鍵詞、描述元標簽等。 1.4.1 合理設計頭標簽<head> 頁面文件的頭標簽包括<title>標簽和一些元標簽<meta>。大多數(shù)web 搜索引擎不太考慮描述標簽以外的元標簽。 1. Title標簽 title標簽是最重要的HTML標簽,其中的文本內容是瀏覽器中的醒目提示欄和書簽中的題目;title標簽中的文本將被用作搜索結果中頁面的標題,對搜索引擎至關重要,是搜索引擎決定頁面排名的重要因素之一,理應受到重視, 頁面<title>是頁面名稱,要盡可能具體。如公司的主要業(yè)務是在倫敦銷售teapots,則應命名為“Teapots for sale London”,而不是“Home”。 因此,盡量使用與文本內容和關鍵詞匹配的頁面title內容,考慮通過搜索引擎查詢頁面關鍵術語,并把這些術語以簡短描述的方法是融入到title標簽中。 titile不超過25漢字,對頁面唯一,在title中合理突出1-2個關鍵詞。 2. Meta標簽 元標簽用于提供有關HTML文檔的信息即結構化元數(shù)據(jù)(元數(shù)據(jù)是有關數(shù)據(jù)的信息)。元標簽是隱藏標簽,用于表達瀏覽者所不關心的信息,瀏覽器不顯示這類信息,對于頁面瀏覽者是不可見的;但元標簽常用于協(xié)助搜索引擎正確地分類頁面,是搜索引擎可理解和解析的。搜索引擎蜘蛛要利用這類信息去了解要抓取的頁面。 元標簽有四個屬性,即content、http-equiv、name和scheme,其中只有content是必要的屬性。元標簽總以name/value對形式提供信息。Content提供名值對信息信息,它可以是出現(xiàn)在引號中的合法字符串。Name和http-equiv屬性提供名稱信息,一些常用名稱是:標識頁面主題的單詞關鍵詞(keywords),它有助于搜索引擎分類網(wǎng)站。對頁面的簡短描述(Description),應包含關鍵詞,這個標簽享有搜索引擎的廣泛支持,很值得使用,使用該標簽的搜索引擎將在顯示鏈接列表時提供這個標簽的內容。用于限制搜索引擎搜索頁面的Robots,這個標簽得到搜索引擎的全面支持,但只有在不想讓搜索引擎檢索頁面時,才需要它。網(wǎng)頁編碼和語言注釋標簽:主要是面向瀏覽器的,不同語言的編碼都不同,所以做外文網(wǎng)站的時候一定要注意,最好用潛在客戶使用的操作系統(tǒng)的編碼,要不然潛在客戶看到的網(wǎng)頁將是亂碼。其它可選元標簽:任何其它元標簽被大多數(shù)搜索引擎忽視,雖然可能被少數(shù)搜索引擎使用,如版權和作者信息等。 元標簽曾經(jīng)是搜索引擎優(yōu)化的焦點之一。在1990s中后期,搜索引擎依賴于元標簽去分類頁面,網(wǎng)站管理員隨即就明白了元數(shù)據(jù)的商業(yè)價值,即在搜索引擎中的排名會帶來網(wǎng)站的高流量。隨著搜索引擎流量在網(wǎng)絡營銷中日益重要,那些熟悉搜索引擎如何處理網(wǎng)站的人(咨詢師)便粉墨登場,利用各種技術(無論合法與否)去為其客戶改善排名,利用各種方法為網(wǎng)站在搜索引擎上提供較好的排名。一些作弊行為,如元標簽中的關鍵詞無限堆砌,企圖回避搜索引擎排名算法,因此元標簽曾被嚴重濫用。隨著搜索引擎蜘蛛日趨完善,元標簽的作用急劇減小,如今元標簽業(yè)已失去往日風光。 但仍有必要重視元標簽,因有些搜索引擎仍然對元標簽感興趣。元標簽內容要簡短,與正文內容一致。若過分重視元標簽以愚弄搜索引擎,就會被揭穿并受到應用的懲罰。元標簽不是把網(wǎng)站推送到搜索結果頁面前列的“銀彈”。它們是工具,有助于提升網(wǎng)站在那些使用元標簽的搜索引擎中的排名。利用它們可使網(wǎng)站的更多頁面被收錄和瀏覽。 元標簽主要面向搜索引擎,關鍵詞和描述盡可能對頁面是唯一的,即不能被多個頁面共用。 關鍵詞早期被大多數(shù)搜索引擎使用;但其作用越來越小,目前對Google已經(jīng)沒有用了,對個別搜索引擎的排名還有一定作用。然而,對解析的關鍵詞的數(shù)目有限制,因此,要慎重使用關鍵詞。其設計原則是簡明,若用多個關鍵詞,用英文逗號格開,即關鍵詞要用最簡單、最明確的內容。 其設計原則是:每個頁面要有獨特的、與網(wǎng)頁內容相符合的、簡明的關鍵詞和描述信息。元信息長度要合理,不超過50個漢字;在描述中核心關鍵詞出現(xiàn)4次左右。 Robots允許說明不讓搜索引擎檢索的頁面或跟蹤其中的鏈接。要排除蜘蛛搜索,可在相應頁面中加入這種說明性標簽。這種標簽得到搜索引擎的廣泛支持,有些搜索引擎也對robots標簽做了擴展。robots是一種事實標準,詳見http://www./meta.html。 Robots元標簽的格式為:<meta name="robots" content="index,follow">。其中,name屬性是robots,content的值用逗號隔開,只有某些組合才有意義,其缺省值是"index,follow",即蜘蛛將檢索網(wǎng)站所有頁面,并將跟隨其中的鏈接。content的合法值是index、noindex、follow或nofollow等。index指Robot可以索引含此標簽的網(wǎng)頁,Noindex指不要索引含此標簽的網(wǎng)頁。follow指Robot可以跟蹤含此標簽的網(wǎng)頁里的特定鏈接,Nofollow指不要跟蹤含此標簽的網(wǎng)頁里的特定鏈接。Archive指蜘蛛可以存儲含此標簽的網(wǎng)頁的快照,Noarchive指蜘蛛不要存儲含此標簽的網(wǎng)頁的快照。Nosnippet指蜘蛛不要在搜索結果頁的列表里顯示含此標簽的網(wǎng)站的描述語句,并且不要在列表里顯示快照鏈接。Noodp指蜘蛛不要使用開放目錄中的標題和說明。 在使用robots時,要考慮兩點。蜘蛛可不理會元標簽,特別是黑客探測web安全漏洞的惡意蜘蛛、電子郵件地址harvesters。元標簽不是阻止搜索引擎檢索網(wǎng)站內容的最好方法,不必使用robots標簽去幫助頁面得到檢索,這是多此一舉。更可靠和有效的方法是利用蜘蛛訪問協(xié)議即Robots.txt文件,而不需要逐頁添加robots標簽。Nofollow指令只適用于本頁面上的鏈接,別與rel="nofollow"鏈接屬性混淆。 3. 幾種元標簽生成器 BHead,用于建立完整的標題區(qū),包括CSS層疊樣式表。生成所有正在流行的meta標簽代碼,可創(chuàng)建專門的標簽;引出文件的關鍵字和文件的描述;具有編輯彩色樣式表格和檢查拼寫,更換搜索,語法凸嵌等功能。 Metty Meta Tag Maker,可同時創(chuàng)建33個meta標簽,讓搜索引擎毫不費力地索引到網(wǎng)站。容易使用,無須具備meta標簽知識基礎。 Search Engine Buddy,無論網(wǎng)頁在線還是離線,都能分析其meta標簽和網(wǎng)頁內容,創(chuàng)建最好的meta標簽,根據(jù)要求創(chuàng)建相關的網(wǎng)頁內容,分析搜索引擎的排名算法。 MetaWizard,簡單的基本meta標簽創(chuàng)建工具,為網(wǎng)頁建立基本的標簽。 1.4.2 網(wǎng)頁內容 大多數(shù)搜索引擎注重頁面的文本內容和頁面題目,并認為其搜索相關性高于元標簽。因此,要保證頁面有相關的標題和內容。這將比只適用元標簽更能改善排名。 內容很重要,許多搜索引擎開始應用Latent Semantic Indexing技術,即更加看重在內容中相關術語的頁面,而不是術語重復出現(xiàn)多次的內容。相關、及時和唯一的內容自然會被鏈接。網(wǎng)站的內容要豐富、網(wǎng)站原創(chuàng)內容要多、用文本來表現(xiàn)內容,更新要及時。 1. 關鍵詞豐富的文本 內容寫作要注重內容質量、更新頻率、與關鍵詞的相關性。 搜索引擎關注頁面<h>標簽中的內容,并認為緊跟其后的內容才是最重要的文本區(qū)。大多數(shù)搜索引擎注重文本的開始內容,根據(jù)具體搜索引擎而異,開始文本單詞的數(shù)量依次降低,一般以50個單詞為單位。要在文本中使用關鍵詞,把關鍵詞放置在段落和標題的開始很重要;文本首先是為人寫的,其次是為搜索引擎寫的,使關鍵詞醒目也有作用。文本中的關鍵詞為每個頁面選擇一兩個關鍵詞或短語,用用戶熟悉的語言,別濫用,以免形成關鍵詞堆砌而受到搜索引擎懲罰。 根據(jù)經(jīng)驗,吸引蜘蛛的原則是:一是要提供文本和注重正文。Google喜歡內容,特別是高質量的內容。沒有文本的頁面很難獲得高的排名,這點對主頁特別重要。若主頁上沒有文本,那么蜘蛛可能會立即停止搜索。有規(guī)律地更新;實效性的、主題性的文章永遠最好。原創(chuàng)的內容最佳,切忌被多次轉載的內容;內容獨立性,與其他頁面至少30%互異。別做任何重復,若重復了關鍵詞,將受到懲罰。二是內容圍繞頁面關鍵詞展開,與網(wǎng)站管理員題相關。研究關鍵詞,找出好點子,寫好新網(wǎng)頁,即以一系列關鍵詞為基礎的內容。三是分段要合理;并且也是邏輯分割;使用黑體等醒目標識強調重點。四是提高寫作技巧,學習適合網(wǎng)上人群的寫作方式:多分段,短句子,讀起來快的內容,因大部分網(wǎng)站訪客不是讀,而是瀏覽。四是蜘蛛有停止詞列表,主要涉及成人內容和褻瀆性語言。當發(fā)現(xiàn)這種關鍵詞時,蜘蛛就會放棄這種網(wǎng)站。若某個頁面有這種關鍵詞,可以在robots.txt文件中限制對它的訪問。五是若頁面中有大量鏈接,要確保有相關的文本內容伴隨。純鏈接頁面總被蜘蛛忽視,甚至會受到懲罰,而若有描述則可避免這個問題。 2. 權重性標簽 <titles>和<h>標簽非常重要,是搜索引擎優(yōu)化的日常工作重點。對頁面中的關鍵內容如關鍵詞,可使用下屬權重性標簽進行標注,以體現(xiàn)其關鍵性:H1、H2等標簽;粗體、斜體和下劃線標簽。 總之,SEO友好的網(wǎng)頁設計,應該做到:網(wǎng)站的各個頁面結構盡量保持簡單和一致。網(wǎng)頁文件大小適中,以便提高搜索引擎讀取時的速度。為網(wǎng)頁指定明確單一的內容主題。通過頻道導航(特別是首頁),并在網(wǎng)頁中放置關鍵字,以及在頻道導入、導出鏈接中,用關鍵字突出主題。不要輕易使重定向、框架等對搜索引擎不友好頁面處理方式。盡量把關鍵字放到網(wǎng)頁文件名,圖片名,圖片替代文字中。通過頁面的title和description突出主題。標題(title)最好控制在40-60個字母以內,并將關鍵字置于其中以突出主題。把關鍵字和文章分段標題,重要段落用顯現(xiàn)方式突出網(wǎng)頁要表達的主題??梢酝ㄟ^關鍵字在文章標題,正文,顯現(xiàn)方式,出現(xiàn)的頻率來體現(xiàn)頁面的獨特性。網(wǎng)站欄目網(wǎng)頁內容保持規(guī)律的更新,通過評論等形式保持頁面內容更新。盡量不要出現(xiàn)大量相同或相似的內容頁面,文章正文內容不要過短。 1.4.3 頁面框架 為便于一次性更新網(wǎng)站的導航菜單,為瀏覽者提供統(tǒng)一的導航菜單、站點名稱和站標,大多數(shù)網(wǎng)站管理員喜愛框架(Frames)。框架本質上是頁面內的頁面,因破壞了Web賴以存在的一個文檔對應一個URL的模式,因此給瀏覽者和搜索引擎帶來了特殊問題。 瀏覽者不能為基于框架的站點的內部頁面做書簽(bookmark),當他們點擊鏈接瀏覽那些基于框架的內部網(wǎng)頁時,不能導航到網(wǎng)站的其他頁面。當搜索引擎用戶點擊搜索結果列表中的基于框架的網(wǎng)站的頁面鏈接時,能完全看到內部頁面,但沒有任何方法去瀏覽該網(wǎng)站的其它頁面,因該內部頁面在被瀏覽器裝載時,相應的<frameset>沒有被裝載,因此沒有導航菜單。當framed頁面出現(xiàn)在Google搜索結果中時,總顯示<frameset>頁面的<title>和<meta>描述信息,而不是頁面的<title>和<meta>描述信息,因此用戶不愿意點擊的。解決方案是利用JavaScript技術,通過跟蹤下面鏈接,JavaScript檢測當被包含在<framset>中頁面被直接裝載到瀏覽器時,自動地以在<framset>中的位置重新裝載該頁面。這不是萬靈藥,還需要在內部網(wǎng)頁中包含<noscript>信息,為那些不能運行JavaScript的用戶,以免pop-up windows和安全威脅。 基于框架的網(wǎng)站也困擾著SEO和排名。搜索引擎排名算法主要基于鏈接流行度,網(wǎng)站的主頁通常最好。而在基于框架的網(wǎng)站上,主頁只包括<frameset>布局和“Your browser doesn't support frames”,而信息在<noframes>部分。其不當之處在于<frameset>中沒有相關的內容,因此搜索引擎無法對這種網(wǎng)頁進行排名操作。其優(yōu)化方法是,<noframes>部分應包含一個微縮主頁,以便搜索引擎獲得更多的資料,而非僅有標題。用<h1>標簽顯示合適的headline,另配有關鍵詞豐富的文字段落,這樣使得基于框架的主頁有機會與其它主頁競爭。還要包括到網(wǎng)站中最重要頁面的常規(guī)HTML鏈接。若使<noframes>部分如同正常頁面,也也能如正常頁面那樣獲得高排名。 總之,F(xiàn)rames困擾著大多數(shù)蜘蛛,移去那些使用框架的頁面時不我待,無論代價多大。若絕對不能避免時,要知道到在設計網(wǎng)站時如何處理框架的技術,以減少這種問題。若非要用frames不可,那么要利用好<noframes>標簽,并在其中包括:向網(wǎng)站地圖的鏈接、或列出指向頁面及其直接鏈接的內容頁面(而非指向framesets的鏈接)??梢酝ㄟ^使用JavaScript,在瀏覽器中跟隨鏈接時,迫使framesets出現(xiàn),這是蜘蛛總忽視的。這需要做很多工作,但至少可以使之出現(xiàn)在了搜索引擎結果列表中。 1.4.4 頁面代碼的優(yōu)化(代碼減肥) 網(wǎng)頁文件越小越好,這很難做到,但卻很有效。代碼優(yōu)化對搜索引擎有效,對訪客也有效。速度很重要。代碼肥大或許與SEO無關。龐大的代碼很不雅觀,因此應審視網(wǎng)站,為網(wǎng)頁減肥。代碼肥大指那些標記多而內容少的頁面,有些工具可以顯示頁面中內容的百分比。減少不必要的代碼,下述是幾個代碼肥大的主要原因及其解決辦法。 1.重用相同的css類導致代碼肥大 <div id="menu"> <a class="menu-item" href="foo.htm">Foo</a> ******** </div> CSS: a.menu-item { color: red;} 許多人用"menu-item" class設置風格,而更好的方法是用"menu"屬性設置: <div id="menu"> <a href="foo.htm">Foo</a> ********* </div> CSS: #menu a { color: red; } 優(yōu)化后外觀幾乎一樣,而HTML更容易閱讀,也沒有代碼肥大問題。 2. 無用的元標簽 許多元標簽其實沒有什么作用,如關于語言、作者、版權、類型、主題等標簽,需要消除。只需保留desc、keywords和robots標簽。 3. 表格(table)肥大 可把表格轉換成列表,如各種list。 4. CSS肥大 為CSS文件減肥,可減少25-50%,這可利用Clean CSS工具。 5. 所見即所得(WYSIWYG)肥大 WYSIWYG編輯器也是代碼肥大的罪魁禍首。如它產(chǎn)生下述代碼: <span style="font-weight: bold;">This is bold text</span> 更好的方法如下: <strong>This is bold text</strong> 或<b>This is bold text</b> <strong>標簽用于強調文本,而<b>標簽用于使文本醒目。這在瀏覽器中沒有差別,瀏覽者能辨認出這種差別,Google也不在乎用那種。 6. 注釋肥大 注釋有利于向其他開發(fā)人員解釋代碼的作用,也占用寶貴的帶寬,而導致注釋肥大,特別在Javascript、HTML和CSS文檔中。消除Javascript中的注釋,能減少頁面大小25-50%,這很值得。同時也值得檢查引用的javascript庫文件。CSS很復雜,如注釋價值就不大。HTML中的注釋也需要消除。 7. Session ID肥大 這是很多人意識不到的問題。在PHP中,session ID是32個字符,并依附于頁面中每個鏈接。session ID肥大:32字符x 50個鏈接=1.6kb。 除此外,session ID對SEO是危險的,因此無論如何應排除URLs中的ID。 總之,上述僅是為網(wǎng)頁減肥的部分方法,Google偏愛潔凈的代碼,但不盡然。即使為了瀏覽者,也有必要為代碼減肥,起碼可以減少帶寬占用??傊趯嵤r要注意,利用外部Javascript和CSS 以減小頁面下載時間,避免使用Frames,對于只含F(xiàn)lash的頁面,要包括skip鏈接、title和元描述標簽,在請求者是搜索引擎蜘蛛時,省略Session IDs。 1.4.5 網(wǎng)頁級別測試工具簡介 PaRaMeter,可以檢查和監(jiān)督Google大多數(shù)的網(wǎng)頁級別,只要打開網(wǎng)頁就可以輕易看到其網(wǎng)頁級別。 M6.net PageRank Checker,檢查Google大多數(shù)網(wǎng)頁級別的簡單軟件工具。 Google工具欄下載:http://toolbar.google.com,檢測PageRank值。 www./pagerank.php,檢測PageRank值。 www./seo-tools/future-pagerank,查看PR值是否處于更新期間。 www./tools/webrank,檢測Yahoo的WebRank值。 4.5 關鍵詞策略與技巧(論文題目:SEO及其關鍵詞策略) 雖然關鍵詞元標簽是排名前列的金鑰匙時代已經(jīng)一去不復返,但關鍵詞技術仍然是良好SEO的關鍵技術之一。只是它們的應用范疇發(fā)生了變化而已,SEO不再會把多個關鍵詞堆砌在元標簽中以獲得高排名,而是去發(fā)現(xiàn)那些對業(yè)務最有意義的關鍵詞,并用之于提高網(wǎng)站流量。關鍵詞是用戶在搜索相關頁面時使用的單詞或短語,也是搜索引擎在建立索引表要使用的單詞。選擇關鍵詞是最重要的SEO任務之一,但往往缺乏討論和研究。沒有正確的關鍵詞,SEO工作將事倍功半。 要了解消費者要通過搜索引擎尋找什么信息,有許多工具有助于找出那些關鍵詞有利可圖,以便你決定用那些術語優(yōu)化網(wǎng)站。這是SEO的重要方面之一。大多數(shù)SEO公司將指導如何確定準確的關鍵詞術語。最好的方法是調查瀏覽者,即“你們如何找到我們的網(wǎng)站?” 若他們說通過Google,然后詢問他們向搜索引擎輸入什么單詞。 另一個方法是模仿用戶向搜索引擎輸入你們的產(chǎn)品或服務,并分析排名在前十名的網(wǎng)站。你還可以選擇使用工具諸如,Google廣告單詞建議工具或Overture。 瀏覽者要搜索什么?重要的關鍵詞要體現(xiàn)在Title 標簽、元描述標簽、Headline 標簽 (H1, H2等)、HTML 文本內容和鏈接的錨文本中。 若網(wǎng)頁沒有包含要優(yōu)化的關鍵詞,搜索引擎怎么知道為查詢返回那些關鍵詞?關鍵詞至關重要,搜索引擎根據(jù)術語出現(xiàn)的位置,賦予其相應的權重。關鍵詞要出現(xiàn)在一些重要地方,如Title標簽、軟文、錨文本、靠近頁面頂部的文本、Headings標簽和被強調的文本內容;一些次要地方,如Alt text、描述標簽、域名和URL中。 即使有一些來自于著名的、相關的權威網(wǎng)站的鏈接指向網(wǎng)站,若沒有合適的貓文本,那么這些鏈接的意義有多大?能保證網(wǎng)站是按搜索引擎友好的方式設計和開發(fā)的?因此,關鍵詞很重要,值得推敲,有必要研究如何找到最確切的關鍵詞。 關鍵詞策略主要包括關鍵詞選擇、布局和密度,目的在于提高頁面相關性。SEO工作是圍繞產(chǎn)品關鍵詞進行的,因此關鍵詞的選取事關整個SEO工作能否有效開展。 1.5.1 選擇目標關鍵詞的原則 關鍵詞選擇:為網(wǎng)站尋找和篩選合適的關鍵詞的過程成為關鍵詞選擇。很簡單,這需要認真的前期調研,以發(fā)現(xiàn)人們搜索什么術語,頻率如何?有多少網(wǎng)站提供這些術語。 關鍵詞選擇是一個策略性行為,有利于決定與網(wǎng)站最相關的查詢有哪些?可以為該查詢設想一個可行的結果,然后相應地優(yōu)化網(wǎng)站。 不難想出與網(wǎng)站相關的10-20個關鍵詞。然而,網(wǎng)站管理員的有關業(yè)務的思維方式不同于普通客戶的想法。財務機構或許稱其產(chǎn)品為auto loan,用戶在搜索時會用car loan,甚至是car loans。同樣,想到的術語或許太泛或許太窄,而不適于SEO需求。 關鍵詞工具對檢查用戶實際上在搜索什么很重要。這類工具一般儲藏過去幾個月甚至幾年的搜索引擎查詢相關的數(shù)據(jù)。這有助于了解那些術語被用于搜索,頻率如何?一般還提供術語的相關術語,如,同義詞、變體、復數(shù)形式、和錯拼字等。 這些工具不僅提供搜索量信息,許多還給出每個術語的在搜索結果中的數(shù)目(即競爭水平)。關鍵詞的競爭性越低,獲得好排名的機會就越大。 因此,選擇關鍵詞的基本原則是: 與網(wǎng)站很相關性:得到網(wǎng)站內容支持的術語; 相對高的搜索量:人們實際上搜索的術語; 相對低的競爭:搜索結果量小的術語; 當選擇的關鍵詞符合上述三個標準時,網(wǎng)站在SERP中領先的機會就會指數(shù)增長。若不符合上述標準,就會陷入如下境地: 選擇很流行或/和競爭的關鍵詞。關鍵詞太寬泛,很多網(wǎng)站都在使用,因此沒有機會獲得好排名。 選擇目標很窄或niche關鍵詞。選擇的關鍵詞太具體,沒有人用于搜索。再好的排名也無用,因沒有人看到。 無論花費多少時間去選擇關鍵詞,從中獲得的知識對SEO來說是無價之寶。 1.5.2 關鍵詞選取策略及其方法 深入研究如何實施關鍵詞選擇?一個提出、選擇和分析關鍵詞的逐步方法,有助于選擇關鍵詞。 理解客戶的信息需求 每個潛在用戶都有其獨特的搜索動機。在做出最后選擇之前,很可能要經(jīng)歷一個決定過程。對低價產(chǎn)品這很容易,而對于大件產(chǎn)品相對要慎重的。 一個簡化的決定過程包括,初始化調查、審視、評估、選擇/夠買。這個過程中的每個步驟都有其信息需求種類。 下面以房產(chǎn)開發(fā)商為例,要確定用戶需要那種信息: 初始化調查:我能夠買多大的房子?我想要那種房子?我想在那個區(qū)域居住? 審視:哪個開發(fā)商能按我能夠買的價格提供我所需要的房子?哪個開發(fā)商在我向往的區(qū)域有社區(qū)? 評估?哪個開發(fā)商有良好的聲譽?我要等多長時間才能拿到鑰匙? 選擇/夠買:我如何購買房子?要抵押貸款多少? 找出初始化關鍵詞列表 一旦知道了用戶的搜索目的,就可以開始思考用戶在搜索時會用到的關鍵詞。 回答上述問題可到到一些樣品關鍵詞: 我想要那種房子?獨院、半獨院或樓房。 我想在那個區(qū)域居???Toronto area homes, GTA homes或Homes in Toronto 要抵押貸款多少?Mortgage計算器、Mortgage數(shù)額或住房貸款利率。 開始形成關鍵詞列表,這是你的潛在用戶所感興趣的。但其中不乏與網(wǎng)站不相關的關鍵詞??赏ㄟ^腦風暴和下述方法形成主題性列表: 逐頁掃描網(wǎng)頁以尋找術語。 審視分析結果,以決定哪些術語會被用于發(fā)現(xiàn)網(wǎng)站。 詢問同事特別是銷售團隊。 訪問客戶。 實施這個過程,可以得到與業(yè)務有關的關鍵詞列表。若從第一步開始,根據(jù)信息需求,這些列表應該是主題性的。把這些術語分組成更具體的主題。大致找出這些列表和網(wǎng)站各內容區(qū)域的對應關系有助于實施。 利用關鍵詞工具 了解了搜索引擎用戶在用什么關鍵詞搜索之后,借助于在線關鍵詞工具,找出人們實際上在用什么關鍵詞搜索。 把列表中的關鍵詞術語逐一拷貝和粘帖到關鍵詞工具,每運行一次搜索,該工具將返回與該關鍵詞相關的各種查詢變體,如復數(shù)形式、錯拼、相關術語和同義詞等。其中,有些將適于你的業(yè)務,有些將不相關。 然后把這些結果輸出到Excel電子表格中。 檢查列表 對這個電子表格文件進行處理。逐項檢查,使之縮小到最適合和最希望的術語。這需要一些手工勞動,利用Excel的排序和過濾功能有助于減輕工作量,下述建議有助于選擇關鍵詞: 過濾結果只顯示一次記錄,消除了重復的關鍵詞 若使用工具給出了搜索量和競爭數(shù)據(jù),則設置閾值以消除不滿足條件的關鍵詞。 瞄準長尾術語(longer tail),而消除單個關鍵詞。 瀏覽列表,手工刪除不合適的、與上下文不相關的術語。而要保持錯拼的單詞,你不希望失去潛在的客戶,僅僅因為其不會拼寫單詞。 一旦這么做了,留下的就是相對適應各個內容域的列表。依賴于市場的流行度,在每個列表中應只留下10個左右的術語。 作出選擇和布局 有必要決定將把那些關鍵詞用于SEO。這意味著要為網(wǎng)站中的頁面選擇具體關鍵詞。 每個頁面應該有2~3個關鍵詞。在電子表格中產(chǎn)生一個新欄目即"URL or Page"并輸入適于每個關鍵詞的潛在頁面。然后按頁面分類,檢查每頁面上候選的關鍵詞,進一步編輯頁面,直到滿意。 1.5.3 提高關鍵詞排名的SEO技巧 關鍵詞應該出現(xiàn)在網(wǎng)頁的如下地方:Title、meta、網(wǎng)頁大標題、網(wǎng)頁文本、圖片alt注釋、網(wǎng)頁的超鏈接文本。不要刻意追求關鍵字堆積,否則會觸發(fā)關鍵字堆砌過濾器(keyword stuffing filter),招致搜索引擎的處罰。 利用關鍵詞豐富的元數(shù)據(jù)有助于獲得較高的搜索引擎查詢排名,要注意關鍵詞研究旨在找出最有價值的關鍵詞。這些是搜索引擎優(yōu)化的基本概念,有助于提高搜索引擎排名。 提高關鍵詞排名的技巧有:在URL中用關鍵詞(英文);在頁標題(title)中用關鍵詞;在關鍵詞標簽中用關鍵詞;在描述標簽中用關鍵詞;在軟文中用關鍵詞,特別在第一段;在H1,H2等權重性標簽中用關鍵詞;在出鏈接錨文本中用關鍵詞,在錨文本周圍要有關鍵詞;在圖片的文件名中用關鍵詞,在其ALT屬性中用關鍵詞;把頁面中核心關鍵詞密度控制在6-8%之間; 1.5.4 關鍵詞工具簡介 如前所述,在做策略性研究和挖掘各種選擇之前,不要選擇關鍵詞。有幾款很好的付費定制工具,有助于關鍵詞選擇,如KeywordDiscovery和Wordtracker。然而網(wǎng)站管理員或SEO新手可用免費工具,如:Google的Adwords關鍵詞工具提供相關術語的列表和基于five-point排名的搜索量。MSN在其adCenter Labs中提供了一套工具,這包括關鍵詞預測。Wordtracker Academy提供Wordtracker工具。注意,這些免費工具一般不提供競爭性數(shù)據(jù),這意味著你要手工搜索每個關鍵詞以檢查返回的搜索結果的數(shù)目、時間耗費等。 Good Keywords,為網(wǎng)頁找到最好的關鍵詞。功能:關鍵字建議,編撰或創(chuàng)建關鍵字或關鍵詞短語,檢查拼寫錯誤,判斷網(wǎng)站及鏈接的流行度等。 Golden Phrases,分析性實用程序。檢查指定的日志文件,檢索訪客們在你網(wǎng)站上搜索過的關鍵詞短語,找到你的網(wǎng)站。無論任何短語,只要被搜索過,就可以統(tǒng)計出其被使用的次數(shù),判斷出你網(wǎng)站的位置。它獨特的透明值技術還有助于找出未被使用的關鍵詞短語。 PPC Keyword Generator,強大的關鍵詞短語的交換器/發(fā)生器.幾秒內能發(fā)現(xiàn)100多個關鍵短語,自動刪除重復的關鍵詞短語,對每個關鍵詞短語的付費點擊/網(wǎng)址和輸入及輸出都做詳細說明。 Hixus Keyword Inventor,搜索引擎優(yōu)化的軟件工具。為Overture關鍵字意見工具中的關鍵字流行度做前期分析,加快了尋找流行關鍵字的速度。 e3KWD Check,小型、快速的搜索引擎優(yōu)化工具。分析文本文檔里的關鍵字密度,通過固定的地址欄恢復和分析在線網(wǎng)絡文檔。 Get Keywords,找出存貯器中的關鍵字,并用找到的關鍵字優(yōu)化網(wǎng)頁。特點是自動搜索詞條,增加或刪除關鍵字,創(chuàng)建網(wǎng)頁和網(wǎng)頁預覽。 Keyword Digger,為人們在Overture中搜索過的關鍵詞而特別設計。它可以計算關鍵字被搜索的次數(shù),顯示同一個關鍵字的100種變化形態(tài)。 AnalogX Keyword Extractor,提取網(wǎng)頁的關鍵詞,然后根據(jù)用法和位置對其分類和索引。一旦被索引,就可以調整搜索引擎特定的權衡因素和關鍵詞標準,使網(wǎng)站受到搜索引擎最好的評價。 1.6 惡意的搜索引擎優(yōu)化技術(作弊Spamdexing) 隨著Web信息規(guī)模和價值的增加,搜索引擎的作用日益提高。然而如今搜索引擎受到各種作弊手段的嚴峻威脅,它們企圖破壞搜索引擎提供的公正搜索和排名服務。搜索引擎正在用各種私有專利技術抵制Web作弊。 SEO作弊(也稱為SEO黑冒)就是采用搜索引擎禁止的方式優(yōu)化網(wǎng)站,如群發(fā)留言增加外鏈等。通過這個方式增加外部鏈接,影響其他站點的利益,同時影響搜索引擎對網(wǎng)站排名的合理性和公正性。對應的“白冒”是采用SEO的思維,合理優(yōu)化網(wǎng)站,提高用戶體驗,爭取與其他網(wǎng)站互聯(lián),從而提高站點在搜索引擎結構中的排名。 Spamdexing是spamming(向用戶發(fā)送unsolicited信息)和indexing的組合詞。Spamdexing(也稱為search spam或search engine spam)涉及很多方法,諸如重復無關的短語、用與搜索系統(tǒng)目的不一致的方式人為操縱被搜索引擎檢索的資源的相關性或重要性。常見的搜索引擎優(yōu)化作弊方法,包括關鍵字堆砌、隱藏關鍵字、鏡像網(wǎng)站、門頁、偽裝、302重定向及鏈接欺騙、域名轟炸、彈出新窗口轉向、Link Farm(鏈接養(yǎng)殖場)等。 許多搜索引擎會檢查spamdexing,并從其索引中刪除可疑頁面。受用戶對搜索結果中不當匹配的抱怨的警示。搜索引擎工程師能快速把那些用spamdexing的網(wǎng)站從搜索引擎結果列表中隔離出去。 Web作弊指為誤導搜索引擎而在Web上創(chuàng)建的頁面。Spamdexing技術通常分成兩大類,即內容spam和鏈接spam。 1.6.1 內容spam 這些技術設計更改搜索引擎對頁面內容的邏輯試圖。它們都妄想篡改矢量空間模型,后者用于對文本集合進行檢索。 關鍵詞堆砌(Keyword stuffing):按計算在頁面中放置關鍵詞以提高關鍵詞的次數(shù)、變體和密度。這有利于顯得頁面對蜘蛛是切題的,更容易被蜘蛛發(fā)現(xiàn)。舊版本搜索引擎只計算關鍵詞出現(xiàn)的頻率并用于確定相關性。而大多數(shù)現(xiàn)代搜索引擎有能力分析頁面是否被實施關鍵詞堆砌以吸引搜索引擎流量。九十年代中期蔓延的spamdexing曾一度使一流的搜索引擎顯得蒼白無力。Google通過著名的PageRank鏈接分析算法,產(chǎn)生了較好搜索結果,并成功地反擊關鍵詞作弊,成為九十年代后期主流的搜索引擎。雖然沒有被spamdexing弄失效,Google也不得不采用更復雜的方法。Google也對PageRank進行了相應的調整來提高其對各類作弊方式的監(jiān)測靈敏度,但這些調整沒有從根本上解決SEO合法作弊的問題。 隱藏不相關的文本:通過使用與背景相同的顏色、微型字體或在HTML內隱藏(如no frame)、ALT屬性、零寬度/高度而偽裝關鍵詞和短語。搜索引擎會因網(wǎng)站具有不可見文本臨時或永久地阻止它。 元標簽堆砌:在元標簽中堆砌關鍵詞,利用與內容無關的關鍵詞。這個方法自2005年起已經(jīng)失效。 門頁Gateway或doorway pages:創(chuàng)建低質量web頁面,內容很少,只是一味地堆砌很相似的關鍵詞和短語。其目的是追求在搜索結果中排名,而不為搜索者提供信息。門頁通常在頁面上有"click here to enter"提示。 Scraper sites:也稱為Made for AdSense網(wǎng)站,利用程序從搜索引擎結果頁面或其它信息源提取內容,并用之于創(chuàng)建網(wǎng)站。這些網(wǎng)站表現(xiàn)內容的形式獨特,僅僅是從其它網(wǎng)站剽竊的內容的融合。這種網(wǎng)站通常充斥著廣告,或為把用戶導向其它網(wǎng)站。這種網(wǎng)站甚至因其信息和組織名稱而可能在排名上優(yōu)于被剽竊的網(wǎng)站。 1.6.2 鏈接作弊 Google bombing是另外一種人為操作技術,通過放置鏈接而直接影響其它網(wǎng)站的排名。“頁面之間的鏈接因故而非因美德merit而存在”。Google于2007年在算法上反擊了Google bombing。 鏈接作弊利用基于鏈接的排名算法,諸如Google的PageRank算法,即被其它高排名網(wǎng)站連接得越多,網(wǎng)站的排名就越前。這些技術也會影響其它基于鏈接排名算法如HITS。 Link farms:相互鏈接頁面以創(chuàng)建tightly-knit communities,也被詼諧地稱為“相互羨慕的社區(qū)”。 隱藏的鏈接:把鏈接放在瀏覽者看不見的位置,以便增加鏈接流行度。而高亮度鏈接貓文本有助于提高相關關鍵詞的頁面排名。 垃圾博客Spam blogs(splogs),為作弊而創(chuàng)建的虛假blogs,基本上與link farms相似。 Page hijacking:通過創(chuàng)建流行網(wǎng)站的拷貝,對搜索引擎而言,這個拷貝的內容與原網(wǎng)站的相似,而把瀏覽者導向不相關甚至惡意的網(wǎng)站。這通常是間諜軟件和廣告軟件采用的方法。 購買失效的域名:有些鏈接作弊者監(jiān)視將要失效的DNS記錄,在失效時購買這些域名,并鏈接到自己頁面。 有些技術能用于創(chuàng)建Google bomb,即與其它用戶合作提高頁面針對某個查詢的排名。 Cookie stuffing:This involves placing an affiliate tracking cookie on a website visitor's computer without their knowledge, which will then generate revenue for the person doing the cookie stuffing. This not only generates fraudulent affiliate sales, but also has the potential to overwrite other affiliates' cookies, essentially stealing their legitimately earned commissions. 1.6.3 利用可編輯的頁面 用戶可編輯的網(wǎng)站,諸如允許邊界的Wikis和blogs等,若不采取反作弊措施,能被插入導向垃圾網(wǎng)站的鏈接。 在博客中的作弊:在其他網(wǎng)站上隨意放置鏈接誘餌,在導入鏈接的貓文本中放置關鍵詞。留言板、論壇、博客和接收訪客評論的網(wǎng)站是被利用的目標,而成為作弊的犧牲品,代理軟件能發(fā)無意義的帖子,并帶有不相關的鏈接。 評論作弊:有些網(wǎng)站允許用戶動態(tài)編輯諸如維基、博客和留言本,這可能導致問題,因代理軟件能自動、隨機地選擇用戶可編輯的網(wǎng)頁而添加作弊性鏈接。 維基作弊:利用維基(wiki)系統(tǒng)的開放編輯功能在wiki網(wǎng)站放置到垃圾網(wǎng)站的鏈接。而被鏈接的垃圾網(wǎng)站的主題一般與wiki頁面無關。在2005早期,Wikipedia實施了缺省'rel'='nofollow'。具有這種屬性值的鏈接被Google PageRank算法忽略。論壇和Wiki管理員可利用這種技術去打擊Wiki作弊行為。 Referrer log spamming:When someone accesses a web page, i.e. the referee, by following a link from another web page, i.e. the referrer, the referee is given the address of the referrer by the person's internet browser. Some websites have a referrer log which shows which pages link to that site. By having a robot randomly access many sites enough times, with a message or specific address given as the referrer, that message or internet address then appears in the referrer log of those sites that have referrer logs. Since some search engines base the importance of sites by the number of different sites linking to them, referrer-log spam may be used to increase the search engine rankings of the spammer's sites, by getting the referrer logs of many sites to link to them. 1.6.4 其它spamdexing 鏡像網(wǎng)站:把內容相似的網(wǎng)站放在不同URL上。URL重定向:未經(jīng)允許而把用戶帶到其它網(wǎng)頁,如利用META refresh標簽、Flash、JavaScript、Java或Server side redirects等 偽裝Cloaking:指實施為蜘蛛提供的頁面不同于為人類提供的頁面的技術,企圖在網(wǎng)站內容上誤導搜索引擎。然而,Cloaking也能用于使殘疾人訪問網(wǎng)站,或為人類提供搜索引擎不能處理或解析的內容。它也用于基于用戶的位置提供內容,Google也利用IP delivery(一種偽裝)提供結果。另一種偽裝是代碼偷換,即把優(yōu)化到排名前列的頁面換成其它頁面。 1.6.5 Alexa作弊 Alexa作弊指將Alexa Toolbar向Alexa網(wǎng)站發(fā)送的數(shù)據(jù)包攔截,然后由計算機編程人員模擬Alexa Toolbar制作一軟件向Alexa網(wǎng)站發(fā)送虛假訪問網(wǎng)站數(shù)據(jù)。因為Alexa本身排名要依賴于Alexa Toolbar返回的瀏覽數(shù)據(jù)。 1.8 Google搜索引擎優(yōu)化新手指南(論文題目:Google搜索引擎優(yōu)化策略) 新手指南適合于從事Google優(yōu)化的團隊,也適合于那些不熟悉搜索引擎優(yōu)而又希望改進其網(wǎng)站與瀏覽者和搜索引擎交互的網(wǎng)站管理員。雖然沒有透漏網(wǎng)站在Google查詢的頂級排名秘密,但遵循下述指導有助于搜索引擎抓取和檢索網(wǎng)站內容,希望能提供一些優(yōu)化網(wǎng)站的新穎理念。 1.8.1 導航優(yōu)化 1 充分利用robots.txt "robots.txt"文件告訴搜索引擎是否該訪問并抓取網(wǎng)站的某些部分。該文件的名稱必須是"robots.txt",放置在網(wǎng)站根目錄中。 或許你不想讓某些網(wǎng)頁被抓取,因出現(xiàn)在搜索引擎的搜索結果中對用戶沒有什么用處。若想阻止搜索引擎抓取某些頁面,Google網(wǎng)站管理員工具有友好的robots.txt產(chǎn)生器,有助于創(chuàng)建該文件。 注意,若網(wǎng)站利用二級域,而不想讓特定二級域中的某些頁面被抓取,應為該二級域單獨創(chuàng)建robots.txt。robots.txt的詳細信息,可參見網(wǎng)站管理員幫助中心中的參考文件。 很多方法可用于阻止文件出現(xiàn)在搜索引擎結果中,諸如為 robots元標簽添加"NOINDEX",利用htaccess口令保護目錄,利用Google網(wǎng)站管理員工具把已經(jīng)抓取的內容刪除掉。 對敏感內容要使用更安全的方法。用robots.txt去阻止敏感或保密材料被抓取,你會感覺得不放心。原因之一是搜索引擎仍然會URLs引用你“阻止”的URLs(盡管只有UEL,而沒有title或snippet),若在互聯(lián)網(wǎng)某處(如referrer logs)有到這些URLs的鏈接。其次,一些簡單搜索引擎不遵守Robots協(xié)議,不會理會robots.txt中的指令。再者,好奇的用戶會探測robots.txt文件中的目錄或子目錄,猜測網(wǎng)站不想公開的內容的鏈接。加密內容或用htaccess設置口令保護文件是更安全的辦法。 避免允許與搜索引擎結果類似的頁面被抓取,避免讓大量的自動生成的頁面(內容相同或很相近)被抓取,避免允許抓取作為代理服務的結果而產(chǎn)生的URLs。 2 網(wǎng)站地圖和網(wǎng)站導航優(yōu)化 網(wǎng)站導航有助于瀏覽者快速找到目標內容,有助于搜索引擎理解網(wǎng)站管理員認為重要的內容。雖然搜索結果只提供頁面層次的內容,Google也喜歡了解頁面在整個網(wǎng)站中的角色。 網(wǎng)站有主頁,這是網(wǎng)站中最被頻繁訪問的頁面,是網(wǎng)站瀏覽者的始發(fā)地。網(wǎng)站頁面多時,應該考慮瀏覽者如何輕易從通用頁面到具體內容頁面。若圍繞某一具體主題的頁面很多,那么做一個描述這些相關頁面的頁面是很有必要的,如:主頁->主題列表->具體主題。若有數(shù)以百計的產(chǎn)品種類,那么分類甚至多層次分類頁面也是有必要的。 sitemap(小寫)文件是顯示網(wǎng)站結構的簡單頁面,通常只包含網(wǎng)站頁面的層次性列表,瀏覽者若在網(wǎng)站中找不到頁面,則可通過該頁面去查詢;搜索引擎也訪問該頁面,以全面抓取網(wǎng)站頁面。但它主要是為瀏覽者服務的。 XML Sitemap(大寫)文件可通過Google網(wǎng)站管理員工具遞交,以便Google容易找到網(wǎng)站中的頁面。Google創(chuàng)建了一個開源Sitemap構造器腳本以便創(chuàng)建Sitemap文件。有關Sitemaps細節(jié),可參見網(wǎng)站管理員幫助中心提供的指南。 創(chuàng)建自然流暢的層次結構,使之盡可能有助于瀏覽者從一般內容到具體內容。必要性創(chuàng)建導航頁面,建立內部鏈接的結構。避免創(chuàng)建復雜的導航鏈接,如頁面之間的全通鏈接。避免橫向切面鏈接。 盡量利用文本導航,使之有利于搜索引擎遍歷和抓取網(wǎng)站中的頁面。大多瀏覽者也喜歡這種導航,因許多設備不支持Flash 或JavaScript文件。避免使用完全基于下拉菜單、圖片或動畫的導航。 利用“面包屑”導航,面包屑是位于頁面頂部或底部的內部鏈接組成的行,允許瀏覽者能快速回溯到前面的頁面或主頁。許多面包屑以主頁鏈接開始,逐步向具體頁面過渡。 在網(wǎng)站中要放置HTML sitemap頁面,要利用XML Sitemap文件。簡單的sitemap頁面包含網(wǎng)站內所有或主要的內部鏈接,這很有用。為網(wǎng)站建立XML Sitemap文件有助于確保搜索引擎能找到網(wǎng)站中的頁面。避免HTML sitemap過時,避免HTML sitemap只羅列頁面而沒有按主題組織。 要考慮瀏覽者用截取的URL訪問網(wǎng)站的情形,有些用戶會這樣做,要為這些用戶有所作為。要利用404頁面。瀏覽者有時會因用部分鏈接地址或敲錯了鏈接地址而訪問網(wǎng)站中并不存在的頁面。要有一個友好的404頁面,以便指導瀏覽者返回可用的頁面,這有助于提升用戶的體驗度。404頁面應提供返回主頁、流行頁面或相關頁面的鏈接。Google提供了一個404小工具(widget),可以嵌入在404頁面中,以便自動提供有用功能。當然,也可以利用Google網(wǎng)站管理員工具找到那些導致“not found”錯誤的鏈接源。要避免讓搜索引擎檢索到404頁面(這要配置服務器,以確保在瀏覽者請求不存在的頁面時能給出404 HTTP狀態(tài)碼),避免只提供模糊的信息,如"Not found"、"404"或根本沒有404頁面,避免使用與網(wǎng)站不一致的404頁面。 1.8.2鏈接優(yōu)化 1 優(yōu)化URLs的結構 為網(wǎng)站文檔創(chuàng)建描述性分類和文件名有助于更好地組織網(wǎng)站、搜索引擎更好地抓取頁面。創(chuàng)建容易的、友好的URLs有助于別人為網(wǎng)站創(chuàng)建外部鏈接。瀏覽者會困惑于繁長的、加密的、可識別字符很少的URLs;這類URLs容易引起混淆,也不友好;瀏覽者難以記憶,也不便于為它創(chuàng)建外部鏈接。用戶還會認為部分鏈接是不必要的,特別包含許多不可識別的參數(shù)的URL,他們會只用部分URL地址。有些瀏覽者會利用頁面的URL作為錨文本,與ID和稀奇古怪的命名參數(shù)相比,若URL包含相關單詞將為瀏覽者和搜索引擎提供更好的頁面信息。最后,切記文檔的URL作為Google的搜索結果將被顯示在文檔title和snippet下面,如同title和snippet,若URL中的單詞出現(xiàn)在用戶查詢中,則會被顯示成黑色字體。 深層次頁面具有能反映內容類型的URL,也出現(xiàn)在結果中。Google擅長于抓取各類URL結構,即使結構很復雜,但盡可能使URL簡潔,這有利于瀏覽者和搜索引擎。有些網(wǎng)站管理員通過把動態(tài)URLs改寫成靜態(tài)URLs來實現(xiàn),而Google能很好地處理動態(tài)URLs;靜態(tài)化地址是一項高級的技術處理,若處理不當,會導致抓取頁面時出問題。良好的URL結構設計,推薦參照網(wǎng)站管理員幫助中心關于對Google友好的URLs。 在URLs中使用單詞,特別是要使用與網(wǎng)站內容和結構相關的單詞,這有助于瀏覽者瀏覽網(wǎng)站、記住地址和導航網(wǎng)站,或許因此更愿意為網(wǎng)站做外部鏈接。避免使用帶無謂參數(shù)、會話ID和繁長的URLs;避免使用通用的頁面名稱,如"page1.html";避免使用過多的單詞,如"baseball-cards-baseballcards.htm"。 創(chuàng)建簡單的目錄結構,利用目錄結構去組織內容,這有助于瀏覽者實時了解其在網(wǎng)站中的位置。要利用在URLs中找到的目錄結構去猜測內容類型。避免使用子目錄的深層次嵌套結構,如".../dir1/dir2/dir3/page.html",避免使用與其內容無關的目錄名稱。 到達頁面的URL最好只有一個版本,要防止通過URL的多個版本訪問頁面,以免頁面的信用度受損。要注意在導航和內部鏈接中都是用相同版本的URL。若發(fā)現(xiàn)人們使用多個URLs訪問同一頁面,那么設置從非首選的URLs 到首選的URLs 301重定向。 提供從根目錄和子域同時能訪問同一頁面,如domain.com/page.htm"和 sub.domain.com/page.htm;避免在內部鏈接結構中混合使用URLs 的www和non-www版本;避免在URLs中使用大寫字符,用戶不喜歡這樣。 2 書寫良好的錨文本 錨文本是顯示在鏈接上可點擊的文字,旨在為用戶和Google提供目標頁面的信息。鏈接可以是網(wǎng)站內部的,指向網(wǎng)站內的其他頁面;也可以是外部的,指向其他網(wǎng)站的頁面。無論哪種鏈接,錨文本越好,用戶越易于導航,Google也越易于理解目標頁面的內容 選擇描述性文本,錨文本應該至少提供目標頁面的基本信息。避免用一般性詞匯如“頁面”、“文章”或“點擊此處”等,避免使用與目標頁面內如離題或不相關的文本,避免一味地使用鏈接地址作為錨文本 書寫簡短而具有描述性的文本,通常是幾個單詞或短語。避免使用繁長的錨文本,諸如長句子或短段落。格式化鏈接以便易于找到,要方便用戶,使其易于區(qū)分文本和錨文本。若用戶錯過了鏈接或很少點擊鏈接,則內容的價值就沒有得到應有體現(xiàn)。避免使用CSS或文本樣式,后者使鏈接看起來如同正常的文本。也要考慮內部鏈接的錨文本,這有助于用戶和Google更好地導航網(wǎng)站。避免為搜索引擎提供關鍵詞過多和繁長的錨文本;避免創(chuàng)建不必要的鏈接,這無助于用戶導航網(wǎng)站。 3 注意鏈接的rel屬性 把鏈接的錨標簽中的"rel"屬性值設置成"nofollow"將告訴Google不要抓取鏈接對應的頁面或不把原頁面的信譽度傳遞給該目標頁面。 頁面中的日志評論區(qū)域很容易造成評論垃圾。若網(wǎng)站有公眾可評論的日志,則評論中的鏈接會把原頁面的信譽度傳遞給你不情愿的頁面。為瀏覽者評論中附帶的鏈接設置rel="nofollow"可保證不把原頁面辛苦得來的信譽度專遞給垃圾頁面。許多日志軟件包會做這種屏蔽處理,否沒有用這種軟件包,最好人工處理。這種建議也適用于網(wǎng)站中的涉及動態(tài)交互的區(qū)域,如留言板、論壇、傳呼版、提交清單等。若網(wǎng)站管理員情愿由第三方增加的鏈接,則沒有必要這么做。然而,對那些被Google認為是垃圾網(wǎng)站的鏈接會影響源網(wǎng)站的信譽度。Webmaster Help Center有相關提示,以避免垃圾評論。 當書寫頁面軟文時,想引用一個網(wǎng)站,但不想把信譽度傳遞給該網(wǎng)站,可利用Nofollow。 若想把整個頁面中的鏈接都設置為不可抓去,則可以在<head> 標簽中robots元標簽中使用"nofollow"。Webmaster Central Blog提供了如何使用robots元標簽的提示。其基本方法是:<meta name="robots" content="nofollow">。 4 優(yōu)化圖像使用方法 圖像是網(wǎng)站的直接組件之一,但應該能優(yōu)化其使用方法。圖像有其唯一的文件名和alt屬性,應該可加以利用。Alt屬性用于指定在圖像因故不能顯示時的替代文本內容。為什么要用這個屬性?若用戶使用不支持圖像的瀏覽器訪問網(wǎng)站,或使用其它技術如屏幕閱讀器,alt屬性內容便提供了圖像信息。圖像因故不被顯示時,至少alt文本內容會被顯示。另一個原因是,若使用圖像作為鏈接,該圖像的alt文本將被如同文字鏈接的錨文本。然而不推薦使用過多的圖像作為網(wǎng)站導航中的鏈接指示,文本鏈接足矣。再者,優(yōu)化圖像文件名和alt文本會使Google圖像搜索更好地理解圖像。 使用簡潔而具有描述能力的文件名和alt文本。如同要優(yōu)化的頁面其它部分一樣,文件名和alt文本最好既簡短又具有描述性。盡可能避免使用太泛的文件名,如"image1.jpg", "pic.gif", "1.jpg",避免很長的文件名,避免在alt文本中堆砌關鍵詞或粘帖整個句子。 若用圖像作為鏈接,要提供alt文本,這有助于Google更好地理解目標頁面,它如同文本鏈接的錨文本。避免使用繁長的alt文本,這會被視同為作弊;避免僅適用圖像鏈接為網(wǎng)站導航。 把圖像存儲在單獨目錄中,而不要分散存儲在多個目錄或子目錄中,這有助于管理和搜索。利用常見的文件類型,如大多數(shù)瀏覽器支持的JPEG, GIF, PNG和BMP等圖像格式。文件的擴展名要與文件類型匹配。 1.8.3 頁面優(yōu)化 1 創(chuàng)建唯一、準確的網(wǎng)頁 titles Title標簽為用戶和搜索引擎提供具體頁面的主題信息。網(wǎng)站的每個頁面最好都有其唯一title。若出現(xiàn)在用戶的搜索結果中,title中的單詞被加黑顯示,這有助于用戶識別該頁面是否與搜索相關。主頁的title可以羅列網(wǎng)站或業(yè)務的名稱,也可以包括其它重要信息如經(jīng)營場所信息或幾個主要聚焦點或服務等。網(wǎng)站中深層頁面的title應精確描述該頁面的關注點,也可包括網(wǎng)站或業(yè)務的名稱。 精確描述頁面的內容,選擇能表達頁面內容主題的title;切防使用與頁面內容無關的title,切防使用缺省的或模糊的title,如"Untitled"或"New Page 1"。為每個頁面創(chuàng)建唯一的title 標簽,最好每個頁面都具有唯一的title,這有助于Google了解該頁面與其他頁面的差別。要避免多個頁面共用一個title。利用簡潔的描述性title,title要短并具有信息性。若title太長,Google在搜索結果中只顯示出其部分。避免使用很長的titles,這并無助于用戶,也要避免在titles標簽中堆砌無謂的關鍵詞。 2 利用描述(description)元標簽 頁面的描述元標簽為搜索引擎提供頁面內容的摘要信息。頁面的title可以是幾個單詞或一個短語,頁面的描述元標簽可以是一兩個句子或一個段落。Google網(wǎng)站管理員工具提供了一個便利的內容分析部分,將檢測描述元信息是否太長、太短或被復制多次(也可用于檢測<title>標簽)。主頁的描述元標簽應提供網(wǎng)站的簡要綜述。描述元標簽之所以重要,是因為Google用之于頁面的snippets。 準確地綜述頁面內容,書寫既具有信息又使瀏覽者感興趣的描述,用戶把它視同為搜索結果的snippet。避免書寫與頁面內容無關的描述元標簽,避免使用通用描述如“這是個頁面”或“有關記分卡的頁面”,避免只用關鍵詞填充描述,避免把頁面的整個內容復制到描述元標簽中。 每個頁面的描述應該是唯一和獨特的,不同的頁面有不同的描述,這有助于瀏覽者和Google,特別在搜索中,瀏覽者可以看到網(wǎng)站的多個頁面(如利用“site:operator”搜索)。若網(wǎng)站頁面很多,則手寫描述元標簽不可行;這時可以基于頁面內容自動生成描述元標簽。千萬避免多個頁面共用一個描述元標簽。 3 正確地使用標題(heading)標簽 標題標簽可用于表示頁面的層次結構,它依次有六個大小,從最重要的<h1>到最次要的<h6>。因標題標簽使包含在其中文本比頁面中正常文本顯得大些,這為用戶提供了線索,說明該行文字是重要的,有助于理解該標題之后的內容的類型。若用多個大小的標題,內容呈現(xiàn)層次結構,有利于瀏覽者導航。 如同為一篇文章寫大綱,在頁面上提煉出主要觀點和及其子觀點,確定標題的合適位置。避免把文本內容放在標題標簽中,這無助于定義頁面結構;避免張冠李戴,有時<em>和<strong>更合適;避免錯誤地使用標題標簽的大小 在頁面中使用稀疏的標題標簽,在有意義時,方可使用標題標簽。頁面中過多的標題標簽會使用戶難以瀏覽內容和確定主題范圍。避免過多地通篇使用標題標簽;避免把通篇內容放在一個標題標簽中;避免把標題標簽只用于表示樣式而不表示結構。 4 撰寫高質量的頁面內容 創(chuàng)建強勢和有用的內容將比在此討論的其它因素對網(wǎng)站更具有影響力。用戶知道好內容后就推薦給其他用戶,如通過日志、社會媒體服務、郵件、論壇等媒體??诒兄谔嵘W(wǎng)站在用戶和Google中的聲譽;沒有高質量內容,很難獲得聲譽。內容題材廣泛。 書寫易讀的文本,用戶喜歡那些書寫良好和容易瀏覽的內容。避免書寫拼寫和語法錯誤連篇的劣質文本,避免把文本嵌入到圖像中。 要緊緊圍繞主題組織內容。組織內容以便瀏覽者掌握主題范圍總是有益的。對內容進行邏輯分塊有助于用戶快速找到相關內容。避免不加分段、不加標題或不加布局分割地把涉及許多主題的內容放到一個頁面上。 措辭要得當,考慮瀏覽者要使用那些詞匯從網(wǎng)站查找信息。了解主題的瀏覽者在搜索時會使用一些同義詞。因此,要留意瀏覽者的搜索行為差異,并做記錄以便在編輯網(wǎng)站內容時混合使用同義詞,這會產(chǎn)生出其不意的效果,Google AdWords提供了便利的關鍵詞工具(Keyword Tool),這有助于發(fā)現(xiàn)關鍵詞的變體及其大致的搜索量。Google網(wǎng)站管理員工具提供了瀏覽者對網(wǎng)站的流行查詢搜索內容。 創(chuàng)建新穎內容,新內容不僅有利于留住現(xiàn)有瀏覽者,而且也有易于招攬新瀏覽者。避免在網(wǎng)站中使用或拷貝舊內容,這對瀏覽者沒有任何價值;避免在網(wǎng)站內復制內容。提供獨特的內容或服務,要創(chuàng)建其它網(wǎng)站沒有的、全新而有用的服務。記錄研究的原始信息,形成新內容頁面,以提供瀏覽量。 主要為瀏覽者創(chuàng)建內容,而不是為搜索引擎。圍繞瀏覽者的需求設計網(wǎng)站,同時兼顧使搜索引擎容易訪問,這會有好結果。避免插入只針對搜索引擎而會惹惱或對瀏覽者無意義的莫須有的關鍵詞;避免使用文本塊如"frequent misspellings used to reach this page",這對用戶沒有價值;避免欺騙性地對瀏覽者隱藏文本,而只顯示給搜索引擎。 1.8.4 優(yōu)化工具 1 利用免費的網(wǎng)站管理員工具 大多數(shù)搜索引擎為網(wǎng)站管理員提供了免費工具。Google網(wǎng)站管理員工具有助于網(wǎng)站管理員更好地控制Google與其網(wǎng)站的交互方式,并從Google得到有關其網(wǎng)站的有意信息。利用Google網(wǎng)站管理員工具雖然無助于網(wǎng)站得到優(yōu)惠待遇,但有助于網(wǎng)站管理員識別和解決相關問題,以便在搜索結果中得到良好表現(xiàn)。利用這個工具,網(wǎng)站管理員可以找出網(wǎng)站中那些不利于Googlebot抓取的部分頁面,上傳XML Sitemap文件,分析和創(chuàng)建robots.txt文件,刪除已被Googlebot抓取的文件,指明偏好的區(qū)域,識別title 和description元標簽中的問題,理解用于達到網(wǎng)站的關鍵搜索,了解Googlebot對頁面的視角,得到的違規(guī)通知可用于網(wǎng)站優(yōu)化。雅虎(Yahoo! Site Explorer) 和微軟 (Live Search Webmaster Tools)也為網(wǎng)站管理員提供了免費工具。 2 利用web分析工具 若利用Google網(wǎng)站管理員工具或其它服務改進網(wǎng)站的抓取和檢索性能,網(wǎng)站管理員可關注網(wǎng)站的流量。Web分析工具如Google 分析工具在這方面很有價值??衫眠@些工具了解瀏覽者如何到達和瀏覽網(wǎng)站,找出網(wǎng)站中最流行的頁面,測試各種優(yōu)化對網(wǎng)站的影響。對于高級用戶,結合服務器日志文件中的數(shù)據(jù)、一些分析軟件包提供的數(shù)據(jù),可以提供有關瀏覽者如何讓與文檔交互的全面信息。Google提供的另一個工具即Google網(wǎng)站優(yōu)化器,可用于測試,以便找出頁面上的哪些變化會產(chǎn)生最好的瀏覽者轉化率。結合Google 分析工具和Google 網(wǎng)站管理員工具,該優(yōu)化器是優(yōu)化網(wǎng)站的有效工具。 1.8.5 全面推廣網(wǎng)站 網(wǎng)站的大多數(shù)外部鏈接是逐步獲得的,人們通過搜索引擎等方式發(fā)現(xiàn)有價值的網(wǎng)站時,會主動做鏈接。Google理解網(wǎng)站管理員想讓別人知道其勤勞動的心情。有效地推廣新內容有助于感興趣者盡早發(fā)現(xiàn)網(wǎng)站。要把我適可而止的原則,過分推銷網(wǎng)站會適得其反。 發(fā)布有關新內容或服務的博克。在本網(wǎng)站內發(fā)布博克,簡單介紹新增加的內容和服務,這是有助于瀏覽者了解網(wǎng)站新內容的好方法。其他網(wǎng)站管理員會關注的。 別忘記離線推廣手段。注重離線推廣也是有效果的。如在名片、信簽和海報上列出網(wǎng)站鏈接,也可通過電子郵件給客戶發(fā)送信息,使他們知道網(wǎng)站上的新內容。了解社會媒體網(wǎng)站,圍繞用戶交互和共享而建設網(wǎng)站,容易為相關內容找到關注的人或組織。避免面面俱到,不可推廣小內容,而應推廣大而有趣的內容項,避免為會的關注而對網(wǎng)站實施人為做作。把業(yè)務信息添加到Google的本地業(yè)務中心上,這有助于客戶在Google 地圖和web 搜索中了解到你的業(yè)務。網(wǎng)站管理員幫助中心有關于推廣業(yè)務的更多提示。聯(lián)系與網(wǎng)站相關的團體,總有很多網(wǎng)站的主題與你的主題相似,與這些網(wǎng)站建立聯(lián)系總是有意的。社團內的熱點主題會有助于網(wǎng)站內容建設。避免與主題相關的所有網(wǎng)站建立鏈接,避免為獲得PageRank而非流量而從其他網(wǎng)站購買鏈接。 1.7 SEO效果檢測工具 搜索引擎優(yōu)化工具覆蓋了從設計、建設到優(yōu)化網(wǎng)站的全過程。 1.7.1 SEO效果檢測工具/排名工具 Rank Tracker,檢查網(wǎng)站關鍵字排名的有效工具,使用的是Google、Yahoo和MSN的搜索引擎結果.可以用無限制的關鍵詞創(chuàng)建和復制方案,并跟蹤變化動態(tài)和發(fā)展。如果需要,還支持Google和Yahoo API登錄系統(tǒng).Java運行環(huán)境(JRE)。 WebCEO,功能全面的搜索引擎優(yōu)化程序,比搜索引擎排名提供的信息還要多。 排名監(jiān)測工具:網(wǎng)站以某一關鍵詞在搜索引擎中的排名。 www./Google-monitor.htm,查Google排名。 www./keyrank.php,查Google、Yahoo排名。 1.7.2 SEO綜合工具 SEO Surf,功能包括關鍵字分析,SEO網(wǎng)頁分析,返回鏈接管理和搜索引擎分析功能. Keyword Crawler,分析網(wǎng)站關鍵詞的工具。報告網(wǎng)頁使用頻率高的關鍵字,詞語密度,Google網(wǎng)頁級別,內部和外部的返回鏈接及不健全的鏈接??缮蒟ML格式的網(wǎng)站地圖文件。 SEO SpyGlass,調查競爭對手如何獲得高的搜索引擎排名。可以顯示外部(返回?)鏈接的數(shù)量,URL地址,網(wǎng)頁級別,Alexa級別,外部鏈接的IP地址,網(wǎng)站歷史,外部鏈接的來源,關鍵詞密度等。使用該軟件需要java運行環(huán)境支持和注冊。 1.7.3 網(wǎng)站訪問統(tǒng)計工具 查看ALEXA網(wǎng)站訪問量全球排名(ALEXA 工具欄下載): http://download./index.cgi?p=Dest_W_b_40_T1 www./sitepopularity.php Google網(wǎng)站訪問統(tǒng)計(Google 分析工具)幫助分析網(wǎng)站訪問量: http://www.google.com/分析工具/(英文版)
|