■ 7、雜項(xiàng)語(yǔ)法7.1、通配符問(wèn)題 很多搜索引擎支持通配符號(hào),如“*”代表一連串字符,“?”代表單個(gè)字符等。Google對(duì)通配符支持有限。它目前只可以用“*”來(lái)替代單個(gè)字符,而且包含“*”必須用""引起來(lái)。比如,“"以*治國(guó)"”,表示搜索第一個(gè)為“以”,末兩個(gè)為“治國(guó)”的四字短語(yǔ),中間的“*”可以為任何字符。 7.2、關(guān)鍵字的字母大小寫 Google對(duì)英文字符大小寫不敏感,“GOD”和“god”搜索的結(jié)果是一樣的。 7.3、搜索整個(gè)短語(yǔ)或者句子 Google的關(guān)鍵字可以是單詞(中間沒(méi)有空格),也可以是短語(yǔ)(中間有空格)。但是,用短語(yǔ)做關(guān)鍵字,必須加英文引號(hào),否則空格會(huì)被當(dāng)作“與”操作符。 示例:搜索關(guān)于第一次世界大戰(zhàn)的英文信息。 7.4、搜索引擎忽略的字符以及強(qiáng)制搜索 Google對(duì)一些網(wǎng)路上出現(xiàn)頻率極高的英文單詞,如“i”、“com”、“www”等,以及一些符號(hào)如“*”、“.”等,作忽略處理。 示例:搜索關(guān)于www起源的一些歷史資料。 我們看到,搜索“www的歷史 internet”,但搜索引擎把“www”和“的”都省略了。于是上述搜索只搜索了“歷史”和“internet”。這顯然不符合要求。這里我順便說(shuō)一點(diǎn)搜索引擎分詞的知識(shí)。當(dāng)我們?cè)谒阉鳌皐ww的歷史”的時(shí)候,搜索引擎實(shí)際上把這個(gè)短語(yǔ)分成三部分,“www”、“的”和“歷史”分別來(lái)檢索,這就是搜索引擎的分詞。所以盡管你輸入了連續(xù)的“www的歷史”,但搜索引擎還是把這個(gè)短語(yǔ)當(dāng)成三個(gè)關(guān)鍵字分別檢索。 如果要對(duì)忽略的關(guān)鍵字進(jìn)行強(qiáng)制搜索,則需要在該關(guān)鍵字前加上明文的“+”號(hào)。 另一個(gè)強(qiáng)制搜索的方法是把上述的關(guān)鍵字用英文雙引號(hào)引起來(lái)。在上例“”world war I””中,“I”其實(shí)也是忽略詞,但因?yàn)楸挥⑽碾p引號(hào)引起來(lái),搜索引擎就強(qiáng)制搜索這一特定短語(yǔ)。 搜索:“"www的歷史" internet” 我們看到,這一搜索事實(shí)上把“www的歷史”作為完整的一個(gè)關(guān)鍵字。顯然,包含這樣一個(gè)特定短語(yǔ)的網(wǎng)頁(yè)并不是很多,不過(guò),每一項(xiàng)都很符合要求。 注意:大部分常用英文符號(hào)(如問(wèn)號(hào),句號(hào),逗號(hào)等)無(wú)法成為搜索關(guān)鍵字,加強(qiáng)制也不行。 ■ 8、進(jìn)階搜索上面已經(jīng)探討了Google的一些最基礎(chǔ)搜索語(yǔ)法。通常而言,這些簡(jiǎn)單的搜索語(yǔ)法已經(jīng)能解決絕大部分問(wèn)題了。不過(guò),如果想更迅速更貼切找到需要的信息,你還需要了解更多的東西。 8.1、對(duì)搜索的網(wǎng)站進(jìn)行限制 “site”表示搜索結(jié)果局限于某個(gè)具體網(wǎng)站或者網(wǎng)站頻道,如“www.sina.com.cn”、“edu.sina.com.cn”,或者是某個(gè)域名,如“com.cn”、“com”等等。如果是要排除某網(wǎng)站或者域名范圍內(nèi)的頁(yè)面,只需用“-網(wǎng)站/域名”。 示例:搜索中文教育科研網(wǎng)站(edu.cn)上關(guān)于搜索引擎技巧的頁(yè)面。 示例:上著名IT門戶網(wǎng)站ZDNET和CNET搜索一下關(guān)于搜索引擎技巧方面的資訊。 注意,在這里Google有個(gè)小BUG?!耙言趙ww.zdnet.com內(nèi)搜索…”,其實(shí)應(yīng)該表述成“已在www.zdnet.com和www.cnet.com內(nèi)搜索…”。 示例:搜索新浪科技頻道中關(guān)于搜索引擎技巧的信息。 注意:site后的冒號(hào)為英文字符,而且,冒號(hào)后不能有空格,否則,“site:”將被作為一個(gè)搜索的關(guān)鍵字。此外,網(wǎng)站域名不能有“http://”前綴,也不能有任何“/”的目錄后綴;網(wǎng)站頻道則只局限于“頻道名.域名”方式,而不能是“域名/頻道名”方式。 8.2、在某一類文件中查找信息 “filetype:”是Google開(kāi)發(fā)的非常強(qiáng)大實(shí)用的一個(gè)搜索語(yǔ)法。也就是說(shuō),Google不僅能搜索一般的文字頁(yè)面,還能對(duì)某些二進(jìn)制文檔進(jìn)行檢索。目前,Google已經(jīng)能檢索微軟的Office文檔如.xls、.ppt、.doc,.rtf,WordPerfect文檔,Lotus1-2-3文檔,Adobe的.pdf文檔,ShockWave的.swf文檔(Flash動(dòng)畫)等。其中最實(shí)用的文檔搜索是PDF搜索。PDF是ADOBE公司開(kāi)發(fā)的電子文檔格式,現(xiàn)在已經(jīng)成為互聯(lián)網(wǎng)的電子化出版標(biāo)準(zhǔn)。目前Google檢索的PDF文檔大約有2500萬(wàn)左右,大約占所有索引的二進(jìn)制文檔數(shù)量的80%。PDF文檔通常是一些圖文并茂的綜合性文檔,提供的資訊一般比較集中全面。 示例:搜索幾個(gè)資產(chǎn)負(fù)債表的Office文檔。 注意,下載的Office文件可能含有宏病毒,謹(jǐn)慎操作。 示例:搜索一些關(guān)于搜索引擎知識(shí)和技巧方面的PDF文檔 我們來(lái)看其中的一個(gè)結(jié)果: [PDF]Search Engines Tips 可以看到,Google用[PDF]來(lái)標(biāo)記這是一個(gè)PDF的文檔檢索,另外,它還給出了該P(yáng)DF文檔的HTML版本,該HTML版保留了文檔的文字內(nèi)容和結(jié)構(gòu),但沒(méi)有圖片。 8.3、搜索的關(guān)鍵字包含在URL鏈接中 “inurl”語(yǔ)法返回的網(wǎng)頁(yè)鏈接中包含第一個(gè)關(guān)鍵字,后面的關(guān)鍵字則出現(xiàn)在鏈接中或者網(wǎng)頁(yè)文檔中。有很多網(wǎng)站把某一類具有相同屬性的資源名稱顯示在目錄名稱或者網(wǎng)頁(yè)名稱中,比如“MP3”、“GALLARY”等,于是,就可以用INURL語(yǔ)法找到這些相關(guān)資源鏈接,然后,用第二個(gè)關(guān)鍵詞確定是否有某項(xiàng)具體資料。INURL語(yǔ)法和基本搜索語(yǔ)法的最大區(qū)別在于,前者通常能提供非常精確的專題資料。 示例:查找MIDI曲“滄海一聲笑”。 注意:“inurl:”后面不能有空格,Google也不對(duì)URL符號(hào)如“/”進(jìn)行搜索。例如,Google會(huì)把“cgi-bin/phf”中的“/”當(dāng)成空格處理。 “allinurl”語(yǔ)法返回的網(wǎng)頁(yè)的鏈接中包含所有作用關(guān)鍵字。這個(gè)查詢的關(guān)鍵字只集中于網(wǎng)頁(yè)的鏈接字符串。 示例:查找可能具有PHF安全漏洞的公司網(wǎng)站。通常這些網(wǎng)站的CGI-BIN目錄中含有PHF腳本程序(這個(gè)腳本是不安全的),表現(xiàn)在鏈接中就是“域名/cgi-bin/phf”。 8.4、搜索的關(guān)鍵字包含在網(wǎng)頁(yè)標(biāo)題中 “intitle”和“allintitle”的用法類似于上面的inurl和allinurl,只是后者對(duì)URL進(jìn)行查詢,而前者對(duì)網(wǎng)頁(yè)的標(biāo)題欄進(jìn)行查詢。網(wǎng)頁(yè)標(biāo)題,就是HTML標(biāo)記語(yǔ)言title中之間的部分。網(wǎng)頁(yè)設(shè)計(jì)的一個(gè)原則就是要把主頁(yè)的關(guān)鍵內(nèi)容用簡(jiǎn)潔的語(yǔ)言表示在網(wǎng)頁(yè)標(biāo)題中。因此,只查詢標(biāo)題欄,通常也可以找到高相關(guān)率的專題頁(yè)面。 示例:查找日本明星藤原紀(jì)香的照片集。 8.5、搜索的關(guān)鍵字包含在網(wǎng)頁(yè)的“錨”(anchor)鏈點(diǎn)內(nèi) 所謂“錨”,就是在同一個(gè)網(wǎng)頁(yè)中快速切換鏈接點(diǎn)。與URL和TITLE類似,Google提供了兩種對(duì)anchor的檢索,“inanchor”和“allincnchor”。對(duì)此不作詳述。
|
|
來(lái)自: 南書(shū)風(fēng) > 《搜索引擎》