Google搜索技术
搜索引擎只是一个索引数据库,一般没有自己的信息资源,信息的可获得性与搜索引擎无关。不过搜索引擎有时也会在数据库中存储某些信息的内容。
一、普通搜索技术
1、默认模糊搜索、默认拆分语句和过长的短语
- 排除常用词规则:
在Google的检索规则中,有些常用词如“的”、“the”或者“of”等这些词是不被当作检索词的,而被忽略掉。 不区分大小写规则:
Google对于检索词中的大小写是完全不做区分的,这个规则的设置是为了改善检索结果,因为利用这样一个规则,就可以检索到包含该词的所有网页,避免了因为大小写不规范而造成的在查全率上的损失排除标点符号规则:
Google并不认为标点符号具有与文字一的重要地位,因此Google会忽略检索之间绝大多数的标点符号。但是对于单引号和连字符而言,它们是不被省略的。检索词的词序和邻近规则:
在Google中,检索词的排序方式对于整个检索式具有重要的影响,它将首先匹配按照检索式给出的次序进行搜索。同时它也将优先匹配检索词相互邻接的网页。
2、精确搜索:双引号“”。(短语搜索。可以查到各个单词按相同顺序出现的网页)
3、通配符*用法
4、点号匹配任意字符(也可不用引号)
5、布尔逻辑
- 逻辑与:空格、AND。
(在Google的检索规则中,最基本的一条是默认And规则,即当你输入多个检索词之后,Google默认为要检索所有的包含所有检索词的网页,它们之间为And连接。) - 逻辑或:OR
在检索式中运算符OR必须以大写的形式出现,否则会把它看成是普通的检索词。OR运算符告诉Google查找包含其中任何一个词的网页。
- 逻辑非:-(减号)。
运算符“-”表示不包含该运算符后面的词。
6、约束条件:+。(运算符“+”表示包含运算符后面的词)
7、同义词:~(英文适用。运算符“~”让Google检索该词及其同义词)
二、高级搜索语法
1、intitle、allintitle:搜索范围限制在网页的标题
2、intext,allintext:搜索范围限制在网页中的正文中搜索,即忽略超链接文本、URL以及题目等。
3、inurl、allinurl:搜索范围限制在URL。
4、inanchor、allinanchor :搜索范围限制在页面的链接锚点进行搜索,即在一个链接的描述文本内进行检索。网页中的代码
5、info:进入某URL更多信息的引导页面。
cache:搜索谷歌缓存的页面
related:检索与某特定网页类似的网页。这在搜寻相关内容或者具有类似功能的网页的时候,非常有帮助。
link:搜索所有链接到某个特定 URL上的页面列表
site:搜索范围限制在某网站或者顶级域名中。
6、filetype:根据文件后缀搜索特定文件类型
7、define:搜索定义
8、谷歌高级搜索语法也可以通过“高级搜索”页面来实现部分功能,不过,直接用高级搜索语法能更方便、更灵活、更高效。
Daterange:查找在一定的日期或者一定的日期范围内,Google索引的网页(该语法只关注被Google收录的时间,而不关注网页创建的时间)。
三、混合使用搜索技术
1、混合使用技术
- 缩小搜索范围最好的选择:混合使用intitle、site。例如,intitle:自动化site:edu.cn;
- 限定搜索特定类别的信息:inurl限定。例如,等爱的玫瑰 inurl:mp3;
- 搜索网站内的文档(一网打尽!):例如,filetype:ppt site:lib.nit.net.cn。
2、什么情况下不混合使用
- 不混合使用有抵消的搜索:例如,知识管理site:edu.cn -inurl:edu;
- 不要重复使用同一语法结构:例如,知识管理 site:cn site:com,但是这样可以:知识管理 (site:cn | site:com);
- 在混合使用语法时,不要用别名:如allinurl、allintitle;
- 不要使用过多的语法将搜索结果限制得特别狭窄,采取逐步增加限制的方法,一般不要一步到位做很多限制。
四、Google提供的特色服务
- Google 学术搜索:学术文章搜索,可能会获得全文。http://scholar.google.cn/
- Google 图片搜索:搜索图片,对做课件和艺术系同学很有帮助。https://www.google.com.hk/imghp?hl=zh-CN
- Google 图书搜索:有可能获得所需要图书的全文。 http://books.google.cn/
- Google 地图搜索:查询地址、捜索周边和规划路线。http://ditu.google.cn/
- Google 地球:从远、近等多个角度查看地球的各个角落。http://earth.google.com
- Google 视频:从远、近等多个角度查看地球的各个角落。http://video.google.com
五、Google搜索时应注意的问题
- Google不区分英文字母的大小写,所有字母均作小写对待。例如:输入“george washington”(乔治·华盛顿),或是“George Washington”, 再或是“gEoRgE wAsHiNgToN”,结果都是一样的
- 通配符问题。Google对通配符的支持有限,只能用“”代替单个字符,而且必须将检索词用引号引起来,如“以治国”
- 搜索引擎忽略的字符与强制检索。
Google对一些出现频率极高的英文单词,如“i”、“com”、“www”等,以及一些符号如“*”、“.”等,作忽略处理。如果检索词中包含这些字符,必须进行强制检索,在这些字符前后用“+”,如“+www+的历史”,或用英文的引号
===========
Baidu搜索技巧
一、Baidu常用功能
1、百度快照
每个被收录的网页,在百度上都存有一个纯文本的备份,称为“百度快照”。百度只保留文本内容,所以,那些图片、音乐等非文本信息,快照页面还是直接从原网页调用。如果您无法连接原网页,那么快照上的图片等非文本内容,会无法显示。
技巧:如果有一些网站需要积分才能下载文章,这个时候用百度快照可以免费下载文章。
2、相关搜索
搜索结果不佳,有时候是因为选择的查询词不是很妥当。您可以通过参考别人是怎么搜的,来获得一些启发。百度的“相关搜索”,就是和您的搜索很相似的一系列查询词。百度相关搜索排布在搜索结果页的下方,按搜索热门度排序。
4、英汉互译词典
百度还有线上英汉互译词典?没错。您也可以通过百度词典搜索界面(http://dict.baidu.com) ,直接使用英汉互译功能。如,搜索“computer”,就可以得到高质量的翻译结果。百度的线上词典不但能翻译普通的英语单词、词组、汉字词语,甚至还能翻译常见的成语!
5、计算器和度量衡转换
可以计算四则运算,如,35*82-(32+11);还可以进行公式计算。如,log((sin(5))^2)-3+pi;甚至可以进行单位换算,换算前单位=?换算后单位 ,如,1海里=?公里;等等。
6、股票、列车时刻表和飞机航班查询
在百度搜索框中输入股票代码、列车车次或者飞机航班号,您就能直接获得相关信息。例如,输入深发展的股票代码“000002”,搜索结果上方,显示万科A的股票行情。
二、高级搜索语法
1、把搜索范围限定在特定站点中——site
有时候,您如果知道某个站点中有自己需要找的东西,就可以把搜索范围限定在这个站点中,提高查询效率。使用的方式,是在查询内容的后面,加上“site:站点域名”。
注意,“site:”后面跟的站点域名,不要带“http://”;另外,site:和站点名之间,不要带空格。
2、书名号
有两层特殊功能,一是书名号会出现在搜索结果中;二是被书名号扩起来的内容,不会被拆分。 书名号在某些情况下特别有效果。
3、把搜索范围限定在网页标题中——intitle
网页标题通常是对网页内容提纲挈领式的归纳。把查询内容范围限定在网页标题中,有时能获得良好的效果。使用的方式,是把查询内容中,特别关键的部分,用“intitle:”领起来。
例如,找林青霞的写真,就可以这样查询:写真 intitle:林青霞
注意,intitle:和后面的关键词之间,不要有空格。
4、把搜索范围限定在url链接中——inurl
网页url中的某些信息,常常有某种有价值的含义。于是,您如果对搜索结果的url做某种限定,就可以获得良好的效果。实现的方式,是用“inurl:”,后跟需要在url中出现的关键词。
例如,找关于photoshop的使用技巧,可以这样查询:photoshop inurl:jiqiao
上面这个查询串中的“photoshop”,是可以出现在网页的任何位置,而“jiqiao”则必须出现在网页url中。注意,inurl:语法和后面所跟的关键词,不要有空格。
5、精确匹配——双引号
用法同Google
6、去除含有特定关键词的网页——减号(-)
如果您发现搜索结果中,有某一类网页是您不希望看见的,而且,这些网页都包含特定的关键词,那么用减号语法,就可以去除所有这些含有特定关键词的网页。
例如,搜 神雕侠侣,希望是关于武侠小说方面的内容,却发现很多关于电视剧方面的网页。那么就可以这样查询:神雕侠侣 -电视剧
注意,前一个关键词,和减号之间必须有空格,否则,减号会被当成连字符处理,而失去减号语法功能。减号和后一个关键词之间,有无空格均可。
三、Baidu常用搜索技巧
1、选择适当的查询词---准确的表述
百度会严格按照您提交的查询词去搜索,因此,查询词表述准确是获得良好搜索结果的必要前提。 一类常见的表述不准确情况是,脑袋里想着一回事,搜索框里输入的是另一回事。 一种不准确的表述就是在查询中出现错别字。
2、查询词的主题关联与简练 :
目前的搜索引擎并不能很好的处理自然语言。因此,在提交搜索请求时,您最好把自己的想法,提炼成简单的,而且与希望找到的信息内容主题关联的查询词。还是用实际例子说明。某三年级小学生,想查一些关于时间的名人名言,他的查询词是“小学三年级关于时间的名人名言”。最好的查询词,应该是“时间名言”。
3、很多情况下,我们需要有权威性的,信息量大的专业报告或者论文。巧妙利用filetype:这个语法对搜索对象做限制。
百度支持对Office文档(包括Word、Excel、Powerpoint)、Adobe PDF文档、RTF文档进行的全文搜索。要搜索这类文档,很简单,在普通的查询词后面,加一个“filetype:”文档类型限定。Filetype:”后可以跟以下文件格式:DOC、XLS、PPT、PDF、RTF、ALL。其中,ALL表示搜索所有这些文件类型。
探寻有趣之事!