这个文章也是告诉做一个全网搜索需要用到的技术含量,他们的广告:无痕、绿色、不追踪搜索。顾名思义:就是一款良心搜索,没有广告,也不推荐广告。围绕的依旧是【没有广告】并且替代F搜索的为目标。F搜很多人不知,简单说下F搜吧:
巧合的是好搜也是摘取了:谷歌、必应、雅虎的结果页,持续提供内容给用户,那么身为一个元搜索还有什么技术可言呢?
这个就是好搜和F搜的差异,好搜自带【数据库】所以有部分结果是来自它自己的PY爬虫,在索引,在分词,在排序,这些技术还是可以一一分析下的,现在做一款全网搜索没有以前那么难了,毕竟云厂商提供了很多模块可以付费使用的。
下面我就用我认知内知识普及下,大佬别嘲笑我就行。
他们的数据库使用的是阿里云或者腾讯云【MYSQL版、SQL Server 版、Redis 版】可能是定制版有可能是普通版,为啥我知道呢,第一看他们纯PHP页面和结果页面对比出来的数据,应为自有数据库存储做全网需要无限存储或者块存储,所以这3个数据库可能都会用到,爬虫应该是PY写的广深优先这个在我自己网站日志里捕获到了,蜘蛛服务器应该是是小厂的拨号(可能避免反爬吧)。
索引可能用的是百度云的搜索框去掉了框,只拿索引机制,应为我查了资料,目前就是阿里云和百度云这2家是比较接近。
分词这块用的是阿里云的【智能开放搜索 OpenSearch】排序也是这个机制套用的,加上主页的那个搜索框都是这个一气呵成的,这个模块我们公司自己也有所以对他很熟悉了。
底部关键词推荐用的也是阿里云【智能推荐 AIRec】可能是定制版。
至于自然语言这块猜想了【阿里云】【腾讯云】这2家公司产品。
下面是好搜代码,大佬可以拿去自己试试就知道个八九不离十了:
<form action="http://sl.z88888888.cn/s/" target="_blank"> <table bgcolor="#FFFFFF"><tr><td> <a href="http://sl.z88888888.cn/"><img src="http://sl.z88888888.cn/search/images/hao.gif" alt="ZeiGou" align="bottom" border="0"></a> <input type=text name=wd size=30> <input type="submit" value="好搜搜索"> </td></tr></table> </form>