来说说近期很火的小众好搜引擎背后的技术

简介: 这个文章也是告诉做一个全网搜索需要用到的技术含量

这个文章也是告诉做一个全网搜索需要用到的技术含量,他们的广告:无痕、绿色、不追踪搜索。顾名思义:就是一款良心搜索,没有广告,也不推荐广告。围绕的依旧是【没有广告】并且替代F搜索的为目标。F搜很多人不知,简单说下F搜吧:

360截图20230719232147036.jpg

巧合的是好搜也是摘取了:谷歌、必应、雅虎的结果页,持续提供内容给用户,那么身为一个元搜索还有什么技术可言呢?

这个就是好搜和F搜的差异,好搜自带【数据库】所以有部分结果是来自它自己的PY爬虫,在索引,在分词,在排序,这些技术还是可以一一分析下的,现在做一款全网搜索没有以前那么难了,毕竟云厂商提供了很多模块可以付费使用的。

360截图20230719232613724.jpg

下面我就用我认知内知识普及下,大佬别嘲笑我就行。

他们的数据库使用的是阿里云或者腾讯云【MYSQL版、SQL Server 版、Redis 版】可能是定制版有可能是普通版,为啥我知道呢,第一看他们纯PHP页面和结果页面对比出来的数据,应为自有数据库存储做全网需要无限存储或者块存储,所以这3个数据库可能都会用到,爬虫应该是PY写的广深优先这个在我自己网站日志里捕获到了,蜘蛛服务器应该是是小厂的拨号(可能避免反爬吧)。

索引可能用的是百度云的搜索框去掉了框,只拿索引机制,应为我查了资料,目前就是阿里云和百度云这2家是比较接近。

分词这块用的是阿里云的【智能开放搜索 OpenSearch】排序也是这个机制套用的,加上主页的那个搜索框都是这个一气呵成的,这个模块我们公司自己也有所以对他很熟悉了。

底部关键词推荐用的也是阿里云【智能推荐 AIRec】可能是定制版。

至于自然语言这块猜想了【阿里云】【腾讯云】这2家公司产品。

下面是好搜代码,大佬可以拿去自己试试就知道个八九不离十了:

<form action="http://sl.z88888888.cn/s/" target="_blank">
<table bgcolor="#FFFFFF"><tr><td>
<a href="http://sl.z88888888.cn/"><img src="http://sl.z88888888.cn/search/images/hao.gif" alt="ZeiGou" align="bottom" border="0"></a>
<input type=text name=wd size=30>
<input type="submit" value="好搜搜索">
</td></tr></table>
</form>
相关文章
|
5月前
|
数据采集 人工智能 数据可视化
“会数据同学”首站走进雅戈尔,看老牌男装品牌如何用“数据+AI”华丽转身
“会数据同学”首站走进雅戈尔,看老牌男装品牌如何用“数据+AI”华丽转身
153 0
|
存储 分布式计算 NoSQL
惊 GitHub首次开源!在国内外都被称为分布式理论+实践的巅峰之作
如果你是一位软件行业从业者,尤其是从事服务器端或者后台系统软件开发,相信近年来一定被层出不穷的商业名词所包围:NoSQL、Big Data、Web-scale、Sharding.Eventual consistency、ACID、CAP理论、云服务、MapReduce和Real-time等,所有这些其实都围绕着如何构建高效存储与数据处理这一核心主题。过去十年,在数据库领域与分布式系统方面涌现了许多引人瞩目的进展,由此深刻地影响了如何构建上层应用系统。
|
Web App开发 人工智能 文字识别
一文带你了解阿里云RPA4.0背后的黑科技
今年5月,Gartner发布了RPA全球竞争格局的调研报告,阿里云RPA名列其中。随着阿里云RPA产品和生态的不断发展、客户的认可与伙伴的倾情投入,阿里云RPA有了很大的突破,并围绕“更专业、更智能、深化集成”方向,全新升级到了4.0版本,除了品牌整体调整外,阿里云RPA还对可视化开发、录制和AI等多个方面进行了重大升级,进一步满足客户业务需求,为企业数字化转型提供高效、安全、智能的服务。
一文带你了解阿里云RPA4.0背后的黑科技
|
消息中间件 Cloud Native 中间件
盘点2022:开源热度居高,技术思考与经验分享是开发者的最爱
阿里巴巴中间件陪伴大家又是一年了,春节即将到来,我们不禁回望,这一年我们留下了什么,又收获了什么。
156 7
|
消息中间件 运维 Cloud Native
分布式架构设计与技术分析 | 开发者社区精选文章合集(三十)
系统学习分布式架构设计对于技术人的成长非常关键,对于云原生开发者而言如何设计出符合云原生设计哲学的应用往往离不开分布式系统知识与方法论的运用。如何设计出高弹性、可配置、可分布、高性能、高容错、更安全、更韧性、快交付的原生应用往往是衡量开发者水准的重要参考。
分布式架构设计与技术分析 | 开发者社区精选文章合集(三十)
|
机器学习/深度学习 人工智能 算法
小白也能搭建深度模型,百度EasyDL的背后你知多少
部署深度学习服务非常困难,因此简单易用的图形化系统就显得极为重要。本文介绍了百度的图形化深度学习系统 EasyDL,用户可以不需要机器学习背景知识而搭建优秀的深度学习服务。本文重点讨论了 EasyDL 系统的技术模块与优势,它大量采用了迁移学习与自动模型搜索,并针对不同的定制化任务学习不同的深度模型。
362 0
小白也能搭建深度模型,百度EasyDL的背后你知多少
|
移动开发 分布式计算 中间件
【沉淀】从网络中间件到搜索,从移动开发到分布式计算平台,阿里高级专家李睿博谈自己的折腾路
整个过程我觉得还是爱最重要。有爱才有勇气才有希望。我是真的爱写代码。从小学就开始爱,到现在快三十年了也还爱。
30427 12
专访开源之道主创 · 适兕:真实的开源世界依旧冷清
专访开源之道主创 · 适兕:真实的开源世界依旧冷清
|
中间件 Go 流计算
为“程序媛”点赞 “阿里中间件性能挑战赛”完美收官
由阿里巴巴集团主办,阿里云天池大数据平台承办的第二届“阿里中间件性能挑战赛”吸引了1946支队伍报名参加,不但有来自413所知名高校的学生和科研人员,还有来自40余家企业的社会选手,这表明,“阿里中间件性能挑战赛”已经成为影响力巨大的重要技术赛事。
5282 8