扩展词库秘籍:Python利用百度搜索引擎实现以词搜词

简介: 在这篇文章中,我将教你如何使用百度搜索引擎来实现以词搜词的目的。无论是为了拓展词汇量、进行主题扩展,还是进行学习和研究,这个技巧都会让你更加高效地获取相关信息。利用百度搜索的工作原理和搜索算法,以便更好地理解搜索结果的生成过程。接下来,我会分享一个简单而有效的方法,让你能够通过一个关键词或短语来搜索到与之相关的词汇。

在这篇文章中,我将教你如何使用百度搜索引擎来实现以词搜词的目的。无论是为了拓展词汇量、进行主题扩展,还是进行学习和研究,这个技巧都会让你更加高效地获取相关信息。利用百度搜索的工作原理和搜索算法,以便更好地理解搜索结果的生成过程。接下来,我会分享一个简单而有效的方法,让你能够通过一个关键词或短语来搜索到与之相关的词汇。

当我们使用某个词语进行搜索的时候,时常获取不到我们想要的信息,这种情况下,大多数人除了换一种语义进行搜索,还有一些人会选择直接查看搜索引擎返回给你的相关搜索词语(相关搜索)。如果我们需要这些词语,应该如何把他提取出来呢?

准备工作

我们在百度输入信息,例如矿泉水和纯净水区别百度会有两部分的联想词。
第一部分 我们成为下拉搜索词。

微信截图_20230711145538.png

如果想要提取这类词对于我们可以使用正则表达式来提取,或者使用其他方法,不过这里针对新手和程序简易性暂不太友好,所以今天我们暂且不讨论,那么就有了我们接下来的教程,提取相关搜索词语,也就是这一部分。

eb8d5409d8740b79e830c46c7a6d97a.png

这一类词语呢,因为是直接在网页源代码里,所以可以更清楚的分析他的结构,当然了,这套技能在以后的网页爬虫里是绝对逃不掉的一套提取方法。二话不说,直接右键审查元素找到当前结构目录。

f69d027264f39d00449ec4f63517c49.png

这个时候我们可以看到,鼠标放在table标签上,元素自动概括了整个我们需要的地方,然后我们挨个挨个向下查找他的子元素,这时候我们列出一个顺序。
1、找到table标签。
2、找到子级的td他的类名为rs-col_8Qlx- 所以我这里就直接索性使用这个类名直接查询了。
3、找到a标签,提取它的title

好了这一步的准备工作我们就完成了,接下来就开始编码环节。(省略无关代码)

编码环节

#导入http请求库request
import requests


# 模拟词语
selected_keys = ['康乃馨的养殖方法','昙花的养殖方法','满天星花怎么养殖方法']
# 构造请求的网址
for keywords in selected_keys:
    url = f"http://www.baidu.com/s?wd={keywords}"
    # run_getiCookie这个是我自己模拟的headers 新手直接网上随便复制就可以了。一般带上User-Agent,Accept,Host 就ok
    response = requests.get(url, headers=run_getiCookie(response.url))
    response.raise_for_status()
    soup = BeautifulSoup(response.content, "html.parser")

这一步操作呢,就成功了发送了请求,这个时候我们只需要去解析我们拿到的网页代码就好了。

for keywords in selected_keys:
    #...省略相关代码 pass
    # 查找包含相关词语的<td>标签
    td_tags = soup.find_all("td", class_="rs-col_8Qlx-")
    # 提取相关词语
    related_words = []
    for td_tag in td_tags:
        a_tag = td_tag.find("a")
        if a_tag:
            related_words.append(a_tag["title"])
    # 输出结果
    print(related_words)

后续程序运行输出

['耐寒喜阴的室外绿植有哪些', '满天星的养殖方法和注意事项有哪些', '满天星会自己繁殖吗', '满天星不开花怎么回事', '满天星盆栽养殖方法', '满天星放家里吉不吉利', '金
枝玉叶养护方法', '满天星养殖方法及注意事项', '绿公主的养殖方法和注意事项', '满天星花卉的养殖方法']

1.png

至此,一个简易的以词搜词的Python爬虫脚本就写好了,具体反爬等情况,还因人而异。

本文同步我的技术文档

相关文章
|
3月前
|
数据采集 监控 搜索推荐
基于python的百度资讯爬虫的设计与实现
本文介绍了一个基于Python语言的网络爬虫设计与实现,该爬虫利用urllib.request和BeautifulSoup库从百度新闻中抓取新闻标题、链接、内容摘要和来源信息,通过模拟浏览器行为和添加随机等待时间来规避反爬机制,为新闻数据分析和舆情监控提供支持。
104 2
|
7天前
|
缓存 监控 测试技术
Python中的装饰器:功能扩展与代码复用的利器###
本文深入探讨了Python中装饰器的概念、实现机制及其在实际开发中的应用价值。通过生动的实例和详尽的解释,文章展示了装饰器如何增强函数功能、提升代码可读性和维护性,并鼓励读者在项目中灵活运用这一强大的语言特性。 ###
|
2月前
|
Python
Python--turtle库科赫雪花的扩展
使用Python的turtle库创建科赫雪花,并加入随机阶数、尺寸、位置和颜色的功能,每次运行生成不同图像。
Python--turtle库科赫雪花的扩展
|
1月前
|
机器学习/深度学习 缓存 PyTorch
pytorch学习一(扩展篇):miniconda下载、安装、配置环境变量。miniconda创建多版本python环境。整理常用命令(亲测ok)
这篇文章是关于如何下载、安装和配置Miniconda,以及如何使用Miniconda创建和管理Python环境的详细指南。
368 0
pytorch学习一(扩展篇):miniconda下载、安装、配置环境变量。miniconda创建多版本python环境。整理常用命令(亲测ok)
|
1月前
|
Python
Python扩展TimedRotatingFileHandler
【10月更文挑战第7天】 python log执行扩展压缩功能
48 0
|
2月前
|
存储 缓存 API
比较一下 Python、C、C 扩展、Cython 之间的差异
比较一下 Python、C、C 扩展、Cython 之间的差异
37 0
|
3月前
|
Python
告别死记硬背:掌握Python正则表达式re模块的高效应用&[面向百度编程]
Python中正则表达式的高效应用,通过内置的`re`模块,讲解了如何匹配、提取和替换字符串,并提供了相关示例代码,同时提倡通过实践来掌握正则表达式的使用,而不是仅仅依赖网络搜索。
47 1
|
3月前
|
数据采集 存储 自然语言处理
【优秀python案例】基于百度贴吧的数据采集与文本分析设计与实现
本文介绍了百度贴吧数据采集与文本分析的设计与实现,包括自动化采集帖子数据、进行情感分析和主题分析,以及使用可视化技术展示分析结果。
|
3月前
|
数据采集 XML 前端开发
Python爬虫实战:利用代理IP爬取百度翻译
Python 爬虫实战:利用代理 IP 爬取百度翻译
188 2
|
3月前
|
算法 关系型数据库 程序员
程序员必备技能)基于Python的鼠标与键盘控制实战扩展与源码
这篇文章是关于如何使用Python的`pyautogui`库来控制鼠标和键盘进行各种操作,包括移动、点击、滚轮控制以及键盘的按键和快捷键输出,并介绍了如何结合图像处理和计算机视觉技术来扩展其应用。