Python初级案例教学,爬虫基础【第三课】

简介: python 提取出所有学生的序号,姓名,成绩python 敏感词过滤疫苗,疫情张三的学号是1101,张三的成绩为84.535分1.通过位置参数2.通过关键字参数3.映射-列表4.映射-字典5.保留2位小数

python 提取出所有学生的序号,姓名,成绩

# 提取出所有学生的序号,姓名,成绩
str1='''<tbody>
<tr><td><span><span class="c-index c-index-hot1 c-gap-icon-right-small">1</span>张婷婷</span></td><td class="opr-toplist-right">92<i class="opr-toplist-st c-icon c-icon-down"></i></td></tr>
<tr><td><span><span class="c-index c-index-hot1 c-gap-icon-right-small">2</span>王华</span></td><td class="opr-toplist-right">91<i class="opr-toplist-st c-icon c-icon-down"></i></td></tr>
<tr><td><span><span class="c-index c-index-hot1 c-gap-icon-right-small">3</span>张岚</span></td><td class="opr-toplist-right">90<i class="opr-toplist-st c-icon c-icon-down"></i></td></tr>
<tr><td><span><span class="c-index c-gap-icon-right-small">4</span>孙鸿峰</span></td><td class="opr-toplist-right">90<i class="opr-toplist-st c-icon c-icon-down"></i></td></tr>
<tr><td><span><span class="c-index c-gap-icon-right-small">5</span>周海栋</span></td><td class="opr-toplist-right">89<i class="opr-toplist-st c-icon c-icon-down"></i></td></tr>
<tr><td><span><span class="c-index c-gap-icon-right-small">6</span>武静</span></td><td class="opr-toplist-right">88<i class="opr-toplist-st c-icon c-icon-down"></i></td></tr>
</tbody>'''
list1 = str1.split('</tr>', 5)
for i in list1:
    no_begin = i.find('c-gap-icon-right-small">') + len('c-gap-icon-right-small">')
    no_end = i.find('</span>')
    no = i[no_begin:no_end]
    print(no, end=' ')
    name_begin = no_end + len('</span>')
    name_end = i.rfind('</span>')
    name = i[name_begin:name_end]
    print(name, end=' ')
    score_begin = i.index('class="opr-toplist-right">')+len('class="opr-toplist-right">')
    score_end = i.index('<i class="opr-toplist-st c-icon c-icon-down">')
    score = i[score_begin:score_end]
    print(score, end=' ')
    print('')

python 敏感词过滤疫苗,疫情

我们国家新冠病毒疫苗接种的基本原则是“知情、同意、自愿”。接种人群的数量和群众接种意愿是直接相关的,所以在接种工作过程中我们一直在关注这个问题,也是接种工作的重点。我们一直在跟踪研究这个问题,根据现在了解的情况看,接种意愿受到的影响因素比较多,接种意愿变化也比较大。当前看,影响接种意愿的有两个主要因素:第一是疫情防控因素,我们国家目前采取了有力得当的疫情防控措施,所以我国的疫情总体平稳,部分群众就认为感染风险比较低,暂时不需要接种疫苗来增加保护力;第二是由于新冠病毒疫苗属于新上市疫苗,部分群众希望能够看到更多关于疫苗使用效果的信息,大家非常关注安全性、有效性等方面的数据,大家考虑对疫苗有更多了解之后再接种。当前主要是这两个方面因素有较大影响作用。

过滤敏感词:疫苗,疫情

# 敏感词过滤
str = "我们国家新冠病毒疫苗接种的基本原则是“知情、同意、自愿”。接种人群的数量和群众接种意愿是直接相关的,所以在接种工作过程中我们一直在关注这个问题,也是接种工作的重点。我们一直在跟踪研究这个问题,根据现在了解的情况看,接种意愿受到的影响因素比较多,接种意愿变化也比较大。当前看,影响接种意愿的有两个主要因素:第一是疫情防控因素,我们国家目前采取了有力得当的疫情防控措施,所以我国的疫情总体平稳,部分群众就认为感染风险比较低,暂时不需要接种疫苗来增加保护力;第二是由于新冠病毒疫苗属于新上市疫苗,部分群众希望能够看到更多关于疫苗使用效果的信息,大家非常关注安全性、有效性等方面的数据,大家考虑对疫苗有更多了解之后再接种。当前主要是这两个方面因素有较大影响作用。"
str1 = str.replace('疫苗', '**')
str2 = str1.replace('疫情', '**')
print(str2)

张三的学号是1101,张三的成绩为84.535分

1.通过位置参数

2.通过关键字参数

3.映射-列表

4.映射-字典

5.保留2位小数

# 要求输出:张三的学号是1101,张三的成绩为84.535分
str = '{}的学号是{},{}的成绩为{}分'
# 1.通过位置参数
str1 = '{0}的学号是{1},{0}的成绩为{2}分'
print(str1.format('张三', '1101', 84.535))
# 2.通过关键字参数
str2 = '{name}的学号是{no},{name}的成绩为{score}分'
print(str2.format(name='张三', no='1101', score=84.535))


# 3.映射-列表
str3 = '{0}的学号是{1},{0}的成绩为{2}分'
list1 = ['张三', '1101', 84.535]
print(str3.format(*list1))

# 4.映射-字典
str4 = '{name}的学号是{no},{name}的成绩为{score}分'
item1 = {'name': '张三', 'no': '1101', 'score': 84.535}
print(str4.format(**item1))

# 5.保留2位小数
str5 = '{0}的学号是{1},{0}的成绩为{2:.2f}分'
print(str5.format('张三', '1101', 84.535))

总结

通过前两个实验,学会了字符串的切割和拼接替换为以后的爬虫打下基础!

目录
相关文章
|
15天前
|
数据采集 存储 XML
Python爬虫:深入探索1688关键词接口获取之道
在数字化经济中,数据尤其在电商领域的价值日益凸显。1688作为中国领先的B2B平台,其关键词接口对商家至关重要。本文介绍如何通过Python爬虫技术,合法合规地获取1688关键词接口,助力商家洞察市场趋势,优化营销策略。
|
1月前
|
数据采集 Web App开发 监控
高效爬取B站评论:Python爬虫的最佳实践
高效爬取B站评论:Python爬虫的最佳实践
|
1月前
|
数据采集 缓存 定位技术
网络延迟对Python爬虫速度的影响分析
网络延迟对Python爬虫速度的影响分析
|
1月前
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
97 6
|
19小时前
|
数据采集 JSON API
如何利用Python爬虫淘宝商品详情高级版(item_get_pro)API接口及返回值解析说明
本文介绍了如何利用Python爬虫技术调用淘宝商品详情高级版API接口(item_get_pro),获取商品的详细信息,包括标题、价格、销量等。文章涵盖了环境准备、API权限申请、请求构建和返回值解析等内容,强调了数据获取的合规性和安全性。
|
5天前
|
数据采集 存储 API
利用Python爬虫获取1688关键词接口全攻略
本文介绍如何使用Python爬虫技术合法合规地获取1688关键词接口数据,包括环境准备、注册1688开发者账号、获取Access Token、构建请求URL、发送API请求、解析HTML及数据处理存储等步骤,强调遵守法律法规和合理使用爬虫技术的重要性。
|
13天前
|
数据采集 JSON 开发者
Python爬虫京东商品详情数据接口
京东商品详情数据接口(JD.item_get)提供商品标题、价格、品牌、规格、图片等详细信息,适用于电商数据分析、竞品分析等。开发者需先注册账号、创建应用并申请接口权限,使用时需遵循相关规则,注意数据更新频率和错误处理。示例代码展示了如何通过 Python 调用此接口并处理返回的 JSON 数据。
|
17天前
|
XML 数据采集 数据格式
Python 爬虫必备杀器,xpath 解析 HTML
【11月更文挑战第17天】XPath 是一种用于在 XML 和 HTML 文档中定位节点的语言,通过路径表达式选取节点或节点集。它不仅适用于 XML,也广泛应用于 HTML 解析。基本语法包括标签名、属性、层级关系等的选择,如 `//p` 选择所有段落标签,`//a[@href=&#39;example.com&#39;]` 选择特定链接。在 Python 中,常用 lxml 库结合 XPath 进行网页数据抓取,支持高效解析与复杂信息提取。高级技巧涵盖轴的使用和函数应用,如 `contains()` 用于模糊匹配。
|
20天前
|
数据采集 XML 存储
构建高效的Python网络爬虫:从入门到实践
本文旨在通过深入浅出的方式,引导读者从零开始构建一个高效的Python网络爬虫。我们将探索爬虫的基本原理、核心组件以及如何利用Python的强大库进行数据抓取和处理。文章不仅提供理论指导,还结合实战案例,让读者能够快速掌握爬虫技术,并应用于实际项目中。无论你是编程新手还是有一定基础的开发者,都能在这篇文章中找到有价值的内容。
|
18天前
|
数据采集 JavaScript 前端开发
Python爬虫能处理动态加载的内容吗?
Python爬虫可处理动态加载内容,主要方法包括:使用Selenium模拟浏览器行为;分析网络请求,直接请求API获取数据;利用Pyppeteer控制无头Chrome。这些方法各有优势,适用于不同场景。