医学教育网批量资源下载程序之——获取下载列表

简介:

从网站上下载资源可分为两步:

(1)通过遍历网站的方试,生成资源列表。

(2)根据列表一一下载资源。


资源列表是一个树状结构:


前面已完成了login()函数,现在我们可以调用这个函数成功登陆并获得课程列表页面。

可以从这个页面获取课程名称与课程ID。

捕获课程名称与课程ID可以用正则式进行。

为了方便调试正则式,我们直接用我们在login.py中下载下来的login.html进行分析。写如下脚本来调试正则式:


#!/usr/bin/env python
#encoding=utf-8
 
import re as reg
with open('login.html', 'r') as f:
    couse_reg = reg.compile(r'<a href="[^"]+cwareID=(\d{6})".*?<span class="bc3">(.*?)</span>')
    login_page = f.read()
    couse_list = couse_reg.findall(login_page)
    for couse_item in couse_list:
        print(couse_item[0] + ", " + couse_item[1].decode('gbk'))

这个程序经博主调试过,可以得到如下的结果:

700914, 药学综合知识与技能-基础[精品]
700536, 药物化学-基础[精品]
700925, 药剂学-基础(讲座一)[精品]
700021, 药剂学-基础(讲座二)[精品]
....<此处略>...
700797, (中药师)应试技巧
700837, 药学基础知识

哈哈~课程ID与课程名称就得到了。

有了课程ID,那么就可以到每个课程的下载页面去获取。

(等会儿,博主下楼吃个饭……)


目录
相关文章
|
API 开发者
百度批量算路功能使用
百度批量算路功能使用
125 0
|
3月前
|
机器学习/深度学习 编解码 算法
在线打开CAD或Solidworks的STP文件,通过以图搜图与实物比对搜索
智能比对系统利用大模型技术,实现设计图纸与实物的高效、精准比对。系统支持在线3D模型解析、多视图图片自动生成、实物照片智能比对及实时偏差标注,全面提升机械制造行业的设计、生产和质量控制效率。
|
缓存 开发工具
百度搜索:蓝易云【Debian系统更换国内源?】
现在,您的Debian系统已经更换为国内源。使用国内源可以加快软件包的下载速度,并提供更稳定的连接。请注意,根据您所在地区和具体需求,选择适合您的合适源。
126 0
|
Android开发 iOS开发
AppsFlyer 研究(九)OneLink模板配置步骤
AppsFlyer 研究(九)OneLink模板配置步骤
338 0
|
Ubuntu
百度搜索:蓝易云【ubantu换配置源教程。】
现在,你已经成功更改了Ubuntu的软件源配置。通过选择合适的镜像源,你可以提高软件包下载的速度和稳定性。记得定期执行 `sudo apt update`命令来获取最新的软件包列表。
202 0
|
数据采集 JSON 数据库
python爬虫目标网站的基本步骤
在访问目标网站的过程中分别需要做些什么步骤
python爬虫目标网站的基本步骤
|
数据库
保证好用!2种方法免费下载知网资源
无论是即将面临毕业的大学生,还是从事偏向研究岗位的工作人员,而中国知网作为最大的中文学术平台,无论你是否喜欢,都无法完全绕开。
保证好用!2种方法免费下载知网资源
|
数据安全/隐私保护
全网首发:怎样制作CDKEY(2)-数据构造
全网首发:怎样制作CDKEY(2)-数据构造
167 0
|
网络安全
RAKsmart检测网速和跟踪路由功能怎么用?
RAKsmart近年来在国内受到很多站长的欢迎,虽说RAKsmart主机商采取光纤接入、专线线路等等多种措施来提升国内的访问速度,但RAKsmart美国服务器毕竟都是位于美国机房,距离中国大陆较远,所以很多新手用户仍然对RAKsmart美国服务器的访问速度抱有怀疑态度。
813 0
电脑版敬业签记事本软件如何清除某个分类所有内容
敬业签,是一款可以备忘、记录、提醒的电脑手机云同步记事本软件。一个敬业签可以创建25项分类,每项分类500条便签,每条便签500个汉字。
1258 0