用Python30秒自动获取指定关键词的国际论文?思路清奇的我是这样做的......

简介: 用Python30秒自动获取指定关键词的国际论文?思路清奇的我是这样做的......

背景

又到了一年一度的毕业季,各路的同学们都在为了参考论文而发愁,本文我们通过Python来获取指定关键词的论文。


思路

本次我们的目标是获取一部分指定关键词的相关论文,首先我们来整理一下思路。


  1. 通过百度学术找到论文的相关搜索页;
  2. 通过详细的搜索页找到论文对应的DOI;
  3. 通过DOI匹配出论文的下载地址进行下载。


实现方式

一、找到搜索页面

因为我们要借助百度学术来获取论文的DOI的值,因此我们先尝试通过百度学术的搜索页构造出可以匹配关键词的URL地址。

百度学术的搜索页URL如下,我们可以发现在URL中可以通过更改关键词(Key)来组合出不同的关键词URL。

5.png

导入模块代码:

# 导入所需模块
import requests
import re
import os
from urllib.request import urlretrieve

匹配URL代码:

# 获取URL信息
def get_url(key):
    url = 'https://xueshu.baidu.com/s?wd=' + key + '&ie=utf-8&tn=SE_baiduxueshu_c1gjeupa&sc_from=&sc_as_para=sc_lib%3A&rsv_sug2=0'
    return url
get_url('Python')

设置请求头:

# 设置请求头
headers = {
    'user-agent':
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
    'Referer': 'https://googleads.g.doubleclick.net/'
}

二、获取论文相关的DOI

这一步我们要找到百度学术中提供的DOI信息并进行获取,从百度学术中可以看到的DOI信息如下所示:

6.png

通过Python爬取并解析出DOI的方式如下:

# 获取相关论文的DOI列表
def get_paper_link(headers, key):
    response = requests.get(url=get_url(key), headers=headers)
    res1_data = response.text
    #找论文链接
    paper_link = re.findall(r'<h3 class=\"t c_font\">\n +\n +<a href=\"(.*)\"',
                            res1_data)
    doi_list = []  #用一个列表接收论文的DOI
    for link in paper_link:
        paper_link = 'http:' + link
        response2 = requests.get(url=paper_link, headers=headers)
        res2_data = response2.text
        #提取论文的DOI
        try:
            paper_doi = re.findall(r'\'doi\'}\">\n +(.*?)\n ', res2_data)
            if str(10) in paper_doi[0]:
                doi_list.append(paper_doi)
        except:
            pass
    return doi_list
a = get_paper_link(headers,'apple')

三、通过DOI匹配出论文的下载地址进行下载

image.png

这一步也是最“神奇”的一步,我们获取到DOI信息之后,可以从网址https://sci-hub.tf/中查找并下载论文,但是通过Python访问网站的时候会发现该网站加入了cloudflare保护(PS:之前没有保护,按照之前的方式教给很多人爬论文后突然加了这个盾,不确定是不是我的功劳。)


破盾

有了思路之后,下一步就是破盾了,博主尝试过多种破盾方式均未能成功,甚至联系了专门开发破解Cloudflare保护的Python模块cloudflare-scrape的开发者,得到的回复就是:项目不能使用了!

8.png

最后的最后,我发现该网页中上传的文件都是PDF文件,我们只需要构造出pdf文件的url直接下载就无需登陆网站即可成功下载了(往往复杂的事情简单起来都是很可怕的)。最后构造PDF下载链接代码如下:

#构建sci-hub下载链接
def doi_download(headers, key):
    doi_list = get_paper_link(headers, key)
    lst = []
    for i in doi_list:
        lst.append(list(i[0]))
    for i in lst:
        for j in range(8, len(i)):
            if i[j] == '/':
                i[j] = '%252F'
            elif i[j] == '(':
                i[j] = '%2528'
            elif i[j] == ')':
                i[j] = '%2529'
            else:
                i[j] = i[j].lower()
    for i in range(len(lst)):
        lst[i] = ''.join(lst[i])
    for doi in lst:
        down_link = 'https://sci.bban.top/pdf/' + doi + '.pdf'
        print(down_link)
        file_name = doi.split('/')[-1] + '.pdf'
        try:
            with open(file_name, 'wb') as f:
                r = requests.get(url=down_link, headers=headers)
                f.write(r.content)
                print('下载完毕:' + file_name)
        except:
            print("该文章为空")
            pass

下载模块:

# 检索及下载
key = input("请输入您想要下载论文的关键词(英文):")
doi_download(headers, key)

运行结果:

image.png

总结

这里只是做一个简单的尝试用于学习交流,如果想要一次性爬取大量的论文修改百度学术代码块的DOI自动获取即可。

相关文章
|
24天前
|
数据采集 存储 XML
Python爬虫:深入探索1688关键词接口获取之道
在数字化经济中,数据尤其在电商领域的价值日益凸显。1688作为中国领先的B2B平台,其关键词接口对商家至关重要。本文介绍如何通过Python爬虫技术,合法合规地获取1688关键词接口,助力商家洞察市场趋势,优化营销策略。
|
4月前
|
机器学习/深度学习 数据采集 数据可视化
【python】python当当数据分析可视化聚类支持向量机预测(源码+数据集+论文)【独一无二】
【python】python当当数据分析可视化聚类支持向量机预测(源码+数据集+论文)【独一无二】
|
14天前
|
数据采集 存储 API
利用Python爬虫获取1688关键词接口全攻略
本文介绍如何使用Python爬虫技术合法合规地获取1688关键词接口数据,包括环境准备、注册1688开发者账号、获取Access Token、构建请求URL、发送API请求、解析HTML及数据处理存储等步骤,强调遵守法律法规和合理使用爬虫技术的重要性。
|
2月前
|
数据采集 机器学习/深度学习 搜索推荐
Python自动化:关键词密度分析与搜索引擎优化
Python自动化:关键词密度分析与搜索引擎优化
|
2月前
|
iOS开发 MacOS Python
Python 编程案例:谁没交论文?输出并生成电子表格
Python 编程案例:谁没交论文?输出并生成电子表格
28 9
|
2月前
|
iOS开发 MacOS Python
Python编程案例:根据姓名归档论文、报告
Python编程案例:根据姓名归档论文、报告
16 1
|
4月前
|
数据可视化 数据挖掘 数据处理
【python】python农产品数据分析可视化(源码+论文+数据)【独一无二】
【python】python农产品数据分析可视化(源码+论文+数据)【独一无二】
244 1
|
4月前
|
数据采集 数据可视化 Python
【python】python猫眼电影数据抓取分析可视化(源码+数据集+论文)【独一无二】
【python】python猫眼电影数据抓取分析可视化(源码+数据集+论文)【独一无二】
277 1
|
4月前
|
数据采集 机器学习/深度学习 算法
【python】python客户信息审计风险决策树算法分类预测(源码+数据集+论文)【独一无二】
【python】python客户信息审计风险决策树算法分类预测(源码+数据集+论文)【独一无二】
|
4月前
|
机器学习/深度学习 数据采集 数据可视化
【python】python母婴数据分析模型预测可视化(数据集+论文+PPT+源码)【独一无二】
【python】python母婴数据分析模型预测可视化(数据集+论文+PPT+源码)【独一无二】