医疗爬虫实战:手把手教你抓取丁香园药品信息库

简介: 本文以丁香园药品库为例,用Python实战讲解医疗数据爬取技术。涵盖Requests、Lxml、Pandas等工具应用,解析反爬策略、代理轮换、数据清洗与存储方案,助你高效获取结构化药品信息,兼顾合规与实用性。(238字)

在医疗数据爆炸的时代,药品信息库已成为医生、药师和患者的重要参考。丁香园作为国内领先的医疗服务平台,其药品数据库包含药品成分、用法用量、禁忌症等关键信息。本文将以实战为导向,用通俗易懂的方式讲解如何用Python爬虫抓取这些数据,并解决反爬虫、数据清洗等核心问题。
探秘代理IP并发连接数限制的那点事 (11).png

一、技术选型:为什么选择这些工具?

  1. 核心工具包
    Requests:发送HTTP请求的瑞士军刀,支持会话保持和代理设置。
    Lxml:比BeautifulSoup快5倍的HTML解析器,支持XPath表达式精准定位数据。
    Pandas:数据处理的瑞士军刀,支持CSV/Excel导出和清洗。
    ProxyPool:开源代理池管理工具,自动维护高可用代理IP。
  2. 为什么不用Scrapy?
    对于医疗数据这种结构化页面,Scrapy的分布式架构反而显得笨重。我们采用轻量级方案:Requests获取页面 → Lxml解析 → Pandas存储,30行代码即可完成核心功能。

二、实战步骤:从0到1抓取药品数据

  1. 页面结构分析
    以丁香园药品库的"阿莫西林胶囊"页面为例,关键数据分布在:

药品名称:


成分:


适应症:

用法用量:

通过浏览器开发者工具(F12)查看元素,发现所有数据都在
容器内。
  1. 基础爬虫代码
    import requests
    from lxml import etree
    import pandas as pd

def fetch_drug_data(drug_url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

try:
    response = requests.get(drug_url, headers=headers, timeout=10)
    response.raise_for_status()
    html = etree.HTML(response.text)

    # 提取数据
    name = html.xpath('//h1[@class="drug-name"]/text()')[0].strip()
    ingredient = html.xpath('//div[@class="ingredient"]//text()')
    ingredient = ''.join([i.strip() for i in ingredient if i.strip()])

    # 其他字段提取类似...

    return {
        '药品名称': name,
        '成分': ingredient,
        # 其他字段...
    }

except Exception as e:
    print(f"抓取失败: {e}")
    return None

示例调用

drug_url = "https://drugs.dxy.cn/drug/123456.htm"
data = fetch_drug_data(drug_url)
if data:
df = pd.DataFrame([data])
df.to_csv('drug_data.csv', index=False, encoding='utf_8_sig')

  1. 关键技巧解析
    XPath定位://div[@class="ingredient"]//text()表示选取所有class为"ingredient"的div下的文本节点
    文本清洗:使用列表推导式去除空白字符
    异常处理:捕获网络请求和解析异常,避免程序中断
    三、反爬虫攻防战:如何突破限制?
  2. 丁香园的反爬机制
    IP频率限制:同一IP每分钟请求超过10次即触发验证
    行为指纹:通过Canvas指纹、WebGL指纹识别爬虫
    动态加载:部分数据通过AJAX异步加载
  3. 破解方案
    方案1:代理IP轮换
    from proxypool import ProxyPool

pool = ProxyPool() # 初始化代理池

def fetch_with_proxy(url):
proxy = pool.get_proxy() # 获取代理
proxies = {
'http': f'http://{proxy}',
'https': f'https://{proxy}'
}
try:
response = requests.get(url, proxies=proxies, timeout=10)
if response.status_code == 200:
return response.text
else:
pool.mark_invalid(proxy) # 标记无效代理
return fetch_with_proxy(url) # 递归重试
except:
pool.mark_invalid(proxy)
return fetch_with_proxy(url)

方案2:请求头伪装
def get_random_headers():
return {
'User-Agent': random.choice([
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36...',
'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15...'
]),
'Accept-Language': random.choice(['zh-CN,zh;q=0.9', 'en-US,en;q=0.8']),
'Referer': 'https://drugs.dxy.cn/'
}

方案3:动态延迟控制
import time
import random

def fetch_with_delay(url):
delay = random.uniform(1, 3) # 随机延迟1-3秒
time.sleep(delay)
return fetch_drug_data(url) # 使用基础爬虫函数

四、数据清洗与存储:让数据可用

  1. 常见数据问题
    HTML标签残留:如

    用法用量:

    口服,一次2粒


    单位不统一:如"5mg"和"0.005g"
    缺失值处理:部分药品缺少"禁忌症"字段
  2. 清洗方案
    def clean_data(raw_data):

    去除HTML标签

    from bs4 import BeautifulSoup
    soup = BeautifulSoup(raw_data['适应症'], 'html.parser')
    clean_text = soup.get_text(strip=True)

    单位统一

    if 'mg' in raw_data['剂量']:

     raw_data['剂量_g'] = float(raw_data['剂量'].replace('mg', '')) / 1000
    

    填充缺失值

    raw_data['禁忌症'] = raw_data.get('禁忌症', '未提及')

    return raw_data

  3. 存储方案对比
    存储方式 适用场景 优点 缺点
    CSV 小规模数据 通用性强 不支持复杂查询
    SQLite 中等规模 无需服务器 并发性能有限
    MongoDB 大规模数据 灵活Schema 占用空间较大
    五、完整项目代码(精简版)
    import requests
    from lxml import etree
    import pandas as pd
    import random
    import time
    from proxypool import ProxyPool

class DrugSpider:
def init(self):
self.pool = ProxyPool()
self.base_url = "https://drugs.dxy.cn/drug/{}.htm"

def get_proxy(self):
    return self.pool.get_proxy()

def fetch_page(self, drug_id):
    url = self.base_url.format(drug_id)
    proxy = self.get_proxy()
    proxies = {'http': f'http://{proxy}', 'https': f'https://{proxy}'}

    try:
        headers = self.get_random_headers()
        time.sleep(random.uniform(1, 3))
        response = requests.get(url, headers=headers, proxies=proxies, timeout=10)
        response.raise_for_status()
        return response.text
    except Exception as e:
        print(f"抓取失败: {e}")
        return None

def parse_page(self, html):
    if not html:
        return None

    html = etree.HTML(html)
    data = {
        '名称': html.xpath('//h1[@class="drug-name"]/text()')[0].strip(),
        '成分': ''.join([i.strip() for i in html.xpath('//div[@class="ingredient"]//text()') if i.strip()]),
        # 其他字段解析...
    }
    return data

def run(self, drug_ids):
    results = []
    for drug_id in drug_ids:
        html = self.fetch_page(drug_id)
        data = self.parse_page(html)
        if data:
            results.append(data)

    df = pd.DataFrame(results)
    df.to_csv('drug_data.csv', index=False, encoding='utf_8_sig')
    print(f"成功抓取{len(results)}条药品数据")

使用示例

spider = DrugSpider()
drug_ids = ['123456', '654321', '789012'] # 实际应从列表获取
spider.run(drug_ids)

六、常见问题Q&A
Q1:被网站封IP怎么办?
A:立即启用备用代理池,建议使用住宅代理(如站大爷IP代理),配合每请求更换IP策略。对于大规模采集,可采用:

混合使用数据中心代理和住宅代理
设置请求间隔为3-10秒随机值
实现代理健康度监测,自动剔除失效代理
Q2:如何获取药品ID列表?
A:可通过以下方式获取:

丁香园药品分类页面的分页链接(如https://drugs.dxy.cn/search?page=2)
搜索接口API(如https://drugs.dxy.cn/api/search?keyword=抗生素)
已有药品数据库的交叉验证
Q3:数据抓取频率应该设置多少?
A:建议遵循以下原则:

测试期:每10-30秒/请求
正式采集:每3-10秒/请求(根据目标网站规模调整)
关键时期:启用分布式爬虫,每个IP分配不同延迟
Q4:如何处理动态加载的数据?
A:两种方案:

分析AJAX请求:通过浏览器开发者工具的Network面板,找到数据接口直接请求
Selenium模拟浏览器:适用于复杂JavaScript渲染的页面
from selenium import webdriver
from selenium.webdriver.chrome.options import Options

options = Options()
options.add_argument('--headless') # 无头模式
driver = webdriver.Chrome(options=options)
driver.get("https://drugs.dxy.cn/drug/123456.htm")
html = driver.page_source
driver.quit()

Q5:如何避免法律风险?
A:必须遵守:

检查目标网站的robots.txt文件(如https://drugs.dxy.cn/robots.txt)
控制采集频率,避免对服务器造成负担
不采集用户隐私数据(如患者信息)
仅用于个人学习研究,商业用途需获得授权
结语
通过本文的实战讲解,你已掌握医疗爬虫的核心技术:从页面解析到反爬虫应对,从数据清洗到存储优化。实际项目中,建议结合具体需求调整策略,例如:

医疗研究:重点关注药品相互作用、不良反应等字段
价格监控:需定期抓取并对比不同渠道价格
药品对比:需要标准化单位并建立映射关系
记住:技术只是手段,合规才是根本。在享受数据红利的同时,务必遵守相关法律法规,让爬虫技术真正服务于医疗健康事业。

目录
相关文章
|
3月前
|
前端开发 Java Python
Python高效实现Word转HTML:从基础到进阶的全流程方案
本文介绍如何利用Python实现Word文档(.docx)高效转换为HTML,解决企业数字化转型中文档格式迁移的痛点。通过对比python-docx、pandoc和Mammoth等工具,结合样式保留、图片处理、表格优化与批量转换方案,提供低成本、高灵活性的自动化流程。适用于产品手册、技术文档、课件等场景,提升转换效率达40倍,成本降低90%。
734 0
|
4月前
|
存储 算法 定位技术
Python计算经纬度坐标点距离:从原理到实战
本文详解Python实现地球两点间精确距离计算,涵盖Haversine与Vincenty公式、向量化优化及地理围栏等实战应用,助你掌握高精度球面距离算法。
442 0
|
4月前
|
数据采集 JSON 数据可视化
用Pandas清洗爬虫数据:缺失值处理技巧全解析
爬虫数据常含缺失值,如同带泥土豆。本文用Python+Pandas演示清洗全流程:识别显性、隐性、结构缺失,结合删除、填充、模型预测等方法,将脏数据变“净数据”,助力精准分析。附实战代码与避坑指南。
410 2
|
3月前
|
数据采集 监控 NoSQL
Airflow调度爬虫任务:从零搭建高效定时采集系统
Airflow以DAG实现爬虫任务依赖管理,支持分钟级调度与Web监控,解决crontab无依赖控制、Jenkins不灵活等问题。结合PythonOperator、动态参数传递与分布式架构,可构建高可用、易扩展的自动化采集系统,适用于电商价格监控等场景。
188 0
|
3月前
|
数据采集 分布式计算 Java
PySpark实战:亿级爬虫数据的高效处理指南
PySpark助力高效处理亿级爬虫数据,支持分布式清洗、转换与分析。具备弹性扩展、内存优化、多格式兼容等优势,结合Spark生态实现TB级数据全流程处理,提升大规模数据处理效率与系统稳定性。
296 0
|
4月前
|
XML 数据采集 API
用Lxml高效解析XML格式数据:以天气API为例
免费Python教程:实战解析中国天气网XML数据,详解Lxml库高效解析技巧、XPath用法、流式处理大文件及IP封禁应对策略,助你构建稳定数据采集系统。
258 0
|
4月前
|
数据库连接 API 数据安全/隐私保护
Python字符串处理:超越split与join的五大高效技巧
本文介绍Python字符串处理的五大高效技巧:strip家族精准去字符、partition分割结构化数据、count统计子串、高级比较方法及正则应用,结合真实案例与性能对比,提升开发效率。
233 0
|
12月前
|
消息中间件 XML 前端开发
springBoot集成websocket实时消息推送
本文介绍了如何在Spring Boot项目中集成WebSocket实现实时消息推送。首先,通过引入`spring-boot-starter-websocket`依赖,配置`WebSocketConfig`类来启用WebSocket支持。接着,创建`WebSocketTest`服务器类,处理连接、消息收发及错误等事件,并使用`ConcurrentHashMap`管理用户连接。最后,前端通过JavaScript建立WebSocket连接,监听消息并进行相应处理。此方案适用于需要实时通信的应用场景,如聊天室、通知系统等。
2064 2
|
数据采集 自然语言处理 NoSQL
Qwen for Tugraph:自然语言至图查询语言翻译大模型微调最佳实践
在图数据库的应用场景中,自然语言至图查询语言的高效转换一直是行业中的重要挑战。本次实践基于阿里云 Qwen 大模型,围绕 TuGraph 图数据库的需求,探索并验证了一套高效的大模型微调方案,显著提升了模型生成 Cypher 查询语句的能力。通过数据清洗、两阶段微调方法以及两模型推理框架等一系列创新策略,我们成功解决了图查询语言翻译任务中的核心问题。本文将从背景与目标、数据准备与清洗、微调框架设计、Prompt设计与优化、模型推理、最佳实践效果以及前景展望等六个部分出发,向读者逐步介绍我们的方案。

热门文章

最新文章