医疗爬虫实战:手把手教你抓取丁香园药品信息库

简介: 本文以丁香园药品库为例,用Python实战讲解医疗数据爬取技术。涵盖Requests、Lxml、Pandas等工具应用,解析反爬策略、代理轮换、数据清洗与存储方案,助你高效获取结构化药品信息,兼顾合规与实用性。(238字)

在医疗数据爆炸的时代,药品信息库已成为医生、药师和患者的重要参考。丁香园作为国内领先的医疗服务平台,其药品数据库包含药品成分、用法用量、禁忌症等关键信息。本文将以实战为导向,用通俗易懂的方式讲解如何用Python爬虫抓取这些数据,并解决反爬虫、数据清洗等核心问题。
探秘代理IP并发连接数限制的那点事 (11).png

一、技术选型:为什么选择这些工具?

  1. 核心工具包
    Requests:发送HTTP请求的瑞士军刀,支持会话保持和代理设置。
    Lxml:比BeautifulSoup快5倍的HTML解析器,支持XPath表达式精准定位数据。
    Pandas:数据处理的瑞士军刀,支持CSV/Excel导出和清洗。
    ProxyPool:开源代理池管理工具,自动维护高可用代理IP。
  2. 为什么不用Scrapy?
    对于医疗数据这种结构化页面,Scrapy的分布式架构反而显得笨重。我们采用轻量级方案:Requests获取页面 → Lxml解析 → Pandas存储,30行代码即可完成核心功能。

二、实战步骤:从0到1抓取药品数据

  1. 页面结构分析
    以丁香园药品库的"阿莫西林胶囊"页面为例,关键数据分布在:

药品名称:


成分:


适应症:

用法用量:

通过浏览器开发者工具(F12)查看元素,发现所有数据都在
容器内。
  1. 基础爬虫代码
    import requests
    from lxml import etree
    import pandas as pd

def fetch_drug_data(drug_url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

try:
    response = requests.get(drug_url, headers=headers, timeout=10)
    response.raise_for_status()
    html = etree.HTML(response.text)

    # 提取数据
    name = html.xpath('//h1[@class="drug-name"]/text()')[0].strip()
    ingredient = html.xpath('//div[@class="ingredient"]//text()')
    ingredient = ''.join([i.strip() for i in ingredient if i.strip()])

    # 其他字段提取类似...

    return {
        '药品名称': name,
        '成分': ingredient,
        # 其他字段...
    }

except Exception as e:
    print(f"抓取失败: {e}")
    return None

示例调用

drug_url = "https://drugs.dxy.cn/drug/123456.htm"
data = fetch_drug_data(drug_url)
if data:
df = pd.DataFrame([data])
df.to_csv('drug_data.csv', index=False, encoding='utf_8_sig')

  1. 关键技巧解析
    XPath定位://div[@class="ingredient"]//text()表示选取所有class为"ingredient"的div下的文本节点
    文本清洗:使用列表推导式去除空白字符
    异常处理:捕获网络请求和解析异常,避免程序中断
    三、反爬虫攻防战:如何突破限制?
  2. 丁香园的反爬机制
    IP频率限制:同一IP每分钟请求超过10次即触发验证
    行为指纹:通过Canvas指纹、WebGL指纹识别爬虫
    动态加载:部分数据通过AJAX异步加载
  3. 破解方案
    方案1:代理IP轮换
    from proxypool import ProxyPool

pool = ProxyPool() # 初始化代理池

def fetch_with_proxy(url):
proxy = pool.get_proxy() # 获取代理
proxies = {
'http': f'http://{proxy}',
'https': f'https://{proxy}'
}
try:
response = requests.get(url, proxies=proxies, timeout=10)
if response.status_code == 200:
return response.text
else:
pool.mark_invalid(proxy) # 标记无效代理
return fetch_with_proxy(url) # 递归重试
except:
pool.mark_invalid(proxy)
return fetch_with_proxy(url)

方案2:请求头伪装
def get_random_headers():
return {
'User-Agent': random.choice([
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36...',
'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15...'
]),
'Accept-Language': random.choice(['zh-CN,zh;q=0.9', 'en-US,en;q=0.8']),
'Referer': 'https://drugs.dxy.cn/'
}

方案3:动态延迟控制
import time
import random

def fetch_with_delay(url):
delay = random.uniform(1, 3) # 随机延迟1-3秒
time.sleep(delay)
return fetch_drug_data(url) # 使用基础爬虫函数

四、数据清洗与存储:让数据可用

  1. 常见数据问题
    HTML标签残留:如

    用法用量:

    口服,一次2粒


    单位不统一:如"5mg"和"0.005g"
    缺失值处理:部分药品缺少"禁忌症"字段
  2. 清洗方案
    def clean_data(raw_data):

    去除HTML标签

    from bs4 import BeautifulSoup
    soup = BeautifulSoup(raw_data['适应症'], 'html.parser')
    clean_text = soup.get_text(strip=True)

    单位统一

    if 'mg' in raw_data['剂量']:

     raw_data['剂量_g'] = float(raw_data['剂量'].replace('mg', '')) / 1000
    

    填充缺失值

    raw_data['禁忌症'] = raw_data.get('禁忌症', '未提及')

    return raw_data

  3. 存储方案对比
    存储方式 适用场景 优点 缺点
    CSV 小规模数据 通用性强 不支持复杂查询
    SQLite 中等规模 无需服务器 并发性能有限
    MongoDB 大规模数据 灵活Schema 占用空间较大
    五、完整项目代码(精简版)
    import requests
    from lxml import etree
    import pandas as pd
    import random
    import time
    from proxypool import ProxyPool

class DrugSpider:
def init(self):
self.pool = ProxyPool()
self.base_url = "https://drugs.dxy.cn/drug/{}.htm"

def get_proxy(self):
    return self.pool.get_proxy()

def fetch_page(self, drug_id):
    url = self.base_url.format(drug_id)
    proxy = self.get_proxy()
    proxies = {'http': f'http://{proxy}', 'https': f'https://{proxy}'}

    try:
        headers = self.get_random_headers()
        time.sleep(random.uniform(1, 3))
        response = requests.get(url, headers=headers, proxies=proxies, timeout=10)
        response.raise_for_status()
        return response.text
    except Exception as e:
        print(f"抓取失败: {e}")
        return None

def parse_page(self, html):
    if not html:
        return None

    html = etree.HTML(html)
    data = {
        '名称': html.xpath('//h1[@class="drug-name"]/text()')[0].strip(),
        '成分': ''.join([i.strip() for i in html.xpath('//div[@class="ingredient"]//text()') if i.strip()]),
        # 其他字段解析...
    }
    return data

def run(self, drug_ids):
    results = []
    for drug_id in drug_ids:
        html = self.fetch_page(drug_id)
        data = self.parse_page(html)
        if data:
            results.append(data)

    df = pd.DataFrame(results)
    df.to_csv('drug_data.csv', index=False, encoding='utf_8_sig')
    print(f"成功抓取{len(results)}条药品数据")

使用示例

spider = DrugSpider()
drug_ids = ['123456', '654321', '789012'] # 实际应从列表获取
spider.run(drug_ids)

六、常见问题Q&A
Q1:被网站封IP怎么办?
A:立即启用备用代理池,建议使用住宅代理(如站大爷IP代理),配合每请求更换IP策略。对于大规模采集,可采用:

混合使用数据中心代理和住宅代理
设置请求间隔为3-10秒随机值
实现代理健康度监测,自动剔除失效代理
Q2:如何获取药品ID列表?
A:可通过以下方式获取:

丁香园药品分类页面的分页链接(如https://drugs.dxy.cn/search?page=2)
搜索接口API(如https://drugs.dxy.cn/api/search?keyword=抗生素)
已有药品数据库的交叉验证
Q3:数据抓取频率应该设置多少?
A:建议遵循以下原则:

测试期:每10-30秒/请求
正式采集:每3-10秒/请求(根据目标网站规模调整)
关键时期:启用分布式爬虫,每个IP分配不同延迟
Q4:如何处理动态加载的数据?
A:两种方案:

分析AJAX请求:通过浏览器开发者工具的Network面板,找到数据接口直接请求
Selenium模拟浏览器:适用于复杂JavaScript渲染的页面
from selenium import webdriver
from selenium.webdriver.chrome.options import Options

options = Options()
options.add_argument('--headless') # 无头模式
driver = webdriver.Chrome(options=options)
driver.get("https://drugs.dxy.cn/drug/123456.htm")
html = driver.page_source
driver.quit()

Q5:如何避免法律风险?
A:必须遵守:

检查目标网站的robots.txt文件(如https://drugs.dxy.cn/robots.txt)
控制采集频率,避免对服务器造成负担
不采集用户隐私数据(如患者信息)
仅用于个人学习研究,商业用途需获得授权
结语
通过本文的实战讲解,你已掌握医疗爬虫的核心技术:从页面解析到反爬虫应对,从数据清洗到存储优化。实际项目中,建议结合具体需求调整策略,例如:

医疗研究:重点关注药品相互作用、不良反应等字段
价格监控:需定期抓取并对比不同渠道价格
药品对比:需要标准化单位并建立映射关系
记住:技术只是手段,合规才是根本。在享受数据红利的同时,务必遵守相关法律法规,让爬虫技术真正服务于医疗健康事业。

目录
相关文章
|
5天前
|
存储 人工智能 安全
AI 越智能,数据越危险?
阿里云提供AI全栈安全能力,为客户构建全链路数据保护体系,让企业敢用、能用、放心用
|
8天前
|
域名解析 人工智能
【实操攻略】手把手教学,免费领取.CN域名
即日起至2025年12月31日,购买万小智AI建站或云·企业官网,每单可免费领1个.CN域名首年!跟我了解领取攻略吧~
|
7天前
|
数据采集 人工智能 自然语言处理
3分钟采集134篇AI文章!深度解析如何通过云无影AgentBay实现25倍并发 + LlamaIndex智能推荐
结合阿里云无影 AgentBay 云端并发采集与 LlamaIndex 智能分析,3分钟高效抓取134篇 AI Agent 文章,实现 AI 推荐、智能问答与知识沉淀,打造从数据获取到价值提炼的完整闭环。
448 93
|
1天前
|
开发者
「玩透ESA」ESA启用和加速-ER在加速场景中的应用
本文介绍三种配置方法:通过“A鉴权”模板创建函数并设置触发器路由;在ESA上配置回源302跟随;以及自定义响应头。每步均配有详细截图指引,帮助开发者快速完成相关功能设置,提升服务安全性与灵活性。
287 2
|
7天前
|
SQL 人工智能 自然语言处理
Geo优化SOP标准化:于磊老师的“人性化Geo”体系如何助力企业获客提效46%
随着生成式AI的普及,Geo优化(Generative Engine Optimization)已成为企业获客的新战场。然而,缺乏标准化流程(Geo优化sop)导致优化效果参差不齐。本文将深入探讨Geo专家于磊老师提出的“人性化Geo”优化体系,并展示Geo优化sop标准化如何帮助企业实现获客效率提升46%的惊人效果,为企业在AI时代构建稳定的流量护城河。
409 156
Geo优化SOP标准化:于磊老师的“人性化Geo”体系如何助力企业获客提效46%
|
7天前
|
数据采集 缓存 数据可视化
Android 无侵入式数据采集:从手动埋点到字节码插桩的演进之路
本文深入探讨Android无侵入式埋点技术,通过AOP与字节码插桩(如ASM)实现数据采集自动化,彻底解耦业务代码与埋点逻辑。涵盖页面浏览、点击事件自动追踪及注解驱动的半自动化方案,提升数据质量与研发效率,助力团队迈向高效、稳定的智能化埋点体系。(238字)
316 158