优化 Django 模型设计:解决重复爬虫任务和商品数据

简介: 在开发数据采集(爬虫)应用时,我们常常面临这样一个问题:不同用户提交了相同的采集任务。为了避免在数据库中存储重复的 URL 和商品数据,我们需要优化模型设计。本文将介绍如何设计 Django 模型,以解决这个问题,并确保数据的一致性和完整性。

在开发数据采集(爬虫)应用时,我们常常面临这样一个问题:不同用户提交了相同的采集任务。为了避免在数据库中存储重复的 URL 和商品数据,我们需要优化模型设计。本文将介绍如何设计 Django 模型,以解决这个问题,并确保数据的一致性和完整性。

问题背景

假设我们有一个爬虫任务应用,用户可以提交 URL 进行数据采集。每个 URL 可能会关联多个商品数据,不同用户可能提交相同的 URL 进行采集。我们希望在数据库中只存储一个 URL,但要能映射到提交该任务的所有用户,并且每个 URL 下会有多个商品数据。此外,不同的 URL 可能会采集到相同的商品数据,因此商品数据也需要去重。

目标

  • 确保数据库中只存储唯一的采集 URL。
  • 能够映射到提交该 URL 采集任务的所有用户。
  • 确保数据库中只存储唯一的商品数据。
  • 商品数据能够映射到与其关联的多个 URL。

模型设计

以下是优化后的 Django 模型设计,通过合理的表结构和关系,解决上述问题。

1. 起始 URL 表(StartUrl)

用于存储唯一的采集 URL。

from django.db import models

class StartUrl(models.Model):
    """起始URL表"""
    url = models.URLField(verbose_name="起始url", max_length=500, unique=True)

    class Meta:
        verbose_name = verbose_name_plural = '起始URL'

    def __str__(self):
        return self.url

2. 商品表(Product)

用于存储唯一的商品信息。

class Product(models.Model):
    """商品表"""
    product_id = models.CharField(max_length=30, verbose_name='商品id', unique=True)
    title = models.CharField(max_length=500, verbose_name='商品标题')
    price = models.DecimalField(max_digits=10, decimal_places=2, blank=True, null=True, verbose_name='价格')
    sales = models.PositiveIntegerField(blank=True, null=True, verbose_name='销量')
    rating = models.FloatField(blank=True, null=True, verbose_name='评分')
    rating_count = models.PositiveIntegerField(blank=True, null=True, verbose_name='评分数')
    listing_date = models.DateField(blank=True, null=True, verbose_name='上架时间')
    release_date = models.DateField(blank=True, null=True, verbose_name='发售时间')
    brand = models.CharField(blank=True, null=True, max_length=100, verbose_name='品牌')
    platform = models.IntegerField(verbose_name='平台')
    seller = models.CharField(blank=True, null=True, max_length=100, verbose_name='卖家')
    img_url = models.URLField(blank=True, null=True, verbose_name='商品主图地址')
    product_details_url = models.URLField(max_length=500, blank=True, null=True, verbose_name='商品详情地址')
    spider_date = models.DateTimeField(blank=True, null=True, verbose_name='完成采集时间')

    class Meta:
        verbose_name = verbose_name_plural = '商品'

    def __str__(self):
        return self.title

3. 爬虫任务表(SpiderTask)

用于关联用户和起始 URL,同时通过多对多关系关联商品。

from django.utils import timezone
from myapp.models.model_account import User

class SpiderTask(models.Model):
    """爬虫任务表"""
    PLATFORM_CHOICES = (
        (1, 'Amazon'),
        (2, 'Etsy'),
        (3, 'Temu'),
        (4, 'WalMart')
    )
    STATUS_CHOICES = (
        (0, '进行中'),
        (1, '已完成'),
        (2, '异常'),
    )
    TYPE_CHOICES = (
        (1, '列表页'),
        (2, '详情页'),
    )
    id = models.AutoField(primary_key=True, verbose_name='自增id')
    user = models.ForeignKey(User, on_delete=models.CASCADE, verbose_name='用户')
    start_url = models.ForeignKey(StartUrl, on_delete=models.CASCADE, verbose_name='起始url')
    platform = models.IntegerField(default=1, choices=PLATFORM_CHOICES, verbose_name='平台')
    name = models.CharField(verbose_name="爬虫名称", max_length=255)
    spider_type = models.IntegerField(choices=TYPE_CHOICES, default=1, verbose_name='采集页面类型')
    description = models.TextField(verbose_name="描述备注等", max_length=500, null=True, blank=True)
    completed = models.IntegerField(choices=STATUS_CHOICES, default=0, verbose_name='完成状态')
    created_at = models.DateTimeField(default=timezone.now, verbose_name='加入任务时间')
    collection_status = models.IntegerField(choices=STATUS_CHOICES, default=0, verbose_name='采集状态')
    completed_at = models.DateTimeField(null=True, blank=True, verbose_name='完成时间')
    products = models.ManyToManyField(Product, verbose_name='关联商品', related_name='tasks')

    class Meta:
        verbose_name = verbose_name_plural = '爬虫任务'
        unique_together = [['user', 'start_url']]

    def __str__(self):
        return f"{self.get_platform_display()} - {self.name}"

4. 用户收藏表(SpiderUserFavorite)

用于记录用户收藏的商品信息。

class SpiderUserFavorite(models.Model):
    """用户收藏表"""
    user = models.ForeignKey(User, on_delete=models.CASCADE, verbose_name='用户')
    product = models.ForeignKey(Product, on_delete=models.CASCADE, verbose_name='收藏商品')
    added_at = models.DateTimeField(default=timezone.now, verbose_name='收藏时间')
    note = models.TextField(blank=True, null=True, verbose_name='备注信息')
    tags = models.CharField(max_length=500, blank=True, null=True, verbose_name='备注标签')

    class Meta:
        verbose_name = verbose_name_plural = '用户收藏'
        unique_together = [['user', 'product']]

    def __str__(self):
        return f"{self.user.username} - {self.product.title}"

模型关系图

为了更清晰地展示模型之间的关系,我们绘制了以下关系图:

用户(User)

└──< 拥有多个
          
爬虫任务(SpiderTask) >─── 属于 ────> 起始URL(StartUrl)
           (多对一)          (一对多)

└───< 多对多 >───
          
        商品(Product)

总结

通过这种优化的模型设计,我们解决了以下问题:

  • 避免重复存储 URLStartUrl 表存储唯一的采集 URL。
  • 用户与 URL 的映射:每个爬虫任务(SpiderTask)关联一个用户和一个 URL。
  • 避免重复存储商品数据Product 表存储唯一的商品数据。
  • 商品与任务的映射:通过多对多关系,商品可以映射到多个任务。


这种设计不仅提高了数据的存储效率,还确保了数据的一致性和完整性。希望这篇博客能对你在 Django 模型设计中遇到的类似问题有所帮助。

不足之处

尽管这种设计已经尽量优化了数据存储和关系映射,但在高并发的情况下,可能会遇到数据竞争的问题。例如,在多用户同时提交相同 URL 的情况下,可能会出现重复记录的风险。为了解决这个问题,可能需要进一步引入锁机制或其他并发控制策略。

目录
打赏
0
2
2
0
439
分享
相关文章
深入解析:使用 Python 爬虫获取淘宝店铺所有商品接口
本文介绍如何使用Python结合淘宝开放平台API获取指定店铺所有商品数据。首先需注册淘宝开放平台账号、创建应用并获取API密钥,申请接口权限。接着,通过构建请求、生成签名、调用接口(如`taobao.items.search`和`taobao.item.get`)及处理响应,实现数据抓取。代码示例展示了分页处理和错误处理方法,并强调了调用频率限制、数据安全等注意事项。此技能对开发者和数据分析师极具价值。
Python 原生爬虫教程:京东商品列表页面数据API
京东商品列表API是电商大数据分析的重要工具,支持开发者、商家和研究人员获取京东平台商品数据。通过关键词搜索、分类筛选、价格区间等条件,可返回多维度商品信息(如名称、价格、销量等),适用于市场调研与推荐系统开发。本文介绍其功能并提供Python请求示例。接口采用HTTP GET/POST方式,支持分页、排序等功能,满足多样化数据需求。
Python vs Java:爬虫任务中的效率比较
Python vs Java:爬虫任务中的效率比较
Java爬虫获取微店店铺所有商品API接口设计与实现
本文介绍如何使用Java设计并实现一个爬虫程序,以获取微店店铺的所有商品信息。通过HttpClient发送HTTP请求,Jsoup解析HTML页面,提取商品名称、价格、图片链接等数据,并将其存储到本地文件或数据库中。文中详细描述了爬虫的设计思路、代码实现及注意事项,包括反爬虫机制、数据合法性和性能优化。此方法可帮助商家了解竞争对手,为消费者提供更全面的商品比较。
Python爬虫:京东商品评论内容
京东商品评论接口为商家和消费者提供了重要工具。商家可分析评论优化产品,消费者则依赖评论做出购买决策。该接口通过HTTP请求获取评论内容、时间、点赞数等数据,支持分页和筛选好评、中评、差评。Python示例代码展示了如何调用接口并处理返回的JSON数据。应用场景包括产品优化、消费者决策辅助、市场竞争分析及舆情监测。
如何利用 Python 的爬虫技术获取淘宝天猫商品的价格信息?
本文介绍了使用 Python 爬虫技术获取淘宝天猫商品价格信息的两种方法。方法一使用 Selenium 模拟浏览器操作,通过定位页面元素获取价格;方法二使用 Requests 和正则表达式直接请求页面内容并提取价格。每种方法都有详细步骤和代码示例,但需注意反爬措施和法律法规。