在开发数据采集(爬虫)应用时,我们常常面临这样一个问题:不同用户提交了相同的采集任务。为了避免在数据库中存储重复的 URL 和商品数据,我们需要优化模型设计。本文将介绍如何设计 Django 模型,以解决这个问题,并确保数据的一致性和完整性。
问题背景
假设我们有一个爬虫任务应用,用户可以提交 URL 进行数据采集。每个 URL 可能会关联多个商品数据,不同用户可能提交相同的 URL 进行采集。我们希望在数据库中只存储一个 URL,但要能映射到提交该任务的所有用户,并且每个 URL 下会有多个商品数据。此外,不同的 URL 可能会采集到相同的商品数据,因此商品数据也需要去重。
目标
- 确保数据库中只存储唯一的采集 URL。
- 能够映射到提交该 URL 采集任务的所有用户。
- 确保数据库中只存储唯一的商品数据。
- 商品数据能够映射到与其关联的多个 URL。
模型设计
以下是优化后的 Django 模型设计,通过合理的表结构和关系,解决上述问题。
1. 起始 URL 表(StartUrl)
用于存储唯一的采集 URL。
from django.db import models class StartUrl(models.Model): """起始URL表""" url = models.URLField(verbose_name="起始url", max_length=500, unique=True) class Meta: verbose_name = verbose_name_plural = '起始URL' def __str__(self): return self.url
2. 商品表(Product)
用于存储唯一的商品信息。
class Product(models.Model): """商品表""" product_id = models.CharField(max_length=30, verbose_name='商品id', unique=True) title = models.CharField(max_length=500, verbose_name='商品标题') price = models.DecimalField(max_digits=10, decimal_places=2, blank=True, null=True, verbose_name='价格') sales = models.PositiveIntegerField(blank=True, null=True, verbose_name='销量') rating = models.FloatField(blank=True, null=True, verbose_name='评分') rating_count = models.PositiveIntegerField(blank=True, null=True, verbose_name='评分数') listing_date = models.DateField(blank=True, null=True, verbose_name='上架时间') release_date = models.DateField(blank=True, null=True, verbose_name='发售时间') brand = models.CharField(blank=True, null=True, max_length=100, verbose_name='品牌') platform = models.IntegerField(verbose_name='平台') seller = models.CharField(blank=True, null=True, max_length=100, verbose_name='卖家') img_url = models.URLField(blank=True, null=True, verbose_name='商品主图地址') product_details_url = models.URLField(max_length=500, blank=True, null=True, verbose_name='商品详情地址') spider_date = models.DateTimeField(blank=True, null=True, verbose_name='完成采集时间') class Meta: verbose_name = verbose_name_plural = '商品' def __str__(self): return self.title
3. 爬虫任务表(SpiderTask)
用于关联用户和起始 URL,同时通过多对多关系关联商品。
from django.utils import timezone from myapp.models.model_account import User class SpiderTask(models.Model): """爬虫任务表""" PLATFORM_CHOICES = ( (1, 'Amazon'), (2, 'Etsy'), (3, 'Temu'), (4, 'WalMart') ) STATUS_CHOICES = ( (0, '进行中'), (1, '已完成'), (2, '异常'), ) TYPE_CHOICES = ( (1, '列表页'), (2, '详情页'), ) id = models.AutoField(primary_key=True, verbose_name='自增id') user = models.ForeignKey(User, on_delete=models.CASCADE, verbose_name='用户') start_url = models.ForeignKey(StartUrl, on_delete=models.CASCADE, verbose_name='起始url') platform = models.IntegerField(default=1, choices=PLATFORM_CHOICES, verbose_name='平台') name = models.CharField(verbose_name="爬虫名称", max_length=255) spider_type = models.IntegerField(choices=TYPE_CHOICES, default=1, verbose_name='采集页面类型') description = models.TextField(verbose_name="描述备注等", max_length=500, null=True, blank=True) completed = models.IntegerField(choices=STATUS_CHOICES, default=0, verbose_name='完成状态') created_at = models.DateTimeField(default=timezone.now, verbose_name='加入任务时间') collection_status = models.IntegerField(choices=STATUS_CHOICES, default=0, verbose_name='采集状态') completed_at = models.DateTimeField(null=True, blank=True, verbose_name='完成时间') products = models.ManyToManyField(Product, verbose_name='关联商品', related_name='tasks') class Meta: verbose_name = verbose_name_plural = '爬虫任务' unique_together = [['user', 'start_url']] def __str__(self): return f"{self.get_platform_display()} - {self.name}"
4. 用户收藏表(SpiderUserFavorite)
用于记录用户收藏的商品信息。
class SpiderUserFavorite(models.Model): """用户收藏表""" user = models.ForeignKey(User, on_delete=models.CASCADE, verbose_name='用户') product = models.ForeignKey(Product, on_delete=models.CASCADE, verbose_name='收藏商品') added_at = models.DateTimeField(default=timezone.now, verbose_name='收藏时间') note = models.TextField(blank=True, null=True, verbose_name='备注信息') tags = models.CharField(max_length=500, blank=True, null=True, verbose_name='备注标签') class Meta: verbose_name = verbose_name_plural = '用户收藏' unique_together = [['user', 'product']] def __str__(self): return f"{self.user.username} - {self.product.title}"
模型关系图
为了更清晰地展示模型之间的关系,我们绘制了以下关系图:
用户(User) │ └──< 拥有多个 │ 爬虫任务(SpiderTask) >─── 属于 ────> 起始URL(StartUrl) │ (多对一) (一对多) │ └───< 多对多 >─── │ 商品(Product)
总结
通过这种优化的模型设计,我们解决了以下问题:
- 避免重复存储 URL:
StartUrl
表存储唯一的采集 URL。 - 用户与 URL 的映射:每个爬虫任务(
SpiderTask
)关联一个用户和一个 URL。 - 避免重复存储商品数据:
Product
表存储唯一的商品数据。 - 商品与任务的映射:通过多对多关系,商品可以映射到多个任务。
这种设计不仅提高了数据的存储效率,还确保了数据的一致性和完整性。希望这篇博客能对你在 Django 模型设计中遇到的类似问题有所帮助。
不足之处
尽管这种设计已经尽量优化了数据存储和关系映射,但在高并发的情况下,可能会遇到数据竞争的问题。例如,在多用户同时提交相同 URL 的情况下,可能会出现重复记录的风险。为了解决这个问题,可能需要进一步引入锁机制或其他并发控制策略。