python小知识-数据验证和解析神器pydantic

本文涉及的产品
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
简介: Pydantic是一个Python库,用于数据验证和设置管理,基于类型提示提供数据模型验证。它可以用于用户输入验证、JSON序列化和解析,以及API交互中的数据校验。安装Pydantic可使用`pip install -U pydantic`或`conda install pydantic -c conda-forge`。通过定义BaseModel子类并使用Field进行约束,可以创建数据模型并进行验证。例如,定义User模型验证用户名、邮箱和年龄。Pydantic还支持自定义验证器,允许在字段赋值时执行特定逻辑,如密码强度检查和哈希处理。5月更文挑战第19天

最近在看langchain代码时,看到pydantic,做了些总结。希望可以帮到你。

一、功能简介

Pydantic是一个数据验证和设置管理库,主要用于数据验证、设置解析、JSON序列化/反序列化等。它基于Python的类型提示,为数据模型提供了丰富的验证功能,如数据类型约束、值约束、自定义验证函数等。此外,Pydantic还支持嵌套模型,能够表达更复杂的数据结构。

二、安装

你可以通过pip或conda来安装Pydantic。在命令行中输入以下命令之一即可:

pip install -U pydantic
# 或者
conda install pydantic -c conda-forge

三、常见的应用场景

  1. 验证用户输入:在Web应用中,Pydantic可以确保用户输入的数据符合预期的格式和结构。
  2. 解析JSON数据:Pydantic可以轻松地将JSON数据解析为Python对象,方便后续处理。
  3. 与API交互:在处理与数据结构必须明确且可靠的API交互时,Pydantic可以提供强大的支持。

四、简单例子

下面是一个简单的例子,演示了如何使用Pydantic来定义一个用户模型,并进行数据验证。

from pydantic import BaseModel, Field, ValidationError

# 定义一个用户模型
class User(BaseModel):
    username: str = Field(..., min_length=4, max_length=20, title="用户名")
    email: str = Field(..., regex=r'^[\w.-]+@[\w-]+\.\w{2,}$', title="邮箱地址")
    age: int = Field(gt=0, lt=150, description="年龄(0-150岁)")
    is_active: bool = True

try:
    # 创建一个用户实例,并进行数据验证
    user = User(username="john", email="john@example.com", age=30)
    print(user.json())  # 输出用户信息的JSON格式
except ValidationError as e:
    # 如果数据验证失败,输出错误信息
    print(e.json())

# 尝试使用不符合要求的数据创建用户实例
try:
    user = User(username="j", email="invalid_email", age="thirty")
except ValidationError as e:
    print(e.json())  # 输出详细的错误信息,指示哪些字段不符合期望的类型或约束

在这个例子中,我们首先定义了一个用户模型User,并使用了Pydantic的Field参数来指定字段的类型、约束和描述。然后,我们尝试使用符合要求的数据创建一个用户实例,并输出了其JSON格式。接着,我们尝试使用不符合要求的数据创建用户实例,Pydantic抛出了ValidationError异常,并输出了详细的错误信息。

五、pydantic 解析json
Pydantic 提供了非常直观和简单的方法来解析 JSON 数据。一旦你定义了一个基于 Pydantic 的数据模型,你可以使用 parse_obj() 方法或直接将 JSON 字符串传递给模型构造函数来解析 JSON 数据。

以下是一个示例,演示如何使用 Pydantic 来解析 JSON 数据:

from pydantic import BaseModel, Field, ValidationError
from typing import List
import json

# 定义一个用户模型
class User(BaseModel):
    username: str = Field(..., min_length=4, max_length=20, title="用户名")
    email: str = Field(..., regex=r'^[\w.-]+@[\w-]+\.\w{2,}$', title="邮箱地址")
    age: int = Field(gt=0, lt=150, description="年龄(0-150岁)")
    is_active: bool = True

# 定义一个包含用户的列表模型
class UserList(BaseModel):
    users: List[User]

# JSON 字符串
json_str = '''
[
    {"username": "john", "email": "john@example.com", "age": 30},
    {"username": "jane", "email": "jane@example.org", "age": 25}
]
'''

# 解析 JSON 字符串
try:
    # 方法 1: 使用 json.loads 和 parse_obj
    json_data = json.loads(json_str)
    users = UserList(parse_obj=json_data).users

    # 方法 2: 直接将 JSON 字符串传递给 UserList 构造函数
    # 注意:这要求 JSON 字符串的格式与 UserList 模型完全匹配
    users_direct = UserList.parse_raw(json_str).users

    # 打印解析后的用户列表
    for user in users:
        print(user.json())

    # 同样的,对于 users_direct 也可以这样做
    for user in users_direct:
        print(user.json())

except ValidationError as e:
    # 如果数据验证失败,输出错误信息
    print(e.json())

在上面的示例中,我们定义了两个模型:UserUserListUserList 是一个包含 User 列表的模型。

然后,我们有一个 JSON 字符串 json_str,它表示一个用户列表。我们使用两种方法解析这个 JSON 字符串:

  1. 首先,我们使用 Python 的 json.loads() 方法将 JSON 字符串转换为 Python 字典。然后,我们将这个字典传递给 UserList 模型的 parse_obj() 方法来创建一个 UserList 实例。
  2. 第二种方法更简洁,我们直接将 JSON 字符串传递给 UserListparse_raw() 方法。这个方法会先解析 JSON 字符串,然后创建 UserList 实例。注意,这种方法要求 JSON 字符串的格式与 UserList 模型完全匹配。

两种方法都会返回一个 UserList 实例,我们可以从中访问解析后的用户列表。然后,我们可以遍历这个列表并打印每个用户的 JSON 格式数据。

如果 JSON 数据不符合模型的定义(例如,字段类型错误、值超出范围等),Pydantic 会抛出一个 ValidationError 异常,并包含有关错误的详细信息。

六、BaseModel

在Pydantic中,BaseModel是一个基类,用于定义数据模型。BaseModel及其子类可以包含多个字段,每个字段都是类的属性,并且通常与类型注解一起使用来定义字段的类型和约束。

除了字段之外,BaseModel本身还有一些属性和方法,用于处理数据模型的创建、验证、序列化和反序列化等。以下是一些BaseModel的常见属性和方法:

属性

  • 字段(Fields):通过类型注解定义的模型属性,用于数据验证和类型检查。
  • schema:返回模型的JSON Schema。这是一个字典,描述了模型的字段、类型、约束等。
  • schema_json:返回模型的JSON Schema的JSON字符串表示。
  • config:用于配置模型的元数据的BaseModelConfig实例。你可以通过子类化BaseModelConfig并覆盖其属性来定制模型的配置。

方法

  • parse_obj(v):从任意对象(如字典)中解析数据并创建一个模型实例。如果数据不满足模型的约束,将引发ValidationError
  • parse_raw(s, content_type='application/json'):从原始字符串(如JSON字符串)中解析数据并创建一个模型实例。这个方法会先使用指定的内容类型解析字符串,然后调用parse_obj
  • from_orm(instance):从SQLAlchemy ORM实例或其他ORM实例中创建模型实例。这通常用于从数据库查询结果中构建Pydantic模型。
  • dict(by_alias=False, exclude=None, exclude_unset=False, exclude_defaults=False, exclude_none=False):将模型实例转换为一个字典。你可以通过参数来控制要包含在字典中的字段。
  • json(by_alias=False, exclude=None, exclude_unset=False, exclude_defaults=False, exclude_none=False, indent=None, separators=None, ensure_ascii=True, sort_keys=False):将模型实例转换为一个JSON字符串。参数与dict方法相同,但还包括一些用于控制JSON输出的额外选项。
  • validate_fields(values, pre=True, post=True):验证字段值是否满足模型的约束。这通常在子类化BaseModel并需要自定义验证逻辑时使用。
  • construct(values=None, kwargs):创建一个模型实例,但不进行验证。这在你确定传入的数据已经满足模型约束时很有用。

注意:上述属性和方法可能因Pydantic版本的不同而有所变化。建议查阅Pydantic的官方文档以获取最准确和最新的信息。

pydantic中验证器validator

在Pydantic中,validator装饰器允许你定义自定义的验证逻辑,这些逻辑将在字段赋值时运行。这为你提供了额外的灵活性,以确保字段值满足某些条件,而这些条件可能无法直接通过类型注解或Pydantic内置约束来表达。

下面是一个使用validator装饰器的例子,该例子定义了一个User模型,其中包含一个password字段,该字段在赋值时必须满足特定的长度要求,并且需要被哈希处理:

from pydantic import BaseModel, Field, validator
from passlib.hash import pbkdf2_sha256 as sha256  # 假设使用passlib库进行密码哈希

class User(BaseModel):
    username: str = Field(..., min_length=4, max_length=20, title="用户名")
    email: str = Field(..., regex=r'^[\w.-]+@[\w-]+\.\w{2,}$', title="邮箱地址")
    password_raw: str  # 原始密码,不会进行类型检查或验证(因为我们将手动处理)

    # 使用@validator装饰器定义一个自定义验证器
    @validator('password_raw')
    def password_must_contain_uppercase(cls, v):
        if not any(c.isupper() for c in v):
            raise ValueError('password must contain at least one uppercase letter')
        if len(v) < 8:
            raise ValueError('password must be at least 8 characters long')
        return v

    # 另一个验证器,用于在password_raw赋值后哈希密码
    @validator('password_raw', always=True, pre=True)
    def hash_password(cls, v):
        if v is not None:
            return sha256.hash(v)
        return v

    # 计算后的哈希值将存储在password字段中
    @property
    def password(self):
        return self.password_raw

# 创建一个User实例
user = User(username="alice", email="alice@example.com", password_raw="Secret123!")
print(user.password)  # 输出哈希后的密码,而不是原始密码

在这个例子中,我们定义了两个验证器:

  1. password_must_contain_uppercase:这个验证器检查password_raw字段是否包含至少一个大写字母,并且长度是否至少为8个字符。如果不满足这些条件,它会引发一个ValueError

  2. hash_password:这个验证器在password_raw字段赋值之前(由于pre=True)运行,并且总是运行(由于always=True),无论字段值是否改变。它使用passlib库中的pbkdf2_sha256函数对密码进行哈希处理,并将哈希值返回给password_raw字段。注意,由于我们使用了pre=True,哈希处理在验证其他任何约束之前发生。

另外,请注意我们定义了一个password属性,它简单地返回password_raw的值。由于我们在hash_password验证器中替换了password_raw的值,因此这个属性实际上返回的是哈希后的密码。然而,从外部看,用户仍然是通过password_raw字段来设置密码的。

这种设计允许我们保持模型的内部状态(即哈希后的密码)与用户的输入(即原始密码)分离,同时仍然提供一个直观的接口来设置密码。

目录
相关文章
|
1天前
|
存储 索引 Python
Python入门:6.深入解析Python中的序列
在 Python 中,**序列**是一种有序的数据结构,广泛应用于数据存储、操作和处理。序列的一个显著特点是支持通过**索引**访问数据。常见的序列类型包括字符串(`str`)、列表(`list`)和元组(`tuple`)。这些序列各有特点,既可以存储简单的字符,也可以存储复杂的对象。 为了帮助初学者掌握 Python 中的序列操作,本文将围绕**字符串**、**列表**和**元组**这三种序列类型,详细介绍其定义、常用方法和具体示例。
Python入门:6.深入解析Python中的序列
|
1天前
|
存储 Linux iOS开发
Python入门:2.注释与变量的全面解析
在学习Python编程的过程中,注释和变量是必须掌握的两个基础概念。注释帮助我们理解代码的意图,而变量则是用于存储和操作数据的核心工具。熟练掌握这两者,不仅能提高代码的可读性和维护性,还能为后续学习复杂编程概念打下坚实的基础。
Python入门:2.注释与变量的全面解析
|
7天前
|
监控 算法 安全
内网桌面监控软件深度解析:基于 Python 实现的 K-Means 算法研究
内网桌面监控软件通过实时监测员工操作,保障企业信息安全并提升效率。本文深入探讨K-Means聚类算法在该软件中的应用,解析其原理与实现。K-Means通过迭代更新簇中心,将数据划分为K个簇类,适用于行为分析、异常检测、资源优化及安全威胁识别等场景。文中提供了Python代码示例,展示如何实现K-Means算法,并模拟内网监控数据进行聚类分析。
28 10
|
25天前
|
存储 算法 安全
控制局域网上网软件之 Python 字典树算法解析
控制局域网上网软件在现代网络管理中至关重要,用于控制设备的上网行为和访问权限。本文聚焦于字典树(Trie Tree)算法的应用,详细阐述其原理、优势及实现。通过字典树,软件能高效进行关键词匹配和过滤,提升系统性能。文中还提供了Python代码示例,展示了字典树在网址过滤和关键词屏蔽中的具体应用,为局域网的安全和管理提供有力支持。
50 17
|
28天前
|
运维 Shell 数据库
Python执行Shell命令并获取结果:深入解析与实战
通过以上内容,开发者可以在实际项目中灵活应用Python执行Shell命令,实现各种自动化任务,提高开发和运维效率。
56 20
|
1月前
|
数据采集 供应链 API
Python爬虫与1688图片搜索API接口:深度解析与显著收益
在电子商务领域,数据是驱动业务决策的核心。阿里巴巴旗下的1688平台作为全球领先的B2B市场,提供了丰富的API接口,特别是图片搜索API(`item_search_img`),允许开发者通过上传图片搜索相似商品。本文介绍如何结合Python爬虫技术高效利用该接口,提升搜索效率和用户体验,助力企业实现自动化商品搜索、库存管理优化、竞品监控与定价策略调整等,显著提高运营效率和市场竞争力。
89 3
|
2月前
|
数据挖掘 vr&ar C++
让UE自动运行Python脚本:实现与实例解析
本文介绍如何配置Unreal Engine(UE)以自动运行Python脚本,提高开发效率。通过安装Python、配置UE环境及使用第三方插件,实现Python与UE的集成。结合蓝图和C++示例,展示自动化任务处理、关卡生成及数据分析等应用场景。
178 5
|
1月前
|
自然语言处理 数据处理 索引
mindspeed-llm源码解析(一)preprocess_data
mindspeed-llm是昇腾模型套件代码仓,原来叫"modelLink"。这篇文章带大家阅读一下数据处理脚本preprocess_data.py(基于1.0.0分支),数据处理是模型训练的第一步,经常会用到。
53 0
|
2月前
|
存储 设计模式 算法
【23种设计模式·全精解析 | 行为型模式篇】11种行为型模式的结构概述、案例实现、优缺点、扩展对比、使用场景、源码解析
行为型模式用于描述程序在运行时复杂的流程控制,即描述多个类或对象之间怎样相互协作共同完成单个对象都无法单独完成的任务,它涉及算法与对象间职责的分配。行为型模式分为类行为模式和对象行为模式,前者采用继承机制来在类间分派行为,后者采用组合或聚合在对象间分配行为。由于组合关系或聚合关系比继承关系耦合度低,满足“合成复用原则”,所以对象行为模式比类行为模式具有更大的灵活性。 行为型模式分为: • 模板方法模式 • 策略模式 • 命令模式 • 职责链模式 • 状态模式 • 观察者模式 • 中介者模式 • 迭代器模式 • 访问者模式 • 备忘录模式 • 解释器模式
【23种设计模式·全精解析 | 行为型模式篇】11种行为型模式的结构概述、案例实现、优缺点、扩展对比、使用场景、源码解析
|
2月前
|
设计模式 存储 安全
【23种设计模式·全精解析 | 创建型模式篇】5种创建型模式的结构概述、实现、优缺点、扩展、使用场景、源码解析
结构型模式描述如何将类或对象按某种布局组成更大的结构。它分为类结构型模式和对象结构型模式,前者采用继承机制来组织接口和类,后者釆用组合或聚合来组合对象。由于组合关系或聚合关系比继承关系耦合度低,满足“合成复用原则”,所以对象结构型模式比类结构型模式具有更大的灵活性。 结构型模式分为以下 7 种: • 代理模式 • 适配器模式 • 装饰者模式 • 桥接模式 • 外观模式 • 组合模式 • 享元模式
【23种设计模式·全精解析 | 创建型模式篇】5种创建型模式的结构概述、实现、优缺点、扩展、使用场景、源码解析

推荐镜像

更多