最近在看langchain代码时,看到pydantic,做了些总结。希望可以帮到你。
一、功能简介
Pydantic是一个数据验证和设置管理库,主要用于数据验证、设置解析、JSON序列化/反序列化等。它基于Python的类型提示,为数据模型提供了丰富的验证功能,如数据类型约束、值约束、自定义验证函数等。此外,Pydantic还支持嵌套模型,能够表达更复杂的数据结构。
二、安装
你可以通过pip或conda来安装Pydantic。在命令行中输入以下命令之一即可:
pip install -U pydantic
# 或者
conda install pydantic -c conda-forge
三、常见的应用场景
- 验证用户输入:在Web应用中,Pydantic可以确保用户输入的数据符合预期的格式和结构。
- 解析JSON数据:Pydantic可以轻松地将JSON数据解析为Python对象,方便后续处理。
- 与API交互:在处理与数据结构必须明确且可靠的API交互时,Pydantic可以提供强大的支持。
四、简单例子
下面是一个简单的例子,演示了如何使用Pydantic来定义一个用户模型,并进行数据验证。
from pydantic import BaseModel, Field, ValidationError
# 定义一个用户模型
class User(BaseModel):
username: str = Field(..., min_length=4, max_length=20, title="用户名")
email: str = Field(..., regex=r'^[\w.-]+@[\w-]+\.\w{2,}$', title="邮箱地址")
age: int = Field(gt=0, lt=150, description="年龄(0-150岁)")
is_active: bool = True
try:
# 创建一个用户实例,并进行数据验证
user = User(username="john", email="john@example.com", age=30)
print(user.json()) # 输出用户信息的JSON格式
except ValidationError as e:
# 如果数据验证失败,输出错误信息
print(e.json())
# 尝试使用不符合要求的数据创建用户实例
try:
user = User(username="j", email="invalid_email", age="thirty")
except ValidationError as e:
print(e.json()) # 输出详细的错误信息,指示哪些字段不符合期望的类型或约束
在这个例子中,我们首先定义了一个用户模型User
,并使用了Pydantic的Field
参数来指定字段的类型、约束和描述。然后,我们尝试使用符合要求的数据创建一个用户实例,并输出了其JSON格式。接着,我们尝试使用不符合要求的数据创建用户实例,Pydantic抛出了ValidationError
异常,并输出了详细的错误信息。
五、pydantic 解析json
Pydantic 提供了非常直观和简单的方法来解析 JSON 数据。一旦你定义了一个基于 Pydantic 的数据模型,你可以使用 parse_obj()
方法或直接将 JSON 字符串传递给模型构造函数来解析 JSON 数据。
以下是一个示例,演示如何使用 Pydantic 来解析 JSON 数据:
from pydantic import BaseModel, Field, ValidationError
from typing import List
import json
# 定义一个用户模型
class User(BaseModel):
username: str = Field(..., min_length=4, max_length=20, title="用户名")
email: str = Field(..., regex=r'^[\w.-]+@[\w-]+\.\w{2,}$', title="邮箱地址")
age: int = Field(gt=0, lt=150, description="年龄(0-150岁)")
is_active: bool = True
# 定义一个包含用户的列表模型
class UserList(BaseModel):
users: List[User]
# JSON 字符串
json_str = '''
[
{"username": "john", "email": "john@example.com", "age": 30},
{"username": "jane", "email": "jane@example.org", "age": 25}
]
'''
# 解析 JSON 字符串
try:
# 方法 1: 使用 json.loads 和 parse_obj
json_data = json.loads(json_str)
users = UserList(parse_obj=json_data).users
# 方法 2: 直接将 JSON 字符串传递给 UserList 构造函数
# 注意:这要求 JSON 字符串的格式与 UserList 模型完全匹配
users_direct = UserList.parse_raw(json_str).users
# 打印解析后的用户列表
for user in users:
print(user.json())
# 同样的,对于 users_direct 也可以这样做
for user in users_direct:
print(user.json())
except ValidationError as e:
# 如果数据验证失败,输出错误信息
print(e.json())
在上面的示例中,我们定义了两个模型:User
和 UserList
。UserList
是一个包含 User
列表的模型。
然后,我们有一个 JSON 字符串 json_str
,它表示一个用户列表。我们使用两种方法解析这个 JSON 字符串:
- 首先,我们使用 Python 的
json.loads()
方法将 JSON 字符串转换为 Python 字典。然后,我们将这个字典传递给UserList
模型的parse_obj()
方法来创建一个UserList
实例。 - 第二种方法更简洁,我们直接将 JSON 字符串传递给
UserList
的parse_raw()
方法。这个方法会先解析 JSON 字符串,然后创建UserList
实例。注意,这种方法要求 JSON 字符串的格式与UserList
模型完全匹配。
两种方法都会返回一个 UserList
实例,我们可以从中访问解析后的用户列表。然后,我们可以遍历这个列表并打印每个用户的 JSON 格式数据。
如果 JSON 数据不符合模型的定义(例如,字段类型错误、值超出范围等),Pydantic 会抛出一个 ValidationError
异常,并包含有关错误的详细信息。
六、BaseModel
在Pydantic中,BaseModel
是一个基类,用于定义数据模型。BaseModel
及其子类可以包含多个字段,每个字段都是类的属性,并且通常与类型注解一起使用来定义字段的类型和约束。
除了字段之外,BaseModel
本身还有一些属性和方法,用于处理数据模型的创建、验证、序列化和反序列化等。以下是一些BaseModel
的常见属性和方法:
属性
- 字段(Fields):通过类型注解定义的模型属性,用于数据验证和类型检查。
- schema:返回模型的JSON Schema。这是一个字典,描述了模型的字段、类型、约束等。
- schema_json:返回模型的JSON Schema的JSON字符串表示。
- config:用于配置模型的元数据的
BaseModelConfig
实例。你可以通过子类化BaseModelConfig
并覆盖其属性来定制模型的配置。
方法
- parse_obj(v):从任意对象(如字典)中解析数据并创建一个模型实例。如果数据不满足模型的约束,将引发
ValidationError
。 - parse_raw(s, content_type='application/json'):从原始字符串(如JSON字符串)中解析数据并创建一个模型实例。这个方法会先使用指定的内容类型解析字符串,然后调用
parse_obj
。 - from_orm(instance):从SQLAlchemy ORM实例或其他ORM实例中创建模型实例。这通常用于从数据库查询结果中构建Pydantic模型。
- dict(by_alias=False, exclude=None, exclude_unset=False, exclude_defaults=False, exclude_none=False):将模型实例转换为一个字典。你可以通过参数来控制要包含在字典中的字段。
- json(by_alias=False, exclude=None, exclude_unset=False, exclude_defaults=False, exclude_none=False, indent=None, separators=None, ensure_ascii=True, sort_keys=False):将模型实例转换为一个JSON字符串。参数与
dict
方法相同,但还包括一些用于控制JSON输出的额外选项。 - validate_fields(values, pre=True, post=True):验证字段值是否满足模型的约束。这通常在子类化
BaseModel
并需要自定义验证逻辑时使用。 - construct(values=None, kwargs):创建一个模型实例,但不进行验证。这在你确定传入的数据已经满足模型约束时很有用。
注意:上述属性和方法可能因Pydantic版本的不同而有所变化。建议查阅Pydantic的官方文档以获取最准确和最新的信息。
pydantic中验证器validator
在Pydantic中,validator
装饰器允许你定义自定义的验证逻辑,这些逻辑将在字段赋值时运行。这为你提供了额外的灵活性,以确保字段值满足某些条件,而这些条件可能无法直接通过类型注解或Pydantic内置约束来表达。
下面是一个使用validator
装饰器的例子,该例子定义了一个User
模型,其中包含一个password
字段,该字段在赋值时必须满足特定的长度要求,并且需要被哈希处理:
from pydantic import BaseModel, Field, validator
from passlib.hash import pbkdf2_sha256 as sha256 # 假设使用passlib库进行密码哈希
class User(BaseModel):
username: str = Field(..., min_length=4, max_length=20, title="用户名")
email: str = Field(..., regex=r'^[\w.-]+@[\w-]+\.\w{2,}$', title="邮箱地址")
password_raw: str # 原始密码,不会进行类型检查或验证(因为我们将手动处理)
# 使用@validator装饰器定义一个自定义验证器
@validator('password_raw')
def password_must_contain_uppercase(cls, v):
if not any(c.isupper() for c in v):
raise ValueError('password must contain at least one uppercase letter')
if len(v) < 8:
raise ValueError('password must be at least 8 characters long')
return v
# 另一个验证器,用于在password_raw赋值后哈希密码
@validator('password_raw', always=True, pre=True)
def hash_password(cls, v):
if v is not None:
return sha256.hash(v)
return v
# 计算后的哈希值将存储在password字段中
@property
def password(self):
return self.password_raw
# 创建一个User实例
user = User(username="alice", email="alice@example.com", password_raw="Secret123!")
print(user.password) # 输出哈希后的密码,而不是原始密码
在这个例子中,我们定义了两个验证器:
password_must_contain_uppercase
:这个验证器检查password_raw
字段是否包含至少一个大写字母,并且长度是否至少为8个字符。如果不满足这些条件,它会引发一个ValueError
。hash_password
:这个验证器在password_raw
字段赋值之前(由于pre=True
)运行,并且总是运行(由于always=True
),无论字段值是否改变。它使用passlib
库中的pbkdf2_sha256
函数对密码进行哈希处理,并将哈希值返回给password_raw
字段。注意,由于我们使用了pre=True
,哈希处理在验证其他任何约束之前发生。
另外,请注意我们定义了一个password
属性,它简单地返回password_raw
的值。由于我们在hash_password
验证器中替换了password_raw
的值,因此这个属性实际上返回的是哈希后的密码。然而,从外部看,用户仍然是通过password_raw
字段来设置密码的。
这种设计允许我们保持模型的内部状态(即哈希后的密码)与用户的输入(即原始密码)分离,同时仍然提供一个直观的接口来设置密码。