手把手教你上手python库pydbgen(附代码、安装地址)

简介:

1a6767f5d843c67ec78b2bedca71ea1e7287b088

SQL或数据科学领域的初学者通常会很难轻易访问大型示例数据库文件(.DB或.sqlite)来练习SQL命令。那么用一个简单的工具或库来生成一个包含多个表的,并且用自己选择的数据填充的大型数据库会不会很好?

当你开始学习和实践数据科学时,通常最担心的不是算法或技术,而是原始数据的可用性。幸运的是,网上有许多高质量的真实数据库可用于尝试学习热门机器学习技巧。但是,从我个人的经验来看从个人经验来讲,我发现学习SQL并不是这样。现在,对于数据科学领域来说,掌握SQL的基础知识与知道如何使用Python或R编写代码几乎同等重要。但是,访问存有真实数据的足够大的数据库(例如名称,年龄,信用卡,SSN,地址,生日等)并不像访问Kaggle上的玩具数据集一样常见,这些数据集是为机器学习的任务专门设计或策划的。

用一个简单的工具或库来生成一个包含多个表的,并且用自己选择的数据填充的大型数据库会不会很好?

除了数据科学领域的初学者,即使经验丰富的软件测试人员也可能发现使用简单的工具很有用,只需几行代码,他们就可以任意生成包含随机(假)而且有意义的条目的大型数据集。

我很高兴能介绍一个轻量级的Python库,即pydbgen。你可以在这里阅读了解关于软件包的详细信息。(链接:http://pydbgen.readthedocs. Io /en /latest/#)我将在短文中回顾类似的细节。

pydbgen究竟是什么?

它是一个轻量级的纯python库,用于生成随机有用的条目(例如名称,地址,信用卡号码,日期,时间,公司名称,职位名称,车牌号码等),并将其保存在Pandas数据框对象中,或者作为数据库文件中的SQLite表格或MS Excel文件。

如何安装?

它(当前版本为1.0.5)是托管在PyPI(Python Package Index repository)上的。请记住你需要提前安装Faker(链接:https://faker.readthedocs.io/en/latest/index.html)来完成这项工作。所以,只需键入:

pip install pydbgen

请注意,它目前仅在Python 3.6上进行了测试。它不适用于Python 2的安装。

如何使用?

你必须创建一个pydb对象才能开始使用它。

import pydbgen

from pydbgen import pydbgen

myDB=pydbgen.pydb()

然后,你可以访问由pydbobject公开的各种内部函数。例如,要打印随机的美国城市:

myDB.city_real()

>> 'Otterville'

for _ in range(10):

print(myDB.license_plate())

>>

8NVX937

6YZH485

XBY-564

SCG-2185

XMR-158

6OZZ231

CJN-850

SBL-4272

TPY-658

SZL-0934

如果你只是写'city'而不是'city_real',你会得到虚构的城市名称

print(myDB.gen_data_series(num=8,data_type='city'))

>>

New Michelle

Robinborough

Leebury

Kaylatown

Hamiltonfort

Lake Christopher

Hannahstad

West Adamborough

如何生成一个带有随机条目的Pandas数据框?

你可以选择要生成的数量和数据类型。请注意,所有内容都以string/texts形式返回。

testdf=myDB.gen_dataframe(5,['name','city','phone','date'])

testdf

如何生成数据库表?

你可以选择要生成数据的数量和类型。请注意,所有内容都以数据库的text/ VARCHAR所有数据类型返回所有数据都以text/ VARCHAR类型返回数据库。你可以指定数据库文件名和表名。

myDB.gen_table(db_file='Testdb.DB',table_name='People',

fields=['name','city','street_address','email'])

这会生成一个可用于MySQL或SQLite数据库服务器的.DB文件。 生成的数据库表在SQLite数据库浏览器中打开。

如何生成Excel文件?

与上面类似,只需使用以下代码生成随机数据的Excel文件即可。 请注意,'simple_phone'集被设置为False,因此会生成复杂的长型电话号码。这样可以方便试验更多涉及数据提取的代码!

myDB.gen_excel(num=20,fields=['name','phone','time','country'],

phone_simple=False,filename='TestExcel.xlsx')

用一种很酷的方法生成随机emailIDs以便废物利用?

pydbgen中一种内置方法是realistic_email,它从种子名称中生成随机电子邮件IDs。你能想到在网络上使用这个吗?你不想给出真实的电子邮件ID,但是可以给出一个相似的?

for _ in range(10):

print(myDB.realistic_email('Tirtha Sarkar'))

>>

Tirtha_Sarkar@gmail.com

Sarkar.Tirtha@outlook.com

Tirtha_S48@verizon.com

Tirtha_Sarkar62@yahoo.com

Tirtha.S46@yandex.com

Tirtha.S@att.com

Sarkar.Tirtha60@gmail.com

TirthaSarkar@zoho.com

Sarkar.Tirtha@protonmail.com

Tirtha.S@comcast.net

未来的改进和用户贡献

当前版本是1.0.5,可能包含许多bug。如果你在执行过程中注意到任何bug或者你的程序崩溃(除了你的错误输入),请告诉我。另外,如果你有一个很酷的想法来为源代码做贡献,Github repo链接:https://github.com/tirthajyoti/pydbgen)将为你打开。有一些问题很容易想到:

8481c8f592b7f349aa84a1de5c171db681516edf 我们可以将机器学习/统计建模和这个随机数据生成器集成吗?
8481c8f592b7f349aa84a1de5c171db681516edf 可视化功能可以被添加到发生器中吗?

原文发布时间为:2018-04-2
本文作者:T.Sarkar
本文来自云栖社区合作伙伴“ 数据派THU”,了解相关信息可以关注“ 数据派THU”微信公众号
相关文章
|
1天前
|
API 调度 开发者
Python中的并发编程:使用asyncio库实现异步IO
传统的Python编程模式中,使用多线程或多进程实现并发操作可能存在性能瓶颈和复杂性问题。而随着Python 3.5引入的asyncio库,开发者可以利用异步IO来更高效地处理并发任务。本文将介绍如何利用asyncio库实现异步IO,提升Python程序的并发性能。
|
2天前
安装OpenCV-Python
安装OpenCV-Python
9 1
|
2天前
|
JSON Shell 数据格式
第十章 Python常用标准库使用(必会)
第十章 Python常用标准库使用(必会)
|
2天前
|
开发框架 前端开发 数据库
Python从入门到精通:3.3.2 深入学习Python库和框架:Web开发框架的探索与实践
Python从入门到精通:3.3.2 深入学习Python库和框架:Web开发框架的探索与实践
|
2天前
|
数据采集 数据可视化 数据处理
Python从入门到精通的文章3.3.1 深入学习Python库和框架:数据处理与可视化的利器
Python从入门到精通的文章3.3.1 深入学习Python库和框架:数据处理与可视化的利器
|
2天前
|
JSON 测试技术 API
Python的Api自动化测试使用HTTP客户端库发送请求
【4月更文挑战第18天】在Python中进行HTTP请求和API自动化测试有多个库可选:1) `requests`是最流行的选择,支持多种请求方法和内置JSON解析;2) `http.client`是标准库的一部分,适合需要低级别控制的用户;3) `urllib`提供URL操作,适用于复杂请求;4) `httpx`拥有类似`requests`的API,提供现代特性和异步支持。根据具体需求选择,如多数情况`requests`已足够。
9 3
Python
20 0
|
3天前
|
JSON 数据格式 索引
python 又一个点运算符操作的字典库:Munch
python 又一个点运算符操作的字典库:Munch
20 0
|
3天前
|
5G Python
Windows11搭建Python环境(Anaconda安装与使用)
Windows11搭建Python环境(Anaconda安装与使用)
17 0
|
3天前
|
数据挖掘 数据处理 索引
如何使用Python的Pandas库进行数据筛选和过滤?
Pandas是Python数据分析的核心库,提供DataFrame数据结构。基本步骤包括导入库、创建DataFrame及进行数据筛选。示例代码展示了如何通过布尔索引、`query()`和`loc[]`方法筛选`Age`大于19的记录。
10 0