ibis:极具潜力的Python数据分析新框架

简介: ibis:极具潜力的Python数据分析新框架

1 简介

大家好我是费老师,今天要给大家介绍的Python框架叫做ibis,没错,跟著名连锁酒店宜必思同名,其作者是创造了pandasArrow等著名框架的Wes McKinney

f70a1d33d46f8f0ac426aa3cc364be59.png

ibis的核心理念是用同一套数据框操作API,统一操纵各种主流的数据运算框架,使得用户可以更轻松更一致的构建自己的数据分析处理过程,而不是囿于不同框架之间千差万别的用法,下面我们就来一起学习其基础用法😉~

e1990b10ef11640c30d4d9e245fea554.png

2 ibis基础用法介绍

2.1 ibis的安装

为了方便演示,我们这里使用condamamba创建新的虚拟环境,来安装试用ibis,以mamba为例,在终端中执行下列命令,完成演示用虚拟环境的创建及激活,并安装ibis最基础的相关模块+示例数据集模块:

mamba create -n ibis-demo python=3.9 -y
mamba activate ibis-demo
pip install ibis-framework[duckdb,examples]

验证是否安装成功:

python -c "import ibis;print(ibis.__version__)"

可以看到,我们完成了对ibis的安装,当前版本为9.0.0

8b30066ee822e490aeca6b1b3711fc41.png

2.2 ibis主要功能

2.2.1 构建具有便携性的分析逻辑

ibis本身不直接执行分析计算,当我们针对目标数据编写好对应计算逻辑的ibis代码后,实际执行时其底层会将计算逻辑自动转换到当前的计算后端中。目前ibis支持「超过20种」计算后端,均为当前「单机分析」「分布式分析」领域的主流框架:

13f704a545fef3db796a6105d6b88cf3.png

这使得基于ibis构建的数据分析工作流,可以在不修改代码的情况下,轻松扩展应用于任意的计算后端。

譬如,ibis默认使用DuckDB作为后端进行单机分析运算,你可以在本机上使用部分数据构建并验证业务分析逻辑后,再套用相同的代码,切换计算后端到诸如ClickHouse上执行分布式运算,这一特性也是ibis「便携性」的体现。

举个简单的例子,首先我们基于pandas生成具有一千万行记录的示例数据并导出为parquet格式:

import numpy as np
import pandas as pd
# 生成测试用数据并导出为parquet格式
(
    pd
    .DataFrame(
        {
            '类别': np.random.choice(list('abcdef'), 10000000),
            '数值': np.random.uniform(0, 100, 10000000)
        }
    )
    .assign(数值=lambda df: df['数值'].round(3))
    .to_parquet('demo.parquet')
)

接下来我们先使用默认的DuckDB后端,在ibis中执行一些示例运算,注意其运算耗时:

3698da1f29daa362b05a3250d90b6d0c.png

接着,我们切换计算后端为pandas,执行完全一样的计算代码,可以看到计算耗时陡增,毕竟pandas处理上千万行数据性能要远逊于DuckDB,这个例子体现出ibis强大的代码便携性:

4a42e457fe5da796b74efc586e3890aa.png

2.2.2 充分搭配Python与SQL

ibis中另一个非常强大的功能,是其可以充分结合Python代码和SQL代码来开展分析工作,譬如,你可以将ibis分析代码直接转换为SQL语句:

18df00119d40b06634be3039d783e1b4.png

也可以直接执行SQL语句开展分析:

b717f3ca740f59b27bd98126dddb7e96.png

这使得ibis可以充分联结各类最先进的计算后端,帮助分析师轻松维护业务分析逻辑。

无论你原先在使用pandasSQL还是R进行数据分析,ibis官网文档中都提供了非常友好的使用指南,确保你可以无痛的迁移使用ibis

8710719da722bba4940df5ab6837fb84.png

目录
相关文章
|
17天前
|
安全 前端开发 数据库
Python 语言结合 Flask 框架来实现一个基础的代购商品管理、用户下单等功能的简易系统
这是一个使用 Python 和 Flask 框架实现的简易代购系统示例,涵盖商品管理、用户注册登录、订单创建及查看等功能。通过 SQLAlchemy 进行数据库操作,支持添加商品、展示详情、库存管理等。用户可注册登录并下单,系统会检查库存并记录订单。此代码仅为参考,实际应用需进一步完善,如增强安全性、集成支付接口、优化界面等。
|
1月前
|
机器学习/深度学习 数据可视化 数据挖掘
使用Python进行数据分析的入门指南
本文将引导读者了解如何使用Python进行数据分析,从安装必要的库到执行基础的数据操作和可视化。通过本文的学习,你将能够开始自己的数据分析之旅,并掌握如何利用Python来揭示数据背后的故事。
|
6天前
|
JSON 安全 中间件
Python Web 框架 FastAPI
FastAPI 是一个现代的 Python Web 框架,专为快速构建 API 和在线应用而设计。它凭借速度、简单性和开发人员友好的特性迅速走红。FastAPI 支持自动文档生成、类型提示、数据验证、异步操作和依赖注入等功能,极大提升了开发效率并减少了错误。安装简单,使用 pip 安装 FastAPI 和 uvicorn 即可开始开发。其优点包括高性能、自动数据验证和身份验证支持,但也存在学习曲线和社区资源相对较少的缺点。
37 15
|
3天前
|
关系型数据库 API 数据库
Python流行orm框架对比
Python中有多个流行的ORM框架,如SQLAlchemy、Django ORM、Peewee、Tortoise ORM、Pony ORM、SQLModel和GINO。每个框架各有特点,适用于不同的项目需求。SQLAlchemy功能强大且灵活,适合复杂项目;Django ORM与Django框架无缝集成,易用性强;Peewee轻量级且简单,适合小型项目;Tortoise ORM专为异步框架设计;Pony ORM查询语法直观;SQLModel结合Pydantic,适合FastAPI;GINO则适合异步环境开发。初学者推荐使用Django ORM或Peewee,因其易学易用。
|
6天前
|
人工智能 分布式计算 大数据
MaxFrame 产品评测:大数据与AI融合的Python分布式计算框架
MaxFrame是阿里云MaxCompute推出的自研Python分布式计算框架,支持大规模数据处理与AI应用。它提供类似Pandas的API,简化开发流程,并兼容多种机器学习库,加速模型训练前的数据准备。MaxFrame融合大数据和AI,提升效率、促进协作、增强创新能力。尽管初次配置稍显复杂,但其强大的功能集、性能优化及开放性使其成为现代企业与研究机构的理想选择。未来有望进一步简化使用门槛并加强社区建设。
41 7
|
1月前
|
JSON 数据可视化 测试技术
python+requests接口自动化框架的实现
通过以上步骤,我们构建了一个基本的Python+Requests接口自动化测试框架。这个框架具有良好的扩展性,可以根据实际需求进行功能扩展和优化。它不仅能提高测试效率,还能保证接口的稳定性和可靠性,为软件质量提供有力保障。
71 7
|
1月前
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
83 2
|
1月前
|
敏捷开发 测试技术 持续交付
自动化测试之美:从零开始搭建你的Python测试框架
在软件开发的马拉松赛道上,自动化测试是那个能让你保持节奏、避免跌宕起伏的神奇小助手。本文将带你走进自动化测试的世界,用Python这把钥匙,解锁高效、可靠的测试框架之门。你将学会如何步步为营,构建属于自己的测试庇护所,让代码质量成为晨跑时清新的空气,而不是雾霾中的忧虑。让我们一起摆脱手动测试的繁琐枷锁,拥抱自动化带来的自由吧!
|
2月前
|
存储 数据可视化 数据挖掘
使用Python进行数据分析和可视化
本文将引导你理解如何使用Python进行数据分析和可视化。我们将从基础的数据结构开始,逐步深入到数据处理和分析的方法,最后通过实际的代码示例来展示如何创建直观的数据可视化。无论你是初学者还是有经验的开发者,这篇文章都将为你提供有价值的见解和技巧。让我们一起探索数据的世界,发现隐藏在数字背后的故事!
104 5
|
2月前
|
存储 数据可视化 数据挖掘
Python数据分析项目:抖音短视频达人粉丝增长趋势
Python数据分析项目:抖音短视频达人粉丝增长趋势

热门文章

最新文章