下面分别来介绍一下上述5个GitHub项目。
FlashText
Start:4.3k
FlashText[2]是一款用于提取或者替换句子中关键字的工具。
FlashText具有诸多适合于网页爬虫或者文本处理的功能,例如,
•提取•替换•删除•多关键字•...
有同学会有疑问,它和正则表达式功能大同小异,为什么要选择FlashText呢?
下面来通过一幅图对比一下两款工具在速度方面的表现,
安装使用
可以直接使用pip命令进行安装,
pip install flashtext
可以通过一个简单的示例看一下FlashText的使用,
>>> from flashtext import KeywordProcessor >>> keyword_processor = KeywordProcessor() >>> # keyword_processor.add_keyword(<unclean name>, <standardised name>) >>> keyword_processor.add_keyword('Big Apple', 'New York') >>> keyword_processor.add_keyword('Bay Area') >>> keywords_found = keyword_processor.extract_keywords('I love Big Apple and Bay Area.') >>> keywords_found >>> # ['New York', 'Bay Area']
PyFlux
Start:1.7k
PyFlux[3]是一款开源的时间序列分析库。
时序分析是统计学中非常重要的一个分支,在具有时序特征的数据中,往往蕴含着很多令人感兴趣的特征信息,可以根据这些信息对未来进行准确的预测。
PyFlux将推理模型(frequentist和Bayesian)和参数设置应用于时序分析中,使得时序分析变得更加容易。PyFlux具备如下特性,
•为时间序列数据建立模型
•对模型进行推理•模型的检查和评估
•模型修改•用模型进行回顾和预测
具体的示例,可以查看官方文档[4]。
bamboolib
Start:550
bamboolib[5]是使得pandas DataFrames数据分析变得更加容易的一款Python库。
做数据相关工作的同学,对pandas肯定不会陌生。它很强大,甚至对于很多Python开发者具备着不可替代的位置,但是对于初学者却有时候让人难以理解。
bamboolib使得pandas DataFrames数据分析变得更加简单容易,在以往需要上百行完成的工作,在bamboolib中只需要简短的一行即可。
通过bamboolib的使用,它可以提升你的工作效率,减少在无价值的事情上浪费过多精力。
另外,bamboolib不仅支持本地使用,还可以在jupyter notebook和jupyterLab中使用。
安装
下面分别是本地、jupyter notebook、jupyterLab中安装的方法,
pip install bamboolib # Jupyter Notebook extensions python -m bamboolib install_nbextensions # JupyterLab extensions python -m bamboolib install_labextensions
MrDoc
Start:167
MrDoc[6]基于Python开发的在线文档系统,适合作为个人和小型团队的文档、笔记、知识管理工具。
MrDoc可以支持markdown、表格、图片上传等文档常用的功能,另外,它还具备一个完善系统应当具备的用户注册、管理等功能。可以用于团队内部的知识共享,文档管理。
另外,MrDoc已经开源,作为一个完善的应用系统,对于Python感兴趣的同学也可以拿这个项目用于学习和提升,了解一个完善系统的开发需要哪些环节,包含哪些模块,整个链路又是如何衔接的。
AutoViz
Start:140
AutoViz[7]是一款数据集可视化工具。
通过AutoViz,一行代码就可以轻松实现数据集的可视化工作。
AutoViz除了在数据可视化方面做了很多优化之外,还在数据源接口方面提供了很大的便利。它可以同时兼容txt、json、csv等离线数据格式。
安装使用
通过pip安装AutoViz,
pip install autoviz
使用AutoViz过程中,首先需要对AutoViz进行实例化,
from autoviz.AutoViz_Class import AutoViz_Class AV = AutoViz_Class()
然后加载数据,在家在数据过程中,可以把数据加载进pandas DataFrame,也可以简单的提供一个数据路径。剩余的工作,交给AutoViz即可,
filename = "" sep = "," dft = AV.AutoViz( filename, sep, target, df, header=0, verbose=0, lowess=False, chart_format="svg", max_rows_analyzed=150000, max_cols_analyzed=30, )