【译Py】2018年8月,GitHub上的Python数据科学明星项目:自动化机器学习、自然语言处理、可视化、机器学习工作流

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介:

919a715aa33452d54a3fd52d2e03360adc9d37fc

Python数据分析

本文是“五个不容忽视的机器学习项目”一文的续篇。和上篇文章相比,这次选出的项目涉及更多数据科学领域,并且都是GitHub上的开源项目,我们为每个项目都附上了Repo、文档和入门指南的链接,并对每个项目进行了简单介绍。
下面一起来了解一下这些新兴的热门Python库吧,希望本文对你的工作能有所帮助:

1. Auto-Keras自动机器学习库
项目链接:https://github.com/jhfjhfj1/autokeras
文档:http://autokeras.com
入门指南:https://autokeras.com/#example
Auto-Keras是用于自动机器学习(AutoML)的开源软件库。自动机器学习的最终目标是让仅拥有一定数据科学知识或机器学习背景的行业专家可以轻松地应用深度学习模型。Auto-Keras提供了很多用于自动研究深度学习模型架构与超参数的函数。

2. Finetune Scikit-Learn风格的自然语言处理模型微调器
项目链接:https://github.com/IndicoDataSolutions/finetune
文档:https://finetune.indico.io
入门指南:https://finetune.indico.io
Finetune提供了“通过生成式预训练改进对语言的理解”的预训练语言模型,并扩充了OpenAI/finetune-language-model库。

3. GluonNLP - 让自然语言处理变得更简单
项目链接:https://github.com/dmlc/gluon-nlp
文档:http://gluon-nlp.mxnet.io
入门指南: https://github.com/dmlc/gluon-nlp#quick-start-guide
GluonNLP可以使文本处理、数据加载及构建神经模型变得更容易,加快自然语言处理研究的速度。

4. animatplot - 基于Matplotlib的Python动图库
项目链接:https://github.com/t-makaro/animatplot
文档:https://animatplot.readthedocs.io/en/latest
入门指南:https://animatplot.readthedocs.io/en/latest/tutorial/getting_started.html
请注意,本库文档里的例子比较简单,本文引用的是该库在GitHub上列出的功能更全、形式更酷的示例图。

3149e9bc38177f1fe387e7ca124fbe2c1ed69efc

animatplot

5. MLflow - 机器学习生命周期的开源平台
项目链接:https://github.com/mlflow/mlflow
文档:https://mlflow.org/docs/latest/index.html
入门指南:https://mlflow.org/docs/latest/quickstart.html
MLflow是用来管理机器学习整体生命周期的开源平台,这个平台提供了以下主要三个功能:

● MLflow Tracking :跟踪实验,以用来记录和比较机器学习的参数。
● MLflow Projects :以可复用、可再现的形式,将机器学习的代码进行打包,以便分享给其他数据科学家或传递给生产环境。
● MLflow Models :管理各类机器学习库中的模型,并部署到不同的模型服务及应用平台。
MLflow通过访问REST API和CLI实现其功能,所以它不依赖于某个库,并且支持多种机器学习库与编程语言,为了使用方便,它还内置了Python API。


原文发布时间为:2018-09-3

本文作者:Matthew Mayo

本文来自云栖社区合作伙伴“Python爱好者社区”,了解相关信息可以关注“Python爱好者社区”。

相关文章
|
25天前
|
人工智能
LangGraph:构建多代理动态工作流的开源框架,支持人工干预、循环、持久性等复杂工作流自动化
LangGraph 是一个基于图结构的开源框架,专为构建状态化、多代理系统设计,支持循环、持久性和人工干预,适用于复杂的工作流自动化。
80 12
LangGraph:构建多代理动态工作流的开源框架,支持人工干预、循环、持久性等复杂工作流自动化
|
4天前
|
机器学习/深度学习 运维 Kubernetes
解锁工作流自动化的力量:Argo Workflows
在现代软件开发和数据处理环境中,高效的工作流编排和自动化已成为关键需求。Argo Workflows 是一个领先的 Kubernetes 原生工作流引擎,专为处理复杂工作流而设计。它帮助企业实现自动化、缩短交付周期,并显著提高生产效率。计算巢已提供Argo Workflows 社区版服务。
解锁工作流自动化的力量:Argo Workflows
|
1月前
|
人工智能 监控 数据挖掘
工作流管理趋势:智能化、自动化与无限可能
本文深入探讨了工作流管理的定义、重要性、挑战及优化方法,强调其在提升企业效率、优化资源配置、提高透明度和促进协作等方面的作用。文章还介绍了构建高效工作流管理系统的步骤,包括流程梳理、设定KPIs、选择合适工具等,并分享了成功案例和未来趋势。
|
2月前
|
机器学习/深度学习 数据采集 数据处理
Scikit-learn Pipeline完全指南:高效构建机器学习工作流
Scikit-learn管道是构建高效、鲁棒、可复用的机器学习工作流程的利器。通过掌握管道的使用,我们可以轻松地完成从数据预处理到模型训练、评估和部署的全流程,极大地提高工作效率。
51 2
Scikit-learn Pipeline完全指南:高效构建机器学习工作流
|
1月前
|
数据可视化 编译器 Python
Manim:数学可视化的强大工具 | python小知识
Manim(Manim Community Edition)是由3Blue1Brown的Grant Sanderson开发的数学动画引擎,专为数学和科学可视化设计。它结合了Python的灵活性与LaTeX的精确性,支持多领域的内容展示,能生成清晰、精确的数学动画,广泛应用于教育视频制作。安装简单,入门容易,适合教育工作者和编程爱好者使用。
437 7
|
2月前
|
存储 数据可视化 数据挖掘
使用Python进行数据分析和可视化
本文将引导你理解如何使用Python进行数据分析和可视化。我们将从基础的数据结构开始,逐步深入到数据处理和分析的方法,最后通过实际的代码示例来展示如何创建直观的数据可视化。无论你是初学者还是有经验的开发者,这篇文章都将为你提供有价值的见解和技巧。让我们一起探索数据的世界,发现隐藏在数字背后的故事!
118 5
|
2月前
|
运维 监控 安全
自动化运维的魔法:打造高效DevOps工作流
在软件交付的快车道上,DevOps如同赛车手,而自动化运维则是那辆高性能赛车。本文将揭示如何通过自动化工具和最佳实践,构建一个高效、可靠的DevOps工作流,确保软件交付过程既快速又安全。我们将一起探索从代码提交到部署的每个关键步骤,并展示如何通过实际案例简化这一旅程。
|
2月前
|
机器学习/深度学习 数据可视化 数据挖掘
使用Python进行数据分析和可视化
【10月更文挑战第42天】本文将介绍如何使用Python进行数据分析和可视化。我们将从数据导入、清洗、探索性分析、建模预测,以及结果的可视化展示等方面展开讲解。通过这篇文章,你将了解到Python在数据处理和分析中的强大功能,以及如何利用这些工具来提升你的工作效率。
|
2月前
|
数据可视化 搜索推荐 Shell
Python与Plotly:B站每周必看榜单的可视化解决方案
Python与Plotly:B站每周必看榜单的可视化解决方案
|
2月前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
166 4

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等