小众精品 | 开发者弹药库升级 推荐五个机器学习框架

简介:

你可能没听过它们,但今天或许会考虑上手。至于那些不同生态、不同编程语言的工具——对于高手而言,即便没有使用需求,借鉴它们的代码执行也能为自己的产品开发带来许多灵感。

雷锋网提醒:顺序与重要性无关。

1. Scikit-plot

一帮缺乏艺术细胞的数据科学家,在某年某月某天突然心怀恐惧地意识到:可视化是数据科学最关键的东西之一,而不仅仅是一个加分项。

这就导致了 Scikit-plot 的诞生。

小众精品 | 开发者弹药库升级 推荐五个机器学习框架

KDnuggests 副主编 Matthew Mayo 表示:

“我注意到 Scikit-plot,是因为在 Reddit 上看到了它的作者的发帖,随后几乎立刻便上了手。” 

该项目旨在为 Scikit-learn 用户提供一系列标准、实用的图表。这包括:

  • Elbow plots

  • Feature importance graphs

  • PCA projection plots

  • ROC curves

  • Silhouette plots

Scikit-plot 库有两个 API,其中一个与 Scikit-learn 紧密整合,以控制对其 API 的调用(Factory API)。另一个更传统(the Functions API)。但无论哪个都应当足够你使用。

它的快速上手指南在这里

2. Scikit-feature

Scikit-feature 是 Python 的开源特征选取资源库,由亚利桑那州立大学的数据挖掘&机器学习实验室开发。它基于 scikit-learn、Numpy 以及 Scipy。Scikit-feature 内置约 40 个常见特征选取算法,包含传统算法以及一些结构式、流式的特征选取算法。

所有的特征选取方案,都有一个共同目标:找出多余、不相关的特征。这是一个相当热门的研究领域,对此有无数算法。

Scikit-feature 既适用于实用特征选取工程,也适合做算法研究。查看它支持的算法列表请点击这里

一名为 Rubens Zimbres 的数据科学家曾如是说:

“在积累了经验,尝试了堆叠神经网络、并行神经网络、asymmetric configs、简单的神经网络、多层、dropout、激活函数等各种东西之后,我得出了一个结论:论效果,什么都比不上好的特征选取。”

3. Smile

Smile (Statistical Machine Intelligence and Learning Engine) 是一个快速、全面的机器学习系统。受益于先进的数据结构与算法,Smile 有最一流的性能。

Smile 覆盖了机器学习的方方面面,包括分类、回归、聚类、关联规则挖掘、特征选取、流形学习(manifold learning,)、多维尺度分析(MDS)、遗传算法、missing value imputation、最邻近搜索等等。

小众精品 | 开发者弹药库升级 推荐五个机器学习框架

对于使用 Java 和 Scala 的开发者,目前来看,Smile 是最合适的机器学习库。你可以把它看作是一个 JVM Scikit-learn。该项目有非常全面的官方教程,地址: http://haifengl.github.io/smile/。该教程不仅覆盖了 Smile 使用技巧,还是很高质量的机器学习算法入门资料。

如果你用 JVM 开发机器学习,Smile 绝对值得一试。事实上,如果你身在这个生态系统却没听过  Smile,才是一桩奇闻。

4. Gensim

Gensim 是一个针对话题建模、文件索引、在大语料库中进行相似性检索的 Python 算法库。目标受众是自然语言处理和信息检索社区。

Gensim 是个以完整性为目标的多面手。其开发团队称,它为“常见算法提供了高效的多核执行,比如 Latent Semantic Analysis (LSA/LSI/SVD), Latent Dirichlet Allocation (LDA), Random Projections (RP), Hierarchical Dirichlet Process (HDP) 或 word2vec 深度学习。”

Gensim 的文件在这里。KDnuggets 以前发过一篇教新手用 Gensim 搞话题建模的教程,请戳这里

5. Sonnet

小众精品 | 开发者弹药库升级 推荐五个机器学习框架

本月初,DeepMind 在官方博客宣布了开源 Sonnet 的消息。雷锋网(公众号:雷锋网)第一时间进行了报道:DeepMind发布Sonnet 帮你用TensorFlow快速搭建神经网络

DeepMind 在博客中表示:

“对于 TensorFlow 而言,自从其在 2015 年末开源,一个由众多高级算法库组成的多样生态系统,便已围绕着它迅速发展起来。这些高级工具,允许常用任务以更简便、更快的方式完成,极大节省了开发者的时间精力。 

作为该生态的新成员,Sonnet 也是如此。它与现有的神经网络算法库有许多共同点,但部分功能专为 DeepMind 的研究需要而设计。”

Sonnet 是基于 TensorFlow 的高级算法库。DeepMind 承认了它与一些现有产品比较类似,但整合了 DeepMind 研究所必须的功能与特性,比如允许特定模块在随机聚集的 Tensor 群组上运行:

“RNN 的状态,最适合于以异构 Tensor 集合来表示,用扁平列表来表示它们很容易会导致错误。Sonnet 提供了处理这些随机等级结构的功能,所以改变你的试验,使用另一种 RNN,并不需要繁冗地修改代码。DeepMind 已经对核心 TensorFlow 做了修改,以更好地支持这一使用情况。”

最后,希望本文能够对你产生帮助。让你知道一些此前没听说过的算法库,或者你并没有意识到自己其实需要的功能。







本文作者:三川

本文转自雷锋网禁止二次转载,原文链接

目录
相关文章
|
1月前
|
存储 人工智能 大数据
AI开发新范式,PAI模型构建平台升级发布
本次分享由阿里云智能集团产品专家高慧玲主讲,聚焦AI开发新范式及PAI模型构建平台的升级。分享分为四个部分,围绕“人人可用”和“面向生产”两大核心理念展开。通过降低AI工程化门槛、提供一站式全链路服务,PAI平台致力于帮助企业和开发者更高效地实现AI应用。案例展示中,介绍了多模态模型微调在文旅场景的应用,展示了如何快速复现并利用AI解决实际问题。最终目标是让AI技术更普及,赋能各行业,推动社会进步。
|
1月前
|
机器学习/深度学习 人工智能
Diff-Instruct:指导任意生成模型训练的通用框架,无需额外训练数据即可提升生成质量
Diff-Instruct 是一种从预训练扩散模型中迁移知识的通用框架,通过最小化积分Kullback-Leibler散度,指导其他生成模型的训练,提升生成性能。
62 11
Diff-Instruct:指导任意生成模型训练的通用框架,无需额外训练数据即可提升生成质量
|
6月前
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
306 4
|
1月前
|
人工智能 运维 API
PAI企业级能力升级:应用系统构建、高效资源管理、AI治理
PAI平台针对企业用户在AI应用中的复杂需求,提供了全面的企业级能力。涵盖权限管理、资源分配、任务调度与资产管理等模块,确保高效利用AI资源。通过API和SDK支持定制化开发,满足不同企业的特殊需求。典型案例中,某顶尖高校基于PAI构建了融合AI与HPC的科研计算平台,实现了作业、运营及运维三大中心的高效管理,成功服务于校内外多个场景。
|
3月前
|
机器学习/深度学习 数据采集 算法
Python机器学习:Scikit-learn库的高效使用技巧
【10月更文挑战第28天】Scikit-learn 是 Python 中最受欢迎的机器学习库之一,以其简洁的 API、丰富的算法和良好的文档支持而受到开发者喜爱。本文介绍了 Scikit-learn 的高效使用技巧,包括数据预处理(如使用 Pipeline 和 ColumnTransformer)、模型选择与评估(如交叉验证和 GridSearchCV)以及模型持久化(如使用 joblib)。通过这些技巧,你可以在机器学习项目中事半功倍。
105 3
|
5月前
|
机器学习/深度学习 算法 数据挖掘
Python数据分析革命:Scikit-learn库,让机器学习模型训练与评估变得简单高效!
在数据驱动时代,Python 以强大的生态系统成为数据科学的首选语言,而 Scikit-learn 则因简洁的 API 和广泛的支持脱颖而出。本文将指导你使用 Scikit-learn 进行机器学习模型的训练与评估。首先通过 `pip install scikit-learn` 安装库,然后利用内置数据集进行数据准备,选择合适的模型(如逻辑回归),并通过交叉验证评估其性能。最终,使用模型对新数据进行预测,简化整个流程。无论你是新手还是专家,Scikit-learn 都能助你一臂之力。
221 8
|
5月前
|
机器学习/深度学习 算法 数据挖掘
从菜鸟到大师:Scikit-learn库实战教程,模型训练、评估、选择一网打尽!
【9月更文挑战第13天】在数据科学与机器学习领域,Scikit-learn是不可或缺的工具。本文通过问答形式,指导初学者从零开始使用Scikit-learn进行模型训练、评估与选择。首先介绍了如何安装库、预处理数据并训练模型;接着展示了如何利用多种评估指标确保模型性能;最后通过GridSearchCV演示了系统化的参数调优方法。通过这些实战技巧,帮助读者逐步成长为熟练的数据科学家。
190 3
|
5月前
|
机器学习/深度学习 人工智能 算法
ML.NET:一个.NET开源、免费、跨平台的机器学习框架
ML.NET:一个.NET开源、免费、跨平台的机器学习框架
169 1
|
6月前
|
机器学习/深度学习 PyTorch TensorFlow
机器学习框架调研
机器学习框架调研
51 1
|
6月前
|
机器学习/深度学习 JSON API
【Python奇迹】FastAPI框架大显神通:一键部署机器学习模型,让数据预测飞跃至Web舞台,震撼开启智能服务新纪元!
【8月更文挑战第16天】在数据驱动的时代,高效部署机器学习模型至关重要。FastAPI凭借其高性能与灵活性,成为搭建模型API的理想选择。本文详述了从环境准备、模型训练到使用FastAPI部署的全过程。首先,确保安装了Python及相关库(fastapi、uvicorn、scikit-learn)。接着,以线性回归为例,构建了一个预测房价的模型。通过定义FastAPI端点,实现了基于房屋大小预测价格的功能,并介绍了如何运行服务器及测试API。最终,用户可通过HTTP请求获取预测结果,极大地提升了模型的实用性和集成性。
398 1

热门文章

最新文章