不该被忽视的五个机器学习项目

简介: 本文将介绍5个机器学习或机器学习相关的项目,你可能还没有听说过,但可能应该考虑重视一下了!

经过一段时间的中断后,这些忽视……”的帖子在本月卷土重来,继续进行适度的探索,以努力将难以应付的、鲜为人知的机器学习项目带给那些额外关注的目光。

对于一些潜在的、新的机器学习方法,请看以下的5个项目。

1. skift: 用于Python fastText scikit-learn 包装器

什么是 skift?

skift包括几个scikit-learn兼容包装器,用于fasttext Python包,以适配这些用例。

什么是fastText?

fasttext是为了有效的学习词语表示和语句分类的一个库。

fasttext只适用于文本数据,这意味着它将只使用一个单列,而这个单列来源于一个可能包含许多不同类型的特征列的数据集。例如,一个常见的用例是有个fasttext分类器,使用一个单列作为输入,并忽略其他的列。特别是当fasttext被用来作为在层叠分类器中的一个分类器的时候,和其它分类器一样使用非文本特征。

明白了fasttext是难题的重要一部分,但是一旦掌握了这种认识,skift帮助你轻松实现fasttext,一般来说也会把它与其它scikit-learn功能整合到一起。

>>> from skift import FirstColFtClassifier
>>> df = pandas.DataFrame([['woof', 0], ['meow', 1]], columns=['txt', 'lbl'])
>>> sk_clf = FirstColFtClassifier(lr=0.3, epoch=10)
>>> sk_clf.fit(df[['txt']], df['lbl'])
>>> sk_clf.predict([['woof']])
[0]

47212397390f1cca1ab11f71704de62dc73e8b2a

2. PHP-ML: 用于PHP的机器学习库

厌烦了没有用于PHP合适的机器学习替代品?你是一个受虐狂吗(如果你使用PHP,这本身就是答案)?那么,这个项目可能就是给你的!

PHP中机器学习的新途径。算法、交叉验证、神经网络、预处理、特征提取,尽在一个库。

当我还是个孩子的时候,我远离了PHP世界,不知道这是否有任何特殊的、迫切的需求;绝对可能有!除此之外,我一直对如何在不同编程语言环境中开展机器学习生态系统感兴趣。也许你也是,或者更重要的是,你实际上可能会使用一个看起来很初级的东西,作为  PHP开发者在机器学习方面一个有强有力的库。 

cb307041fed990506bb8f186bec1b5e632fc887c

3. Keras Scikit-Learn API 包装器

虽然这在技术上不是它自己的项目,但我发现它重要的足以在这里表现的很突出。

通过在keras.wrappers.scikit_learn.py找到的包装器,你可以使用序列keras模型(仅是单输入)作为你的Scikit-Learn学习工作流。

类似于如何理解skift(以上所示)的基础项目是最重要的,这个难题的重要部分是用Keras来理解实现神经网络,本身就是一个高层次的API。能够将Keras与其它scikit-learn功能整合在一起,并能够使用熟悉的API和方法,正是这些包装器完成的。在官方keras GitHub库中找到的API

 如果你已经使用了Keras,这有一个很好的机会,不过对你来说已经不是新的了。如果你还没用,知道这种整合是可能的,那就足够让你看一看了。

877cc0924fe9854ba9db8d53519fce99c61d6b71

4. CatBoost: 基于决策树梯度提升的机器学习方法

梯度增强仍然是所有的疯狂。或者是一些疯狂,至少吧。一个最新进入梯度提高树舞台上的是CatBoost

CatBoost的主要优势:

  •   卓越的品质,与其它GBDT的库相比;
  •   最好的推导速度;
  •   支持数字和分类特征;
  •   高速的GPU和多GPU(在一个节点上),以支持训练;
  •   数据可视化工具;

CatboostPythonR,还有命令行接口类型的语言中是可用的。点击这里查看教程,以及更多的完整文档

5e80f156086878ddc416bfd6b760e83463617371

5. PyMC3: Python中的概率编程

PyMC3是一个Python开发包,用于致力于先进的马尔可夫连锁蒙特卡洛拟合算法和变分的朴素贝叶斯统计模型和基于概率的机器学习。它的灵活性和可扩展性使它可应用于一大类的问题。

PyMC3 基于西雅娜项目,提供了:

  •   计算优化与动态C编译;
  •   NumPy广播和高级索引;
  •   线性代数运算符;
  •   简单的可扩展性;

关于更多的,你可以查阅入门指南 API快速入门指南

相关链接:

·       5个你不能再忽视的机器学习项目

·       超过5个你不再能忽视的机器学习项目

·以上为译文。

本文由阿里云云栖社区组织翻译。

文章原标题《5-machine-learning-projects-overlook-feb-2018》,

作者:Matthew Mayo译者:Mags,审校:袁虎。

文章为简译,更为详细的内容,请查看原文 

相关文章
|
8月前
|
机器学习/深度学习 人工智能 前端开发
机器学习PAI常见问题之web ui 项目启动后页面打不开如何解决
PAI(平台为智能,Platform for Artificial Intelligence)是阿里云提供的一个全面的人工智能开发平台,旨在为开发者提供机器学习、深度学习等人工智能技术的模型训练、优化和部署服务。以下是PAI平台使用中的一些常见问题及其答案汇总,帮助用户解决在使用过程中遇到的问题。
|
8月前
|
机器学习/深度学习 数据采集 监控
大模型开发:描述一个典型的机器学习项目流程。
机器学习项目涉及问题定义、数据收集、预处理、特征工程、模型选择、训练、评估、优化、部署和监控。每个阶段都是确保模型有效可靠的关键,需要细致操作。
110 0
|
8月前
|
TensorFlow 算法框架/工具 开发工具
使用 TensorFlow 构建机器学习项目:6~10(3)
使用 TensorFlow 构建机器学习项目:6~10(3)
60 0
|
2月前
|
机器学习/深度学习 算法 UED
在数据驱动时代,A/B 测试成为评估机器学习项目不同方案效果的重要方法
在数据驱动时代,A/B 测试成为评估机器学习项目不同方案效果的重要方法。本文介绍 A/B 测试的基本概念、步骤及其在模型评估、算法改进、特征选择和用户体验优化中的应用,同时提供 Python 实现示例,强调其在确保项目性能和用户体验方面的关键作用。
50 6
|
2月前
|
机器学习/深度学习 算法 UED
在数据驱动时代,A/B 测试成为评估机器学习项目效果的重要手段
在数据驱动时代,A/B 测试成为评估机器学习项目效果的重要手段。本文介绍了 A/B 测试的基本概念、步骤及其在模型评估、算法改进、特征选择和用户体验优化中的应用,强调了样本量、随机性和时间因素的重要性,并展示了 Python 在 A/B 测试中的具体应用实例。
40 1
|
2月前
|
机器学习/深度学习 数据采集 Python
从零到一:手把手教你完成机器学习项目,从数据预处理到模型部署全攻略
【10月更文挑战第25天】本文通过一个预测房价的案例,详细介绍了从数据预处理到模型部署的完整机器学习项目流程。涵盖数据清洗、特征选择与工程、模型训练与调优、以及使用Flask进行模型部署的步骤,帮助读者掌握机器学习的最佳实践。
183 1
|
4月前
|
机器学习/深度学习 算法 TensorFlow
交通标志识别系统Python+卷积神经网络算法+深度学习人工智能+TensorFlow模型训练+计算机课设项目+Django网页界面
交通标志识别系统。本系统使用Python作为主要编程语言,在交通标志图像识别功能实现中,基于TensorFlow搭建卷积神经网络算法模型,通过对收集到的58种常见的交通标志图像作为数据集,进行迭代训练最后得到一个识别精度较高的模型文件,然后保存为本地的h5格式文件。再使用Django开发Web网页端操作界面,实现用户上传一张交通标志图片,识别其名称。
185 6
交通标志识别系统Python+卷积神经网络算法+深度学习人工智能+TensorFlow模型训练+计算机课设项目+Django网页界面
|
5月前
|
机器学习/深度学习 人工智能 数据处理
【人工智能】项目实践与案例分析:利用机器学习探测外太空中的系外行星
探测外太空中的系外行星是天文学和天体物理学的重要研究领域。随着望远镜观测技术的进步和大数据的积累,科学家们已经能够观测到大量恒星的光度变化,并尝试从中识别出由行星凌日(行星经过恒星前方时遮挡部分光线)引起的微小亮度变化。然而,由于数据量巨大且信号微弱,传统方法难以高效准确地识别所有行星信号。因此,本项目旨在利用机器学习技术,特别是深度学习,从海量的天文观测数据中自动识别和分类系外行星的信号。这要求设计一套高效的数据处理流程、构建适合的机器学习模型,并实现自动化的预测和验证系统。
108 1
【人工智能】项目实践与案例分析:利用机器学习探测外太空中的系外行星
|
5月前
|
机器学习/深度学习 数据处理 定位技术
构建您的首个机器学习项目:从理论到实践
【8月更文挑战第28天】本文旨在为初学者提供一个简明的指南,通过介绍一个基础的机器学习项目——预测房价——来揭示机器学习的神秘面纱。我们将从数据收集开始,逐步深入到数据处理、模型选择、训练和评估等环节。通过实际操作,你将学会如何利用Python及其强大的科学计算库来实现自己的机器学习模型。无论你是编程新手还是有一定经验的开发者,这篇文章都将为你打开一扇通往机器学习世界的大门。
|
5月前
|
机器学习/深度学习 数据可视化 数据处理
Python vs R:机器学习项目中的实用性与生态系统比较
【8月更文第6天】Python 和 R 是数据科学和机器学习领域中最受欢迎的两种编程语言。两者都有各自的优点和适用场景,选择哪种语言取决于项目的具体需求、团队的技能水平以及个人偏好。本文将从实用性和生态系统两个方面进行比较,并提供代码示例来展示这两种语言在典型机器学习任务中的应用。
191 1