知道这些用于数据科学和机器学习的GitHub存储库和Reddit主题吗?

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 5月最热门的GitHub存储库和顶级Reddit讨论,戳进来~

GitHubReddit都是比较有趣的平台,在这里,我不仅学习了数据科学的一些最佳应用,而且还了解数据科学家们是如何编程的。

一直以来,GitHub都是开发人员之间进行协作的终极平台,并且,我们也看到了据科学和机器学习社区以同样的热情来改善它。

Reddit仍然是一个很好的数据科学领域知识和见解的来源。人们在这个平台上共享代码、数据科学新闻、寻求帮助和意见、发表研究论文等。

这篇文章总结了Reddit平台上5月份一些关于数据科学的讨论,其中包括数据科学家在未来3年的作用以及有史以来最好的机器学习论文集。在GitHub社区中,英特尔开放了其NLP架构库,微软推出ML.NET以支持Dot Net开发者进行机器学习等。

让我们来看看GitHub上的顶级存储库以及Reddit上个月发生的有趣讨论吧。下面是之前四个月较为流行的GitHub存储库和顶级Reddit讨论(从四月起):

一月

二月

三月

四月

ML.NET

e51fa44eb16bd50d2cca7ddad42359925263b2f3 

ML.NET是一个开源机器学习框架。不需要任何构建机器学习模型的经验,机器学习和.NET开发人员就可以轻松使用.NET开发自己的模型。这是预发行版本,包含了基本的分类和回归算法。

ML.NET最初由Microsoft创建的,并且已用于各种产品WindowsExcelAccessBing等。此版本还捆绑了用于各种模型训练任务的.NET API

NLP Architect

 fa916faea0cdc005417a434721e8846f7f9bb29a

NLP Architect是一个开源Python库,由英特尔实验室的研究人员开发和开源,旨在帮助数据科学家够探索自然语言处理(NLP)和自然语言理解(NLU)领域最先进的深度学习技术。

这个库中我最喜欢的组件之一是可视化组件,可视化组件很整洁的显示模型的注释。更多NLP Architect信息请点击这里

Amazon Scraper

61cb22523ef1d4325d3a4006a6f76837d3460a5f 

Python可以让开发人员在亚马逊搜索和提取产品信息。需要分析哪些产品,只需使用该包即可,而不再需要编码来确定。只需输入想要搜索的关键字和最大产品数量(可选),就可以输出CSV格式,然后进行分析。

PIGO – Face Detection in Go

b5315c76e5567490dc924151b37de1c854bb07cd 

Pigo是基于基于像素强度比较的对象检测论文、用Go语言开发的人脸检测库。Pigo库的主要特点如下

1.处理速度快

2.在检测前不需要图像预处理

3.不需要计算积分图像,图像金字塔,HOG金字塔或其他类似的数据结构

4.人脸检测基于以二进制文件数据树结构编码的像素强度比较

RL-Adventure-2: Policy Gradients

这是所有强化学习(RL)爱好者所喜欢的库。深度学习推动了强化学习编写了一个人工智能机器人以人类专家级技能Atari游戏。 该存储库涵盖了策略梯度算法的新扩展,这是目前解决强化学习问题最受欢迎的默认选择之一。 这些扩展缩短了训练时间、优化了强化学习的整体表现。

Reddit讨论

实时手势姿态估计

57c85ea467a5e8ce9618cb8fba411154920f1f1d 

这个视频引起了数据科学家和机器学习发烧友的广泛关注,我希望你能看完这个视频,然后你就会很好地了解这项技术是如何实施的。

你会选择哪篇研究论文来证明机器学习是完美的

如果一个机器学习菜鸟或者正在寻找一些用来阅读或参考的研究论文,这是一个很好的话题这个话题中列举了一些优秀的机器学习研究论文,每个数据科学家都将从中受益匪浅。该讨论包括从基本机器学习概念(如高斯模型)到高级概念(如神经艺术风格转换),使用简单功能的增强级联等快速对象检测等论文。这是一个必读话题。

目前,我们对泛化有什么了解? 对于泛化,我们接下来应该提什么问题?

深度学习中的泛化一直是一个争议不断的话题。正如作者所说的那样,我们仍然需要在不少场景努力实现泛化。这个话题围绕目前泛化现状进行了深入探讨,以及它为什么在深度和强化学习中很难理解。这个话题帖子很长,如果你是这个领域的菜鸟,对于你来说可能会有点复杂。不过,我建议无论如何都要阅读这个话题,因为这个话题中包含了一些经验丰富和知识渊博的数据科学家的看法。

医疗行业的机器学习状况

该话题专门研究医疗行业机器学习现状。医疗领域数据科学家分享了他们工作中的经验和观点。想要查看任何生命科学领域机器学习和深度学习的任何信息,请参阅该话题!

数据科学家3年后潜在的职业发展方向

这是大多数人在进入该领域之前非常关心的一个问题。随着自动化机器学习工具的迅速采用,公司在几年内会需要数据科学家吗?本题收集了数据科学中不同人员对未来几年内的职业发展方向的看法。想要寻求职业方向的指导,请查看这一话题!

  数十款阿里云产品限时折扣中,赶紧点击领劵开始云上实践吧!

以上为译文。

本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译。

文章原标题《Don’t miss out on these awesome GitHub Repositories & Reddit Threads for Data Science & Machine Learning (May 2018)》,译者:Mags,审校:袁虎。

文章为简译,更为详细的内容,请查看原文

相关文章
|
1月前
|
机器学习/深度学习 数据采集 算法
Python机器学习:Scikit-learn库的高效使用技巧
【10月更文挑战第28天】Scikit-learn 是 Python 中最受欢迎的机器学习库之一,以其简洁的 API、丰富的算法和良好的文档支持而受到开发者喜爱。本文介绍了 Scikit-learn 的高效使用技巧,包括数据预处理(如使用 Pipeline 和 ColumnTransformer)、模型选择与评估(如交叉验证和 GridSearchCV)以及模型持久化(如使用 joblib)。通过这些技巧,你可以在机器学习项目中事半功倍。
58 3
|
2月前
|
存储 前端开发 JavaScript
🚀 10 个 GitHub 存储库,助你成为前端巨匠✨
本文介绍了10个极具价值的GitHub存储库,旨在帮助各级JavaScript开发人员提升技能。这些资源涵盖了从基本概念到高级算法、编码风格指南、面试准备等各个方面,包括经典书籍、实用工具和面试手册。无论您是刚入门的新手还是有经验的开发者,这些存储库都能为您提供丰富的学习资源,助您在JavaScript领域更进一步。探索这些资源,开启您的学习之旅吧!
72 0
🚀 10 个 GitHub 存储库,助你成为前端巨匠✨
|
3月前
|
机器学习/深度学习 算法 数据挖掘
Python数据分析革命:Scikit-learn库,让机器学习模型训练与评估变得简单高效!
在数据驱动时代,Python 以强大的生态系统成为数据科学的首选语言,而 Scikit-learn 则因简洁的 API 和广泛的支持脱颖而出。本文将指导你使用 Scikit-learn 进行机器学习模型的训练与评估。首先通过 `pip install scikit-learn` 安装库,然后利用内置数据集进行数据准备,选择合适的模型(如逻辑回归),并通过交叉验证评估其性能。最终,使用模型对新数据进行预测,简化整个流程。无论你是新手还是专家,Scikit-learn 都能助你一臂之力。
163 8
|
3月前
|
机器学习/深度学习 算法 数据挖掘
从菜鸟到大师:Scikit-learn库实战教程,模型训练、评估、选择一网打尽!
【9月更文挑战第13天】在数据科学与机器学习领域,Scikit-learn是不可或缺的工具。本文通过问答形式,指导初学者从零开始使用Scikit-learn进行模型训练、评估与选择。首先介绍了如何安装库、预处理数据并训练模型;接着展示了如何利用多种评估指标确保模型性能;最后通过GridSearchCV演示了系统化的参数调优方法。通过这些实战技巧,帮助读者逐步成长为熟练的数据科学家。
141 3
|
5月前
|
机器学习/深度学习
斯坦福大学博士在GitHub发布的漫画机器学习小抄,竟斩获129k标星
斯坦福大学数据科学博士Chris Albon在GitHub上发布了一份超火的机器学习漫画小抄,发布仅仅一天就斩获GitHub榜首标星暴涨120k,小编有幸获得了一份并把它翻译成中文版本,今天给大家分享出来!
293 14
斯坦福大学博士在GitHub发布的漫画机器学习小抄,竟斩获129k标星
|
4月前
|
机器学习/深度学习 数据采集 数据处理
神秘编程世界惊现新探索!Ruby 与机器学习究竟能碰撞出怎样的火花?科学计算库大揭秘!
【8月更文挑战第31天】本文探讨了使用Ruby进行机器学习的可能性,尽管它不像Python那样广为人知,但Ruby拥有诸如SciRuby这样的科学计算生态系统,包括NMatrix和GSL等库,适用于数据处理、矩阵运算等任务。文章还介绍了RubyFann库,用于构建和训练神经网络。通过这些库,用户能更好地理解和定制机器学习流程。
43 0
|
5月前
|
机器学习/深度学习 算法 数据挖掘
从菜鸟到大师:Scikit-learn库实战教程,模型训练、评估、选择一网打尽!
【7月更文挑战第26天】在数据科学领域, Scikit-learn是初学者通往专家之路的必备工具。
79 5
|
6月前
|
机器学习/深度学习 人工智能 算法
GitHub星标破千!斯坦福大学的284个机器学习小抄(漫画中文版)
说到人工智能必然要了解机器学习,从信息化软件,到电子商务,然后到高速发展互联网时代,到至今的云计算、大数据等,渗透到我们的生活、工作之中,在互联网的驱动下,人们更清晰的认识和使用数据,不仅仅是数据统计、分析,我们还强调数据挖掘、预测。 机器学习就是对计算机一部分数据进行学习,然后对另外一些数据进行预测与判断。 机器学习的核心是”使用算法解析数据,从中学习,然后对新数据作出决定或预测”。也就是说计算机利用已获取的数据得出某一模型,然后利用此模型进行预测的一种方法,这个过程跟人的学习过程有些类似,比如人获取一定的经验,可以对新问题进行预测。
GitHub星标破千!斯坦福大学的284个机器学习小抄(漫画中文版)
|
4月前
|
Linux 网络安全 API
【Azure 应用服务】App Service For Linux 环境中,如何从App Service中获取GitHub私有库(Private Repos)的Deploy Key(RSA key)呢?
【Azure 应用服务】App Service For Linux 环境中,如何从App Service中获取GitHub私有库(Private Repos)的Deploy Key(RSA key)呢?
|
5月前
|
机器学习/深度学习 数据采集 算法
数据海洋中的导航者:Scikit-learn库引领Python数据分析与机器学习新航向!
【7月更文挑战第26天】在数据的海洋里,Python以强大的生态成为探索者的首选,尤其Scikit-learn库(简称sklearn),作为一颗璀璨明珠,以高效、灵活、易用的特性引领数据科学家们破浪前行。无论新手还是专家,sklearn提供的广泛算法与工具支持从数据预处理到模型评估的全流程。秉承“简单有效”的设计哲学,它简化了复杂模型的操作,如线性回归等,使用户能轻松比较并选择最优方案。示例代码展示了如何简洁地实现线性回归分析,彰显了sklearn的强大能力。总之,sklearn不仅是数据科学家的利器,也是推动行业进步的关键力量。
64 3

热门文章

最新文章