知道这些用于数据科学和机器学习的GitHub存储库和Reddit主题吗？-阿里云开发者社区

知道这些用于数据科学和机器学习的GitHub存储库和Reddit主题吗？

2018-06-20 2421

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 5月最热门的GitHub存储库和顶级Reddit讨论，戳进来~

GitHub和Reddit都是比较有趣的平台，在这里，我不仅学习了数据科学的一些最佳应用，而且还了解数据科学家们是如何编程的。

一直以来，GitHub都是开发人员之间进行协作的终极平台，并且，我们也看到了据科学和机器学习社区以同样的热情来改善它。

而Reddit仍然是一个很好的数据科学领域知识和见解的来源。人们在这个平台上共享代码、数据科学新闻、寻求帮助和意见、发表研究论文等。

这篇文章总结了Reddit平台上5月份的一些关于数据科学的讨论，其中包括数据科学家在未来3年的作用以及有史以来最好的机器学习论文集。在GitHub社区中，英特尔开放了其NLP架构库，微软推出ML.NET以支持Dot Net开发者进行机器学习等。

让我们来看看GitHub上的顶级存储库以及Reddit上个月发生的有趣讨论吧。下面是之前四个月较为流行的GitHub存储库和顶级Reddit讨论（从四月起）：

ML.NET

e51fa44eb16bd50d2cca7ddad42359925263b2f3

ML.NET是一个开源机器学习框架。不需要任何构建机器学习模型的经验，机器学习和.NET开发人员就可以轻松使用.NET开发自己的模型。这是预发行版本，包含了基本的分类和回归算法。

ML.NET最初由Microsoft创建的，并且已用于各种产品，如Windows，Excel，Access，Bing等。此版本还捆绑了用于各种模型训练任务的.NET API。

NLP Architect

fa916faea0cdc005417a434721e8846f7f9bb29a

NLP Architect是一个开源Python库，由英特尔实验室的研究人员开发和开源，旨在帮助数据科学家够探索自然语言处理（NLP）和自然语言理解（NLU）领域最先进的深度学习技术。

这个库中我最喜欢的组件之一就是可视化组件，可视化组件很整洁的显示了模型的注释。更多NLP Architect的信息请点击这里。

Amazon Scraper

61cb22523ef1d4325d3a4006a6f76837d3460a5f

Python包可以让开发人员在亚马逊上搜索和提取产品信息。你需要分析哪些产品，只需使用该包即可，而不再需要编码来确定。只需输入想要搜索的关键字和最大产品数量（可选），就可以输出CSV格式，然后进行分析。

PIGO – Face Detection in Go

b5315c76e5567490dc924151b37de1c854bb07cd

Pigo是基于《基于像素强度比较的对象检测》论文、用Go语言开发的人脸检测库。Pigo库的主要特点如下：

1.处理速度快。

2.在检测前不需要做图像预处理。

3.不需要计算积分图像，图像金字塔，HOG金字塔或其他类似的数据结构。

4.人脸检测基于以二进制文件数据树结构编码的像素强度比较

RL-Adventure-2: Policy Gradients

这是所有强化学习（RL）爱好者所喜欢的库。深度学习推动了强化学习编写了一个人工智能机器人以人类专家级技能来玩Atari游戏。该存储库涵盖了策略梯度算法的新扩展，这是目前解决强化学习问题最受欢迎的默认选择之一。这些扩展缩短了训练时间、优化了强化学习的整体表现。

Reddit讨论

实时手势姿态估计

57c85ea467a5e8ce9618cb8fba411154920f1f1d

这个视频引起了数据科学家和机器学习发烧友的广泛关注，我希望你能看完这个视频，然后你就会很好地了解这项技术是如何实施的。

你会选择哪篇研究论文来证明机器学习是完美的？

如果你是一个机器学习菜鸟，又或者是正在寻找一些用来阅读或参考的研究论文，这是一个很好的话题。这个话题中列举了一些优秀的机器学习研究论文，每个数据科学家都将从中受益匪浅。该讨论包括从基本机器学习概念（如高斯模型）到高级概念（如神经艺术风格转换），使用简单功能的增强级联等快速对象检测等论文。这是一个必读话题。

目前，我们对泛化有什么了解？ 对于泛化，我们接下来应该提什么问题？

深度学习中的泛化一直都是一个争议不断的话题。正如作者所说的那样，我们仍然需要在不少场景中努力实现泛化。这个话题围绕目前泛化现状进行了深入探讨，以及它为什么在深度和强化学习中很难理解。这个话题帖子很长，如果你是这个领域的菜鸟，对于你来说可能会有点复杂。不过，我建议无论如何都要阅读这个话题，因为这个话题中包含了一些经验丰富和知识渊博的数据科学家的看法。

医疗行业的机器学习状况

该话题专门研究了医疗行业的机器学习现状。医疗领域数据科学家分享了他们工作中的经验和观点。想要查看任何生命科学领域机器学习和深度学习的任何信息，请参阅该话题！

数据科学家3年后潜在的职业发展方向

这是大多数人在进入该领域之前非常关心的一个问题。随着自动化机器学习工具的迅速采用，公司在几年内会需要数据科学家吗？本话题收集了数据科学中不同人员对未来几年内的职业发展方向的看法。想要寻求职业方向的指导，请查看这一话题！

数十款阿里云产品限时折扣中，赶紧点击领劵开始云上实践吧！

以上为译文。

本文由北邮@爱可可-爱生活老师推荐，阿里云云栖社区组织翻译。

文章原标题《Don’t miss out on these awesome GitHub Repositories & Reddit Threads for Data Science & Machine Learning (May 2018)》，译者：Mags，审校：袁虎。

文章为简译，更为详细的内容，请查看原文。

知道这些用于数据科学和机器学习的GitHub存储库和Reddit主题吗？

ML.NET

NLP Architect

Amazon Scraper

PIGO – Face Detection in Go

RL-Adventure-2: Policy Gradients

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

知道这些用于数据科学和机器学习的GitHub存储库和Reddit主题吗？

热门文章

最新文章

相关课程

相关电子书

相关实验场景