不容错过的2017数据科学15大热门GitHub项目

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介: 本文作者通过回顾2017年的数据科学发展路径,为数据科学爱好者汇总了2017年数据科学15大热门GitHub项目。

介绍:

GitHub现在不再仅仅是一个软件寄存管理器,而是软件工程师通过它来共享他们自己开发的工具/库,甚至这些资源对一些公司都很重要。作为一名狂热的数据科学爱好者,我总结了一系列在2017年尤为出名的知识库!

75941a09352ab4c78d63d5a540e33578133dd5e1

目录:

1.学习资源库

1.Awesome Data Science

2.Machine Learning / Deep Learning Cheat Sheet

3.Oxford Deep Natural Language Processing Course Lectures

4.PyTorch – Tutorial

5.Resources of NIPS 2017

2.开源软件

1.TensorFlow

2.TuriCreate – A Simplified Machine Learning Library

3.OpenPose

4.DeepSpeech

5.Mobile Deep Learning

6.Visdom

7.Deep Photo Style Transfer

8.CycleGAN

9.Seq2seq

10.Pix2code

1.学习资源

1.1:Awesome Data Science

这个GitHub是数据科学的资源指南,它是建立在多年来的积累贡献,从引导指南、信息图表到人们在Twitter,Facebook,Instagram等社交网站上的资源链接,其中有很多资源可供观看,无论是否你是初学者还是老手。

回顾一下目录中的内容,一下内容都是资源库中最具深度的代表:

e470ae93c7768485a6f0bad6f1f8122e3ca25108

1.2机器学习/深度学习备忘录

这个资源库由常用的工具和技术组成,以cheatsheets的形式编译。这些手册的范围很广,从像Pandas这样的非常简单的工具到深度学习等技术。给这些最常用的库分类完成后,你在也不需要谷歌这些工具最常用的技巧和窍门。

Cheatsheets包括:Pandas,numpy,scikit学习,matplotlib,ggplot,dplyr,tidyr,pySpark和神经网络。

1.3牛津深度自然语言处理课程讲座

斯坦福大学自然语言处理课程一直是希望进入自然语言处理领域的人士的黄金课程。但随着Deep Learning的出现,NLP取得了巨大的进步,这要归功于深度学习架构(如RNN和LSTM)的出现。

这个基于牛津大学NLP讲座的知识库将NLP的教育提高到了一个新的水平。这些讲座是使用RNN一门实践性的课程,涵盖了用语言建模,语音识别,文本到语音等。这个知识库包含了牛津讲座的所有资料,提供实用的讲义材料分配。

1.4 PyTorch - 教程

cf07d0f9f0746dfc382ad249bc03b8a0c63f9b24

从目前来看,PyTorch是Tensorflow的唯一竞争对手,并且在维护其声誉方面做得很好。随着Pythonic风格编码,动态计算以及更快的原型开发的需求,越来越多的开发者开始选择PyTorch。因此PyTorch也引起了深度学习社区的足够的重视。

1.5 NIPS 2017的资源

该知识库是NIPS 2017年会议上所有受邀讲座、教程和研讨会的资源和幻灯片清单。NIPS是一个专门针对机器学习和计算神经科学的年度会议。近几年来数据科学界的突破性研究大多是这个研讨会的研究成果,如果你想保持领先的地位,这绝对是最佳的资源!

2.开源软件

2.1 TensorFlow

9a5142029d5fd0479f9e8126d2fb42248796a61c

自TensorFlow正式发布以来,已经有2年的时间了,它一直保持着“机器学习/深度学习”顶级库的称号。Google Brain和TensorFlow背后的社区一直在积极贡献,尤其是在深度学习领域。

TensorFlow最初是作为使用数据流图进行数值计算的库而构建的。但从目前的状况来看,它可以说是建立深度学习模型的完整库。虽然TensorFlow主要支持Python,但它也支持诸如C,C ++,Java等语言。

2.2 TuriCreate-简化的机器学习库

56b201f87ca352737ad87e8d3326d68670ee1257

TuriCreate拥有易于使用的创建和部署机器学习模型的复杂任务,如对象检测,活动分类和推荐系统。

TuriCreate是专门为python开发的。TuriCreate提供的最好的功能之一是它可以轻松地将机器学习模型部署到Core ML(苹果的另一个开源软件),用于iOS,macOS,watchOS和tvOS应用。

2.3 OpenPose

27ceb21b4256e8b36d45c5c765266fbd79791465

OpenPose是一个多人关键点检测库,可帮助你以实时的速度检测图像或视频中某个人的位置。由CMU的感知计算实验室开发,OpenPose的成功证明了开源软件研究如何能够轻松应用在行业中。

OpenPose帮助解决的一个用例是活动检测。例如,由演员完成的活动可以被实时捕获。然后这些关键点和他们的动作可以用来制作动画电影。OpenPose有一个可用于访问库的C ++ API,它也有一个简单的命令行界面来处理图像或视频。

2.4 DeepSpeech

debfcf01c17d094550e4227baa816f8f99cd13f7

DeepSpeech库是由百度研究开发的语音合成技术的开源技术。它基于TensorFlow,可以专门用于Python,但也可以绑定到NodeJS,也可以在命令行上使用。

Mozilla是从头开始构建DeepSpeech的主要工作人员之一,Mozilla技术战略副总裁Sean White 曾经评价说:“只有少数满足商业质量的语音识别服务可用,主要由几个大公司提供。这项技术减少了初创公司、研究人员甚至更大的公司想要为他们的产品和服务发言的用户选择和可用功能。与社区志同道合的开发人员,公司和研究人员一起,我们已经应用了复杂的机器学习技术和各种各样的创新来构建语音到文本的引擎”

2.5移动深度学习

377e543e6208d466e62ddf850cf88de69965ce54

这个库为移动平台带来了最先进的数据科学技术。该知识库由百度研究开发,旨在将低学习模式部署在Android和IOS等移动设备上,具有低复杂度和高速度的特点。存储库本身中解释的简单用例是对象检测,它可以识别图像中的对象的确切位置。

2.6 Visdom

c8dd72fe74473e9979de222c616c8971ccf6d170

Visdom是一个支持在协作者之间广播图表、图像和文本的库。你可以以编程方式或通过UI组织可视化空间,为实时数据创建仪表板,检查实验结果或调试实验性代码。

输入到绘图函数中的输入是不同的,尽管其中大多数输入张量X比包含数据和包含可选数据变量(例如标签或时间戳)的(可选的)张量Y作为输入。它支持所有基本绘图类型来创建由Plotly支持的可视化。Visdom在Python中支持Torch和Numpy。

2.7深色照片风格转移

f0b4cc92560e9cbfbab852f7d43f5cad5999689c

这个库是基于一个研究论文,介绍了一个深度学习的方法将摄影风格转移处理大量的图像内容,同时有效的传递参考风格。该方法成功地在各种情况下产生令人满意的真实感风格的转换,包括一天中的时间,天气,季节和艺术编辑的转移。此代码基于torch。

2.8 CycleGAN

10f9087c1022c6c91e93bb7c48e1907dcf5ad32c

CycleGAN是一个有趣而且功能强大的库,展示了最先进的技术的未来。举个例子,下面的图片是这个库可以做什么的一瞥——调整图像的深度感知。这里的重点是,你没有告诉算法图片中的哪一部分需要重点关注。

这个库目前是用Lua编写的,但是它也可以在命令行中使用。

2.9 Seq2seq

Seq2seq最初是为机器翻译而开发的,但后来被开发用于各种其他任务,包括汇总、会话建模和图像字幕。只要可以将一个格式的输入数据编码成另一个问题,并将其解码为另一种格式,就可以使用这个框架。它使用Python所有流行的Tensorflow库进行编程。

2.10 Pix2code

这是一个非常令人兴奋的项目,它可以使用深度学习,尝试为给定的GUI自动生成代码。在构建网站或移动界面时,前端工程师通常必须编写耗时且无生产力的重复代码。这从本质上阻止了开发人员将大部分时间用于实现正在构建的软件的实际功能和逻辑。Pix2code可以通过自动化过程来弥补这一点。它基于一种新颖的方法,允许从单个GUI屏幕截图生成计算机令牌作为输入。

Pix2code是用python编写的,可用于将手机和网络界面的图像捕获转换为代码。

结束语:

我希望你能够了解2017年在GitHub上发布的一些新的开源工具/技术。我还列出了在GitHub上趋势的资源。如果你以前看过更多这样有用的知识库,请在下面的评论中告诉我们!

本文由北邮@爱可可-爱生老师推荐,阿里云云栖社组织翻译。

文章原标题《15 Trending Data Science GitHub Repositories you can not miss in 2017》,

作者:Sunil在印度保险行业拥有丰富经验的商业分析和智能专业人士

译者:虎说八道,审阅:

文章为简译,更为详细的内容,请查看

相关文章
|
2月前
|
开发工具 git 开发者
2024最简七步完成 将本地项目提交到github仓库方法
该文章提供了一个简洁的七步教程,指导用户如何将本地项目提交到GitHub仓库。
2024最简七步完成 将本地项目提交到github仓库方法
|
1天前
|
编解码 Oracle Java
java9到java17的新特性学习--github新项目
本文宣布了一个名为"JavaLearnNote"的新GitHub项目,该项目旨在帮助Java开发者深入理解和掌握从Java 9到Java 17的每个版本的关键新特性,并通过实战演示、社区支持和持续更新来促进学习。
13 3
|
2月前
|
Java
Java系列之 解决 项目 jar 包无法上传到Github
该博客文章介绍了解决Java项目中jar包无法上传到Github的问题,通过修改`.gitignore`文件来包含jar包,从而成功添加到上传目录。
Java系列之 解决 项目 jar 包无法上传到Github
|
2月前
|
Rust 前端开发 JavaScript
Github 2024-05-20 开源项目周报 Top15
根据Github Trendings的统计,2024年5月20日当周共有15个项目上榜。按开发语言分类,项目数量如下:Python项目5个,TypeScript项目3个,C++项目2个,Jupyter Notebook项目2个,C、Go、Rust和C#项目各1个。介绍了多个值得关注的项目,包括ChatGPT桌面应用程序、Fooocus图像生成软件、Jellyfin媒体系统等。这些项目涵盖了多种功能和技术领域,值得关注和研究。
42 3
|
2月前
|
数据采集 编解码 算法
Github | 推荐一个Python脚本集合项目
Github | 推荐一个Python脚本集合项目
|
2月前
|
SQL JavaScript 前端开发
Github 2024-08-05 开源项目周报 Top15
根据 Github Trendings 的统计,本周(2024年8月5日统计)共有15个项目上榜。以下是根据开发语言汇总的项目数量: - Go 项目:4个 - JavaScript 项目:3个 - Python 项目:3个 - Java 项目:2个 - TypeScript 项目:2个 - C 项目:1个 - Shell 项目:1个 - Dockerfile 项目:1个 - 非开发语言项目:1个
51 2
|
2月前
|
人工智能 Rust JavaScript
Github 2024-08-26 开源项目周报Top15
根据Github Trendings的统计,本周共有15个项目上榜。以下是按开发语言汇总的项目数量:Python项目8个,TypeScript、C++ 和 Rust 项目各2个,Jupyter Notebook、Shell、Swift 和 Dart 项目各1个。其中,RustDesk 是一款用 Rust 编写的开源远程桌面软件,可作为 TeamViewer 的替代品;Whisper 是一个通用的语音识别模型,基于大规模音频数据集训练而成;初学者的生成式人工智能(第2版)则是由微软提供的18门课程,教授构建生成式AI应用所需的知识。
89 1
|
2月前
|
Rust Dart 前端开发
Github 2024-08-19 开源项目周报Top15
根据Github Trendings的统计,本周(2024年8月19日统计)共有15个项目上榜。按开发语言分类,上榜项目数量如下:Python项目最多,有7项;其次是JavaScript和TypeScript,各有3项;Dart有2项;HTML、PowerShell、Clojure和C++各1项。此外,还介绍了多个热门项目,包括Bootstrap 5、RustDesk、ComfyUI、易采集、Penpot等,涵盖了Web开发、远程桌面、自动化测试、设计工具等多个领域。
86 1
|
2月前
|
JavaScript 前端开发 Go
Github 2024-08-12 开源项目周报 Top14
本周Github Trendings共有14个项目上榜,按开发语言汇总如下:Python项目7个,TypeScript项目5个,C项目2个,JavaScript项目2个,Go和Batchfile项目各1个。其中亮点包括开发者职业成长指南、Windows激活工具、ComfyUI图形界面、AFFiNE知识库、易采集可视化爬虫等项目,涵盖多种实用工具和开源平台。
62 1
|
2月前
|
存储 JavaScript 前端开发
Github 2024-07-29 开源项目周报Top15
根据 Github Trendings 的统计,本周(2024年7月29日统计)共有15个项目上榜。按开发语言分类,项目数量如下:Python、Java、HTML 和 C 项目各有2项;TypeScript、JavaScript、Vue 和 Go 各有1项;另有1项非特定语言项目、1项 Dart 项目、1项 C++ 项目、1项 Rust 项目及1项 Jupyter Notebook 项目。这些项目涵盖了多种领域,如API开发、照片管理、PDF处理、AI技术等。
48 1