有趣的Github项目万里挑一 !(附论文、项目链接)

简介:

本文带你快速 get 每个精选Github项目的亮点和痛点,时刻紧跟 AI 前沿成果。


01

InsightFace

#基于MXNet的人脸识别开源库

e559fbc4081efb4304fe3e5080da0058f12f13cf

InsightFace 是 DeepInsight 实验室对其论文 ArcFace: Additive Angular Margin Loss for Deep Face Recognition 的开源实现。本文工作将 MegaFace 的精度提升到 98%,超过俄罗斯 Vocord 公司保持的 91% 的纪录。

此外,该项目还包括打包对齐好的人脸训练数据(MS1M 和 VGG2)、网络框架(ResNet,InceptionResNet_v2,DenseNet,DPN 和 MobiletNet)和 loss 设计(Softmax,SphereFace,AMSoftmax,CosFace 和 Triplet Loss)。

在此基础上,研究人员可以专注于人脸识别的算法实验,工业界也可以方便地根据自身需求训练,或者凭借该项目提供的高精度预训练模型进行产品化。

论文链接:https://www.paperweekly.site/ papers/1785

项目链接:https://github.com/deepinsight/ insightface


02

44ded608b3b0fef0fe3ff2d5249c16d815b3893d

#Python图像增强库

1a8c47345df08cbfac62e652cb08deb6df95f38e

Augmentor 是一个 Python 图像增强库,减少了使用图像库自己编写代码的繁杂工序,能够批量完成图像的旋转,放大,缩小,添加噪音以扩充数据量。

26a824689bb7d1180b91cc6106b233f07d130000

▲ 输入图像

d305723a598aa47c00e90e4faad2edcace709c87

▲ 输出图像

项目链接:https://github.com/mdbloice/ Augmentor


03

6054235fa820a62d43fe8fa3a3ef657173a36371

#序列距离测算

62cffba18e122902e57c46e82537c666e3272c8a

TextDistance 是一个包含 30+ 种算法的 Python 库,用于计算两个或多个序列之间的距离。

项目特性如下: 

8481c8f592b7f349aa84a1de5c171db681516edf 30+ 种算法
8481c8f592b7f349aa84a1de5c171db681516edf 纯 Python 实现
8481c8f592b7f349aa84a1de5c171db681516edf 操作简便
8481c8f592b7f349aa84a1de5c171db681516edf 支持两种以上序列对比
8481c8f592b7f349aa84a1de5c171db681516edf 部分算法具备多种实现
8481c8f592b7f349aa84a1de5c171db681516edf 支持 Numpy 获取最大速度优化

ce848c12fa15297a6d73d31a3b49b1c7781b1e02

项目链接:https://github.com/orsinium/ textdistance


04

Neural Network Voices

#模仿Kate Winslet说话

debd602cc31aeaa839d8c60cd3e9d4dda2a11c81

本项目是 Siraj Raval 在 YouTube 上发布的神经网络语音合成教学视频对应代码,如何使用深度神经网络将普通人的声音转化为英国著名女演员 Kate Winslet 的声音。本项目使用的数据集为 Kate Winslet 朗读的有声书音频。

3947c9d421e9fb23c48cf60616a849ac1c04f0b8

教学视频:https://youtu.be/6KHSPiYlZ-U

项目链接:https://github.com/llSourcell/ Neural_Network_Voices


05

Personae

#强化、监督学习在金融市场中的应用

d61cc767f193059ee63e7994b63724aa82d6d0aa

Personae 基于 TensorFlow 和 PyTorch 对深度强化学习、监督学习算法和论文进行实现,并尝试将其应用于金融市场(股市)。该项目已实现的算法包含 DDPG,Policy Gradient 和 DualAttnRNN。

5b6aaa299521378d5717a2a06cd87a4c0b27f3f5

项目链接:https://github.com/ceruleanacg/ Personae


06

NNDial

#端到端对话系统开源工具包

79057d0b552172778886b7d3f9e95e1576cd647f

NNDial 是一个用于构建端到端可训练任务型对话模型的开源工具包,本项目来自剑桥大学,使用的数据集为 CamRest676。

3e12de33fc150da8bba4bf9f24bd28c88f0d44d7

▲ 测试结果

项目链接:https://github.com/shawnwun/ NNDIAL

07

Voice Activity Detection Toolkit

#语音端点检测工具包

ae06b7387efcef4b643f7f1893faf44ca50127b0

本项目是论文 Voice Activity Detection Using an Adaptive Context Attention Model 的开源实现,此外还包含作者团队自行录制的语音数据集。

该工具包支持 4 种基于 MRCG 的分类器:

8481c8f592b7f349aa84a1de5c171db681516edf 自适应上下文注意模型(ACAM)
8481c8f592b7f349aa84a1de5c171db681516edf 增强型深度神经网络(bDNN)
8481c8f592b7f349aa84a1de5c171db681516edf 深度神经网络(DNN)

8481c8f592b7f349aa84a1de5c171db681516edf基于LSTM的循环神经网络(LSTM-RNN)

项目链接:https://github.com/jtkim-kaist/VAD

08

Knowledge Graph Representation

#用PyTorch实现知识图谱表示

84402a385acbfa06e1fcebef027c09dafeac401d

该项目整理了知识图谱表示常用的四个数据集,提供了数据清洗整理的代码,用 PyTorch 实现了四种基于平移的算法。在评估阶段,使用了多进程加速,将 MeanRank 和 Hits@10 的评估时间压缩到小于 1 分钟。

项目链接:https://github.com/jimmywang heng/knowledge_representation_pytorch


09

PyHanLP

#HanLP的Python接口

464726c4596c2d5c81f0ba0eecea2bd894a955c9

本项目是汉语言处理包 HanLP 的 Python 接口,支持自动下载与升级 HanLP,兼容 py2 和 py3。

HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

HanLP 可提供中文分词、词性标注、命名实体识别、关键词提取、文本推荐、依存句法分析、文本分类、word2vec 和语料库工具等功能。

HanLP主页:http://www.hankcs.com/nlp/ hanlp.html

项目链接:https://github.com/hankcs/pyhanlp


原文发布时间为:2018-03-30

本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”微信公众号

相关文章
|
2月前
|
开发工具 git 开发者
2024最简七步完成 将本地项目提交到github仓库方法
该文章提供了一个简洁的七步教程,指导用户如何将本地项目提交到GitHub仓库。
2024最简七步完成 将本地项目提交到github仓库方法
|
15天前
|
编解码 Oracle Java
java9到java17的新特性学习--github新项目
本文宣布了一个名为"JavaLearnNote"的新GitHub项目,该项目旨在帮助Java开发者深入理解和掌握从Java 9到Java 17的每个版本的关键新特性,并通过实战演示、社区支持和持续更新来促进学习。
53 3
|
1月前
|
Windows
github图床链接打开提示raw.githubusercontent.com无法访问解决
picgo上传图片不显示,到GitHub打开也不显示图片,粘贴链接访问提示“raw.githubusercontent.com无法访问”,百度搜索后修改了下hosts解决了。
325 2
github图床链接打开提示raw.githubusercontent.com无法访问解决
|
2月前
|
Rust 前端开发 JavaScript
Github 2024-05-20 开源项目周报 Top15
根据Github Trendings的统计,2024年5月20日当周共有15个项目上榜。按开发语言分类,项目数量如下:Python项目5个,TypeScript项目3个,C++项目2个,Jupyter Notebook项目2个,C、Go、Rust和C#项目各1个。介绍了多个值得关注的项目,包括ChatGPT桌面应用程序、Fooocus图像生成软件、Jellyfin媒体系统等。这些项目涵盖了多种功能和技术领域,值得关注和研究。
50 3
|
2月前
|
数据采集 编解码 算法
Github | 推荐一个Python脚本集合项目
Github | 推荐一个Python脚本集合项目
|
2月前
|
SQL JavaScript 前端开发
Github 2024-08-05 开源项目周报 Top15
根据 Github Trendings 的统计,本周(2024年8月5日统计)共有15个项目上榜。以下是根据开发语言汇总的项目数量: - Go 项目:4个 - JavaScript 项目:3个 - Python 项目:3个 - Java 项目:2个 - TypeScript 项目:2个 - C 项目:1个 - Shell 项目:1个 - Dockerfile 项目:1个 - 非开发语言项目:1个
65 2
|
2月前
|
人工智能 Rust JavaScript
Github 2024-08-26 开源项目周报Top15
根据Github Trendings的统计,本周共有15个项目上榜。以下是按开发语言汇总的项目数量:Python项目8个,TypeScript、C++ 和 Rust 项目各2个,Jupyter Notebook、Shell、Swift 和 Dart 项目各1个。其中,RustDesk 是一款用 Rust 编写的开源远程桌面软件,可作为 TeamViewer 的替代品;Whisper 是一个通用的语音识别模型,基于大规模音频数据集训练而成;初学者的生成式人工智能(第2版)则是由微软提供的18门课程,教授构建生成式AI应用所需的知识。
107 1
|
2月前
|
Rust Dart 前端开发
Github 2024-08-19 开源项目周报Top15
根据Github Trendings的统计,本周(2024年8月19日统计)共有15个项目上榜。按开发语言分类,上榜项目数量如下:Python项目最多,有7项;其次是JavaScript和TypeScript,各有3项;Dart有2项;HTML、PowerShell、Clojure和C++各1项。此外,还介绍了多个热门项目,包括Bootstrap 5、RustDesk、ComfyUI、易采集、Penpot等,涵盖了Web开发、远程桌面、自动化测试、设计工具等多个领域。
97 1
|
2月前
|
JavaScript 前端开发 Go
Github 2024-08-12 开源项目周报 Top14
本周Github Trendings共有14个项目上榜,按开发语言汇总如下:Python项目7个,TypeScript项目5个,C项目2个,JavaScript项目2个,Go和Batchfile项目各1个。其中亮点包括开发者职业成长指南、Windows激活工具、ComfyUI图形界面、AFFiNE知识库、易采集可视化爬虫等项目,涵盖多种实用工具和开源平台。
86 1
|
2月前
|
存储 JavaScript 前端开发
Github 2024-07-29 开源项目周报Top15
根据 Github Trendings 的统计,本周(2024年7月29日统计)共有15个项目上榜。按开发语言分类,项目数量如下:Python、Java、HTML 和 C 项目各有2项;TypeScript、JavaScript、Vue 和 Go 各有1项;另有1项非特定语言项目、1项 Dart 项目、1项 C++ 项目、1项 Rust 项目及1项 Jupyter Notebook 项目。这些项目涵盖了多种领域,如API开发、照片管理、PDF处理、AI技术等。
56 1