【持续更新】阿里云大数据&AI开源项目合集

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 阿里云大数据&AI开源项目合集,了解全部阿里云AI&大数据开源项目,欢迎加入。

了解全部阿里云AI&大数据开源项目,点击链接https://www.aliyun.com/activity/bigdata/opensource_bigdata__ai

----------------------------------------------------------------

2023年

4月新开源项目,邀您加入

1.TePDist

简介:TePDist是阿里云PAI团队自研的基于HLO IR层的全自动分布式深度学习系统,它不仅仅是一个分布式Compiler,还拥有自己的分布式Runtime,有效地解决了深度学习模型并行策略的自动搜索与分布式策略实施问题。

Github地址:https://github.com/alibaba/TePDist


2022年

5月新开源项目,邀您加入

1.HybridBackend

简介:HybridBackend是阿里云机器学习平台PAI自研的、面向稀疏模型训练的高性能同步训练框架系统,核心能力是大幅提升GPU集群单位成本下的训练吞吐性能。

Github地址:GitHub - alibaba/HybridBackend

4月新开源项目,邀您加入

1.EasyNLP

简介:EasyNLP 是 PyTorch 中易于使用的 NLP 开发和应用工具包,于 2021 年在阿里巴巴内部首次发布。它采用可扩展的分布式训练策略构建,并支持适用于各种 NLP 应用的一整套 NLP 算法。EasyNLP 集成了知识蒸馏和few-shot learning,用于落地大型预训练模型,并为实际应用提供模型训练、推理和部署的统一框架。

Github地址:https://github.com/alibaba/EasyNLPhttps:P

2.EasyCV

简介:EasyCV是阿里巴巴开源的基于Pytorch,以自监督学习和Transformer技术为核心的 all-in-one 视觉算法建模工具。EasyCV在阿里巴巴集团内支撑了搜索、淘系、优酷、飞猪等多个BU业务,同时也在阿里云上服务了若干企业客户。

Github地址:https://github.com/alibaba/EasyCVhttps:/

3月新开源项目,邀您加入

1、DeepRec

简介:DeepRec是阿里巴巴集团统一的稀疏模型场景训练引擎,支持了主搜索、首猜、定向广告、直通车广告等核心业务,支撑千亿特征、万亿样本超大规模稀疏训练。

Github地址:https://github.com/alibaba/DeepRec

2、BladeDISC

简介:BladeDISC 是针对机器学习工作负载的端到端动态形状编译器项目,是阿里巴巴PAI-Blade的关键组件之一 。该项目基于MLIR,与 mlir-hlo项目高度相关。

Github地址:https://github.com/alibaba/BladeDISC

3、EPL(Easy Parallel Library)

简介:EPL(Easy Parallel Library) 是统一多种并行策略的、灵活易用的自研分布式深度学习训练框架。

Github地址:https://github.com/alibaba/easyparallellibrary

4、云原生大数据运维平台SREWorks

简介:SREWorks 作为阿里云大数据SRE团队对SRE理念的工程实践,专注于以应用为中心的一站式“云原生”、“数智化”运维 SaaS 管理套件,提供企业应用&资源管理及运维开发两大核心能力,帮助企业实现云原生应用&资源的交付运维。

Github地址:https://github.com/alibaba/sreworks



全部AI开源项目

1.BladeDISC

简介:BladeDISC 是针对机器学习工作负载的端到端动态形状编译器项目,是阿里巴巴PAI-Blade的关键组件之一 。该项目基于MLIR,与 mlir-hlo项目高度相关。

Github地址:https://github.com/alibaba/BladeDISC


2.Graph-Learn

简介:Graph-Learn是面向大规模图神经网络的研发和应用而设计的分布式框架。 从大规模图训练实际问题出发,提炼抽象了一套适合于常见图神经网络模型的编程范式。

Github地址:https://github.com/alibaba/graph-learn


3.DeepRec

简介:DeepRec是阿里巴巴集团统一的稀疏模型场景训练引擎,支持了主搜索、首猜、定向广告、直通车广告等核心业务,支撑千亿特征、万亿样本超大规模稀疏训练。

Github地址:https://github.com/alibaba/DeepRec


4.Proxima Bilin Engine

简介:Proxima 是阿里巴巴达摩院系统 AI 实验室自研的向量检索内核。核心能力广泛应用于阿里巴巴和蚂蚁集团众多业务,如淘宝搜索和推荐、优酷视频搜索等。

Github地址:https://github.com/alibaba/proximabilin


5.EasyRec

简介:EasyRec实现了先进的深度学习模型,用于常见的推荐任务,在模型、调参、性能优化等方面具有显著的优势。

Github地址:https://github.com/alibaba/EasyRec


6.Easy Reinforcement Learning

简介:基于tensorflow引擎搭建的深度强化学习算法库,支持大规模分布式训练的actor-learner架构,具备轻量化,模块化等特点,经过阿里集团多业务场景打磨。

Github地址:https://github.com/alibaba/EasyRL


7.EasyTransfer

简介:EasyTransfer致力于让自然语言处理场景的迁移学习开发与部署更加简单,降低NLP的预训练和知识迁移的门槛。

Github地址:https://github.com/alibaba/EasyTransfer


8.Alink

简介:基于Flink的机器学习算法平台,提供丰富的算法组件。2017年研发,2019年开源,去年Flink社区将机器学习作为重点领域,我们将Alink贡献到Flink,成为FlinkML。

Github地址:https://github.com/alibaba/Alink


9.EPL(Easy Parallel Library)

简介:EPL(Easy Parallel Library) 是统一多种并行策略的、灵活易用的自研分布式深度学习训练框架。

Github地址:https://github.com/alibaba/easyparallellibrary


10.EasyNLP

简介:EasyNLP 是 PyTorch 中易于使用的 NLP 开发和应用工具包,于 2021 年在阿里巴巴内部首次发布。它采用可扩展的分布式训练策略构建,并支持适用于各种 NLP 应用的一整套 NLP 算法。EasyNLP 集成了知识蒸馏和few-shot learning,用于落地大型预训练模型,并为实际应用提供模型训练、推理和部署的统一框架。

Github地址:https://github.com/alibaba/EasyNLPhttps:P

11.EasyCV

简介:EasyCV是阿里巴巴开源的基于Pytorch,以自监督学习和Transformer技术为核心的 all-in-one 视觉算法建模工具。EasyCV在阿里巴巴集团内支撑了搜索、淘系、优酷、飞猪等多个BU业务,同时也在阿里云上服务了若干企业客户。

Github地址:https://github.com/alibaba/EasyCVhttp


12.HybridBackend

简介:HybridBackend是阿里云机器学习平台PAI自研的、面向稀疏模型训练的高性能同步训练框架系统,核心能力是大幅提升GPU集群单位成本下的训练吞吐性能。

Github地址:GitHub - alibaba/HybridBackend


13.TePDist

简介:TePDist是阿里云PAI团队自研的基于HLO IR层的全自动分布式深度学习系统,它不仅仅是一个分布式Compiler,还拥有自己的分布式Runtime,有效地解决了深度学习模型并行策略的自动搜索与分布式策略实施问题。

Github地址:https://github.com/alibaba/TePDist

全部大数据开源项目

1.Apache Flink

简介:Apache Flink是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。能在所有常见集群环境中运行,以内存速度和任意规模进行计算。

Github地址:https://github.com/apache/flink


2.Flink CDC

简介:Flink CDC Connectors 是Apache Flink的一组源连接器,使用变更数据捕获 (CDC) 从不同的数据库中获取变更。

Github地址:https://github.com/ververica/flink-cdc-connectors


3.flink-extended/dl-on-flink

简介:Deep Learning on Flink 旨在整合 Flink 和深度学习框架(例如 TensorFlow、PyTorch 等),以在 Flink 集群上实现分布式深度学习训练和推理。

Github地址:https://github.com/flink-extended/dl-on-flink


4.Flink Remote Shuffle

简介:本项目通过采用存储和计算分离的架构,实现了Flink批量数据处理的远程 shuffle 服务。

Github地址:https://github.com/flink-extended/flink-remote-shuffle


5.flink-extended/clink

简介:Clink 是一个提供 API 和基础设施的库,以促进可在 C++ 和 Java 运行时中使用的可并行特征工程运算符的开发。

Github地址:https://github.com/flink-extended/clink


6.apache/flink-ml

简介:Flink ML 是一个提供机器学习 (ML) API 和基础设施的库,可简化ML管道的构建。用户可以使用标准ML API实现ML算法,构建用于训练和推理作业的ML管道。

Github地址:https://github.com/apache/flink-ml


7.EMR remote shuffle service

简介:Aliyun Remote Shuffle Service(RSS)致力于提高不同map-reduce引擎的效率和弹性。RSS 为 shuffle 数据提供了一种弹性、高效的管理服务。

Github地址:https://github.com/alibaba/RemoteShuffleService


8.云原生大数据运维平台SREWorks

简介:SREWorks 作为阿里云大数据SRE团队对SRE理念的工程实践,专注于以应用为中心的一站式“云原生”、“数智化”运维 SaaS 管理套件,提供企业应用&资源管理及运维开发两大核心能力,帮助企业实现云原生应用&资源的交付运维。

Github地址:https://github.com/alibaba/sreworks



相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
19天前
|
人工智能 算法 计算机视觉
【01】opencv项目实践第一步opencv是什么-opencv项目实践-opencv完整入门以及项目实践介绍-opencv以土壤和水滴分离的项目实践-人工智能AI项目优雅草卓伊凡
【01】opencv项目实践第一步opencv是什么-opencv项目实践-opencv完整入门以及项目实践介绍-opencv以土壤和水滴分离的项目实践-人工智能AI项目优雅草卓伊凡
115 62
【01】opencv项目实践第一步opencv是什么-opencv项目实践-opencv完整入门以及项目实践介绍-opencv以土壤和水滴分离的项目实践-人工智能AI项目优雅草卓伊凡
|
3天前
|
人工智能 自然语言处理 测试技术
Potpie.ai:比Copilot更狠!这个AI直接接管项目代码,自动Debug+测试+开发全搞定
Potpie.ai 是一个基于 AI 技术的开源平台,能够为代码库创建定制化的工程代理,自动化代码分析、测试和开发任务。
93 19
Potpie.ai:比Copilot更狠!这个AI直接接管项目代码,自动Debug+测试+开发全搞定
|
1月前
|
人工智能 数据处理 语音技术
Pipecat实战:5步快速构建语音与AI整合项目,创建你的第一个多模态语音 AI 助手
Pipecat 是一个开源的 Python 框架,专注于构建语音和多模态对话代理,支持与多种 AI 服务集成,提供实时处理能力,适用于语音助手、企业服务等场景。
108 23
Pipecat实战:5步快速构建语音与AI整合项目,创建你的第一个多模态语音 AI 助手
|
1月前
|
机器学习/深度学习 人工智能 分布式计算
我的阿里云社区年度总结报告:Python、人工智能与大数据领域的探索之旅
我的阿里云社区年度总结报告:Python、人工智能与大数据领域的探索之旅
117 35
|
1月前
|
数据采集 人工智能 分布式计算
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
阿里云推出的MaxFrame是链接大数据与AI的分布式Python计算框架,提供类似Pandas的操作接口和分布式处理能力。本文从部署、功能验证到实际场景全面评测MaxFrame,涵盖分布式Pandas操作、大语言模型数据预处理及企业级应用。结果显示,MaxFrame在处理大规模数据时性能显著提升,代码兼容性强,适合从数据清洗到训练数据生成的全链路场景...
96 5
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
|
1月前
|
人工智能 分布式计算 DataWorks
大数据& AI 产品月刊【2024年12月】
大数据& AI 产品技术月刊【2024年12月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
1月前
|
人工智能 分布式计算 大数据
MaxFrame 产品评测:大数据与AI融合的Python分布式计算框架
MaxFrame是阿里云MaxCompute推出的自研Python分布式计算框架,支持大规模数据处理与AI应用。它提供类似Pandas的API,简化开发流程,并兼容多种机器学习库,加速模型训练前的数据准备。MaxFrame融合大数据和AI,提升效率、促进协作、增强创新能力。尽管初次配置稍显复杂,但其强大的功能集、性能优化及开放性使其成为现代企业与研究机构的理想选择。未来有望进一步简化使用门槛并加强社区建设。
80 7
|
1月前
|
存储 人工智能 数据管理
媒体声音|专访阿里云数据库周文超博士:AI就绪的智能数据平台设计思路
在生成式AI的浪潮中,数据的重要性日益凸显。大模型在实际业务场景的落地过程中,必须有海量数据的支撑:经过训练、推理和分析等一系列复杂的数据处理过程,才能最终产生业务价值。事实上,大模型本身就是数据处理后的产物,以数据驱动的决策与创新需要通过更智能的平台解决数据多模处理、实时分析等问题,这正是以阿里云为代表的企业推动 “Data+AI”融合战略的核心动因。
|
机器学习/深度学习 人工智能 算法
AI项目成功的4要素
如何确保你的项目保持在正轨上。如果你是产品经理,想要用机器学习来做一些事情,这里列出了 4 件最重要的事情
|
16天前
|
人工智能 自然语言处理 搜索推荐
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
95 24
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人

热门文章

最新文章