【持续更新】阿里云大数据&AI开源项目合集

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 阿里云大数据&AI开源项目合集,了解全部阿里云AI&大数据开源项目,欢迎加入。

了解全部阿里云AI&大数据开源项目,点击链接https://www.aliyun.com/activity/bigdata/opensource_bigdata__ai

----------------------------------------------------------------

2023年

4月新开源项目,邀您加入

1.TePDist

简介:TePDist是阿里云PAI团队自研的基于HLO IR层的全自动分布式深度学习系统,它不仅仅是一个分布式Compiler,还拥有自己的分布式Runtime,有效地解决了深度学习模型并行策略的自动搜索与分布式策略实施问题。

Github地址:https://github.com/alibaba/TePDist


2022年

5月新开源项目,邀您加入

1.HybridBackend

简介:HybridBackend是阿里云机器学习平台PAI自研的、面向稀疏模型训练的高性能同步训练框架系统,核心能力是大幅提升GPU集群单位成本下的训练吞吐性能。

Github地址:GitHub - alibaba/HybridBackend

4月新开源项目,邀您加入

1.EasyNLP

简介:EasyNLP 是 PyTorch 中易于使用的 NLP 开发和应用工具包,于 2021 年在阿里巴巴内部首次发布。它采用可扩展的分布式训练策略构建,并支持适用于各种 NLP 应用的一整套 NLP 算法。EasyNLP 集成了知识蒸馏和few-shot learning,用于落地大型预训练模型,并为实际应用提供模型训练、推理和部署的统一框架。

Github地址:https://github.com/alibaba/EasyNLPhttps:P

2.EasyCV

简介:EasyCV是阿里巴巴开源的基于Pytorch,以自监督学习和Transformer技术为核心的 all-in-one 视觉算法建模工具。EasyCV在阿里巴巴集团内支撑了搜索、淘系、优酷、飞猪等多个BU业务,同时也在阿里云上服务了若干企业客户。

Github地址:https://github.com/alibaba/EasyCVhttps:/

3月新开源项目,邀您加入

1、DeepRec

简介:DeepRec是阿里巴巴集团统一的稀疏模型场景训练引擎,支持了主搜索、首猜、定向广告、直通车广告等核心业务,支撑千亿特征、万亿样本超大规模稀疏训练。

Github地址:https://github.com/alibaba/DeepRec

2、BladeDISC

简介:BladeDISC 是针对机器学习工作负载的端到端动态形状编译器项目,是阿里巴巴PAI-Blade的关键组件之一 。该项目基于MLIR,与 mlir-hlo项目高度相关。

Github地址:https://github.com/alibaba/BladeDISC

3、EPL(Easy Parallel Library)

简介:EPL(Easy Parallel Library) 是统一多种并行策略的、灵活易用的自研分布式深度学习训练框架。

Github地址:https://github.com/alibaba/easyparallellibrary

4、云原生大数据运维平台SREWorks

简介:SREWorks 作为阿里云大数据SRE团队对SRE理念的工程实践,专注于以应用为中心的一站式“云原生”、“数智化”运维 SaaS 管理套件,提供企业应用&资源管理及运维开发两大核心能力,帮助企业实现云原生应用&资源的交付运维。

Github地址:https://github.com/alibaba/sreworks



全部AI开源项目

1.BladeDISC

简介:BladeDISC 是针对机器学习工作负载的端到端动态形状编译器项目,是阿里巴巴PAI-Blade的关键组件之一 。该项目基于MLIR,与 mlir-hlo项目高度相关。

Github地址:https://github.com/alibaba/BladeDISC


2.Graph-Learn

简介:Graph-Learn是面向大规模图神经网络的研发和应用而设计的分布式框架。 从大规模图训练实际问题出发,提炼抽象了一套适合于常见图神经网络模型的编程范式。

Github地址:https://github.com/alibaba/graph-learn


3.DeepRec

简介:DeepRec是阿里巴巴集团统一的稀疏模型场景训练引擎,支持了主搜索、首猜、定向广告、直通车广告等核心业务,支撑千亿特征、万亿样本超大规模稀疏训练。

Github地址:https://github.com/alibaba/DeepRec


4.Proxima Bilin Engine

简介:Proxima 是阿里巴巴达摩院系统 AI 实验室自研的向量检索内核。核心能力广泛应用于阿里巴巴和蚂蚁集团众多业务,如淘宝搜索和推荐、优酷视频搜索等。

Github地址:https://github.com/alibaba/proximabilin


5.EasyRec

简介:EasyRec实现了先进的深度学习模型,用于常见的推荐任务,在模型、调参、性能优化等方面具有显著的优势。

Github地址:https://github.com/alibaba/EasyRec


6.Easy Reinforcement Learning

简介:基于tensorflow引擎搭建的深度强化学习算法库,支持大规模分布式训练的actor-learner架构,具备轻量化,模块化等特点,经过阿里集团多业务场景打磨。

Github地址:https://github.com/alibaba/EasyRL


7.EasyTransfer

简介:EasyTransfer致力于让自然语言处理场景的迁移学习开发与部署更加简单,降低NLP的预训练和知识迁移的门槛。

Github地址:https://github.com/alibaba/EasyTransfer


8.Alink

简介:基于Flink的机器学习算法平台,提供丰富的算法组件。2017年研发,2019年开源,去年Flink社区将机器学习作为重点领域,我们将Alink贡献到Flink,成为FlinkML。

Github地址:https://github.com/alibaba/Alink


9.EPL(Easy Parallel Library)

简介:EPL(Easy Parallel Library) 是统一多种并行策略的、灵活易用的自研分布式深度学习训练框架。

Github地址:https://github.com/alibaba/easyparallellibrary


10.EasyNLP

简介:EasyNLP 是 PyTorch 中易于使用的 NLP 开发和应用工具包,于 2021 年在阿里巴巴内部首次发布。它采用可扩展的分布式训练策略构建,并支持适用于各种 NLP 应用的一整套 NLP 算法。EasyNLP 集成了知识蒸馏和few-shot learning,用于落地大型预训练模型,并为实际应用提供模型训练、推理和部署的统一框架。

Github地址:https://github.com/alibaba/EasyNLPhttps:P

11.EasyCV

简介:EasyCV是阿里巴巴开源的基于Pytorch,以自监督学习和Transformer技术为核心的 all-in-one 视觉算法建模工具。EasyCV在阿里巴巴集团内支撑了搜索、淘系、优酷、飞猪等多个BU业务,同时也在阿里云上服务了若干企业客户。

Github地址:https://github.com/alibaba/EasyCVhttp


12.HybridBackend

简介:HybridBackend是阿里云机器学习平台PAI自研的、面向稀疏模型训练的高性能同步训练框架系统,核心能力是大幅提升GPU集群单位成本下的训练吞吐性能。

Github地址:GitHub - alibaba/HybridBackend


13.TePDist

简介:TePDist是阿里云PAI团队自研的基于HLO IR层的全自动分布式深度学习系统,它不仅仅是一个分布式Compiler,还拥有自己的分布式Runtime,有效地解决了深度学习模型并行策略的自动搜索与分布式策略实施问题。

Github地址:https://github.com/alibaba/TePDist

全部大数据开源项目

1.Apache Flink

简介:Apache Flink是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。能在所有常见集群环境中运行,以内存速度和任意规模进行计算。

Github地址:https://github.com/apache/flink


2.Flink CDC

简介:Flink CDC Connectors 是Apache Flink的一组源连接器,使用变更数据捕获 (CDC) 从不同的数据库中获取变更。

Github地址:https://github.com/ververica/flink-cdc-connectors


3.flink-extended/dl-on-flink

简介:Deep Learning on Flink 旨在整合 Flink 和深度学习框架(例如 TensorFlow、PyTorch 等),以在 Flink 集群上实现分布式深度学习训练和推理。

Github地址:https://github.com/flink-extended/dl-on-flink


4.Flink Remote Shuffle

简介:本项目通过采用存储和计算分离的架构,实现了Flink批量数据处理的远程 shuffle 服务。

Github地址:https://github.com/flink-extended/flink-remote-shuffle


5.flink-extended/clink

简介:Clink 是一个提供 API 和基础设施的库,以促进可在 C++ 和 Java 运行时中使用的可并行特征工程运算符的开发。

Github地址:https://github.com/flink-extended/clink


6.apache/flink-ml

简介:Flink ML 是一个提供机器学习 (ML) API 和基础设施的库,可简化ML管道的构建。用户可以使用标准ML API实现ML算法,构建用于训练和推理作业的ML管道。

Github地址:https://github.com/apache/flink-ml


7.EMR remote shuffle service

简介:Aliyun Remote Shuffle Service(RSS)致力于提高不同map-reduce引擎的效率和弹性。RSS 为 shuffle 数据提供了一种弹性、高效的管理服务。

Github地址:https://github.com/alibaba/RemoteShuffleService


8.云原生大数据运维平台SREWorks

简介:SREWorks 作为阿里云大数据SRE团队对SRE理念的工程实践,专注于以应用为中心的一站式“云原生”、“数智化”运维 SaaS 管理套件,提供企业应用&资源管理及运维开发两大核心能力,帮助企业实现云原生应用&资源的交付运维。

Github地址:https://github.com/alibaba/sreworks



相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
9天前
|
人工智能 分布式计算 DataWorks
连续四年!阿里云领跑中国公有云大数据平台
近日,国际数据公司(IDC)发布《中国大数据平台市场份额,2023:数智融合时代的真正到来》报告——2023年中国大数据平台公有云服务市场规模达72.2亿元人民币,其中阿里巴巴市场份额保持领先,占比达40.2%,连续四年排名第一。
49 12
|
15天前
|
人工智能 Cloud Native 数据管理
重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
阿里云发布首个AI多模数据管理平台DMS,助力业务决策提效10倍
106 17
|
10天前
|
数据采集 人工智能 安全
AI项目高昂成本与数据问题阻碍进展,2025年前30%的GenAI项目或将搁浅
AI项目高昂成本与数据问题阻碍进展,2025年前30%的GenAI项目或将搁浅
|
8天前
|
SQL 人工智能 大数据
首个大数据批流融合国家标准正式发布,阿里云为牵头起草单位!
近日,国家市场监督管理总局、国家标准化管理委员会正式发布大数据领域首个批流融合国家标准 GB/T 44216-2024《信息技术 大数据 批流融合计算技术要求》,该标准由阿里云牵头起草,并将于2025年2月1日起正式实施。
|
9天前
|
SQL 人工智能 大数据
阿里云牵头起草!首个大数据批流融合国家标准发布
近日,国家市场监督管理总局、国家标准化管理委员会正式发布大数据领域首个批流融合国家标准GB/T 44216-2024《信息技术 大数据 批流融合计算技术要求》,该标准由阿里云牵头起草,并将于2025年2月1日起正式实施。
42 1
|
13天前
RTX3090可跑,360AI团队开源最新视频模型FancyVideo
【9月更文挑战第23天】近年来,人工智能技术的迅猛发展推动了视频生成领域的进步,但在合成动态、连贯且时长较长的视频方面仍面临挑战。为此,360AI团队提出了FancyVideo模型,通过跨帧文本指导实现更为连贯的视频生成。FancyVideo引入了跨帧文本指导模块(CTGM),包含时间信息注入器(TII)、时间相关性优化器(TAR)和时间特征增强器(TFB)三个组件,分别负责注入帧特定信息、优化相关性和增强时间一致性。这些机制使模型能生成具有连贯动作和丰富运动的视频,适用于动画制作和视频编辑等领域。然而,FancyVideo也存在计算复杂度高和细节真实感提升空间等局限。
27 3
|
29天前
|
存储 SQL 分布式计算
Java连接阿里云MaxCompute例
要使用Java连接阿里云MaxCompute数据库,首先需在项目中添加MaxCompute JDBC驱动依赖,推荐通过Maven管理。避免在代码中直接写入AccessKey,应使用环境变量或配置文件安全存储。示例代码展示了如何注册驱动、建立连接及执行SQL查询。建议使用RAM用户提升安全性,并根据需要配置时区和公网访问权限。具体步骤和注意事项请参考阿里云官方文档。
|
28天前
|
人工智能 自然语言处理 数据挖掘
【通义】AI视界|性能超越GPT-4o?最强大的开源AI模型来了……
本文介绍了五项最新AI技术动态,包括性能超越GPT-4o的开源AI模型Reflection70B、智谱清言App限时免费的视频通话功能、哈佛医学院研发的癌症诊断AI模型CHIEF、Replit推出的AI编程助手,以及英特尔与日本AIST合作设立的芯片制造研发中心。这些进展展示了AI领域的快速创新与广泛应用。更多详情,请访问通义官网体验。
|
8天前
|
人工智能 自然语言处理 Linux
Llama 3.2:开源可定制视觉模型,引领边缘AI革命
Llama 3.2 系列 11B 和 90B 视觉LLM,支持图像理解,例如文档级理解(包括图表和图形)、图像字幕以及视觉基础任务(例如基于自然语言描述在图像中精确定位对象)。
下一篇
无影云桌面