阿里云 MaxCompute MaxFrame 开启免费邀测,统一 Python 开发生态
阿里云 MaxCompute MaxFrame 正式开启邀测,统一 Python 开发生态,打破大数据及 AI 开发使用边界。
基于 NVIDIA Megatron-Core 的 MoE LLM 实现和训练优化
本文将分享阿里云人工智能平台 PAI 团队与 NVIDIA Megatron-Core 团队在 MoE (Mixture of Experts) 大型语言模型(LLM)实现与训练优化上的创新工作。
ClickHouse(03)ClickHouse怎么安装和部署
本文会介绍如何安装和部署ClickHouse,官方推荐的几种安装模式,以及安装之后如何启动,ClickHouse集群如何配置等。
eBPF动手实践系列三:基于原生libbpf库的eBPF编程改进方案
为了简化 eBPF程序的开发流程,降低开发者在使用 libbpf 库时的入门难度,libbpf-bootstrap 框架应运而生。本文详细介绍基于原生libbpf库的eBPF编程改进方案。
【AAAI 2024】再创佳绩!阿里云人工智能平台PAI多篇论文入选
阿里云人工智能平台PAI发表的多篇论文在AAAI-2024上正式亮相发表。AAAI是由国际人工智能促进协会主办的年会,是人工智能领域中历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。论文成果是阿里云与浙江大学、华南理工大学联合培养项目等共同研发,深耕以通用人工智能(AGI)为目标的一系列基础科学与工程问题,包括多模态理解模型、小样本类增量学习、深度表格学习和文档版面此次入选意味着阿里云人工智能平台PAI自研的深度学习算法达到了全球业界先进水平,获得了国际学者的认可,展现了阿里云人工智能技术创新在国际上的竞争力。
DataWorks操作报错合集之在DataWorks数据开发模块中一直显示“工作空间默认初始化中”,该怎么办
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
知识图谱与大模型双向驱动的关键问题和应用探索
图谱技术积极拥抱新一代AI技术体系,如大模型(Large Language Model, LLM),实现二者的双驱动增强,定义融合互通的技术范式和关键问题,借助LLM强大的语言理解能力,为基于非/半结构化数据的图谱构建提效,同时在用户问答中,语言要素和语义结构的理解也会更加精准。
使用Transformer 模型进行时间序列预测的Pytorch代码示例
时间序列预测是一个经久不衰的主题,受自然语言处理领域的成功启发,transformer模型也在时间序列预测有了很大的发展。本文可以作为学习使用Transformer 模型的时间序列预测的一个起点。
阿里云 EMR 基于 Paimon 和 Hudi 构建 Streaming Lakehouse
Apache Paimon 和 Apache Hudi 作为数据湖存储格式,有着高吞吐的写入和低延迟的查询性能,是构建数据湖的常用组件。本文在阿里云EMR上,针对数据实时入湖场景,对 Paimon 和 Hudi 的性能进行比对,并分别以 Paimon 和 Hudi 作为统一存储搭建准实时数仓。
实战营|阿里云 x StarRocks 邀你现场体验云上极速湖仓--深圳站
1月20日深圳阿里中心,阿里云 x StarRocks 邀你现场体验云上极速湖仓实战营,从 0-1 轻松上手 StarRocks 湖仓分析。
【2023云栖】田奇铣:大模型驱动DataWorks数据开发治理平台智能化升级
随着大模型掀起AI技术革新浪潮,大数据也进入了与AI深度结合的创新时期。2023年云栖大会上,阿里云DataWorks产品负责人田奇铣发布了DataWorks Copilot、DataWorks AI增强分析、DataWorks湖仓融合数据管理等众多新产品能力,让DataWorks这款已经发展了14年的大数据开发治理平台产品,从一站式向智能化不断升级演进。
【论文解读】SMOKE 单目相机 3D目标检测(CVPR2020)
SMOKE是一种用于自动驾驶的实时单目 3D 物体检测器。为什么会注意这边文章呢?是因为这两天发布的百度Apollo 7.0 的摄像头障碍物感知,也是基于这个模型改进的;于是令我产生了一些兴趣。
SmartArXiv——基于OpenSearch LLM智能问答版构建的智能学术论文助手正式发布
本文介绍智能学术论文助手SmartArxiv的架构、应用场景和产品功能。
常用的相似度度量总结:余弦相似度,点积,L1,L2
相似性度量在机器学习中起着至关重要的作用。这些度量以数学方式量化对象、数据点或向量之间的相似性。理解向量空间中的相似性概念并采用适当的度量是解决广泛的现实世界问题的基础。本文将介绍几种常用的用来计算两个向量在嵌入空间中的接近程度的相似性度量。
NLP领域再创佳绩!阿里云机器学习平台 PAI 多篇论文入选 ACL 2023
阿里云机器学习平台PAI主导的多篇论文在ACL 2023 Industry Track上入选。
深度学习:在阿里云上搭建notebook深度学习开发环境
随着AIGC浪潮席卷,再次迎来深度学习热潮。《动手学深度学习 PyTorch版》这本书,注重实战演练,通过手动运行、编写源码可很好的加深对深度学习理论的理解,该书在B站等网站上还有李沐录制的讲解视频,降低了学习门槛,值得推荐。 在阿里云上搭建notebook开发环境过程中踩过一些坑,此文可避免读者重复踩坑。
《Apache Flink 案例集(2022版)》——2.数据分析——美团-Flink 的实时数仓平台建设(3)
《Apache Flink 案例集(2022版)》——2.数据分析——美团-Flink 的实时数仓平台建设(3)
机器学习平台PAI支持抢占型实例,模型服务最高降本90%
助力模型推理服务降本增效,适用于推理成本敏感场景,如:AIGC内容生成异步推理、批量图像处理、批量音视频处理等。
水滴筹基于阿里云 EMR StarRocks 实战分享
水滴筹大数据部门的数据开发工程师韩园园老师为大家分享水滴筹基于阿里云EMR StarRocks的实战经验。
【DSW Gallery】如何在DLC中进行Pytorch DDP分布式训练任务
本文基于Pytorch 1.8版本,介绍了如何使用DLC进行Pytorch DDP分布式训练任务.
StarRocks 2.5 LTS 版本新特性介绍及阿里云EMR Serverless StarRocks火热邀测中
StarRocks 2.5 LTS 版本于近期发布,阿里云EMR Serverless StarRocks也在火热邀测中。本文将重点介绍StarRocks 2.5版本核心功能以及阿里云EMR Serverless StarRocks特性。
阿里云EMR 2.0:重新定义新一代开源大数据平台
本次分享主要介绍了阿里云E-MapReduce的开发历程,EMR 2.0的新特性、产品架构,以及EMR 2.0在平台体验、数据开发、资源形态及分析场景等方面的全面突破与创新,重新定义新一代开源大数据平台。
Flink CDC 2.3 发布,持续优化性能,更多连接器支持增量快照,新增 Db2 支持
Flink CDC 2.3 发布,新增 Db2 数据源,MongoDB CDC 和 Oracle CDC支持增量快照,MySQL CDC 性能大幅提升
阿里云云原生一体化数仓--数据安全能力解读
云原生一体化数仓数据安全能力基于MaxCompute与DataWorks的组合能力,包括数据分级机制、敏感数据识别算法、用户权限级别和数据安全级别自动映射、数据脱敏、审批和权限回收流程、审计机制、开发生产环境隔离等安全能力,实现了端到端的安全管控能力。
IDC:阿里云获2021中国数据治理平台市场份额第一
近日,领先的IT市场研究和咨询公司IDC发布《中国数据治理市场份额,2021:广泛落地,持续增长》报告,报告统计显示2021 年中国数据治理平台市场规模达 23.9 亿元。阿里云以23.4%份额获得2021中国数据治理平台市场份额第一。
阿里超大规模 Flink 集群运维体系介绍
以智能和云原生为技术内核,建设实时计算运维管控产品,来解决超大规模 Flink 集群运维和应用运维碰到的稳定、成本、效率三大难题。
DataWorks数据质量介绍及实践 | 《一站式大数据开发治理DataWorks使用宝典》
数据质量问题虽然从数据工程师的角度来看是个简单问题,但是从业务的角度来看是个很严重的问题。所以数据质量是数据开发和治理全生命周期中,非常重要的一个环节。在DataWorks产品版图里,数据质量也是非常重要的模块之一。
MaxCompute中如何通过logview诊断慢作业
MaxCompute致力于批量结构化数据的存储和计算,提供海量数据仓库的解决方案及分析建模服务,在MaxCompute执行sql任务的时候有时候作业会很慢,本文通过查看logview排查具体任务慢的原因
来电科技:基于Flink+Hologres的实时数仓演进之路
本文将会讲述共享充电宝开创企业来电科技如何基于Flink+Hologres构建统一数据服务加速的实时数仓
大数据与机器学习
大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。