|
机器学习/深度学习 SQL 分布式计算
|

最佳实践 | Flink Forward 全球会议抢先看!

来了!我们把 Apache 顶级项目盛会搬到线上,4月25-26日,Flink Forward 全球在线会议精华版直播将正式上线,该系列直播均为中文版,精选大会优质内容由 Apache Flink 核心贡献者们对原版英文 talk 进行翻译及解说,您可直接免费在线观看!

1625 0
来自: 实时计算 Flink  版块
|
分布式计算 Spark
|

钉钉群直播【Koalas 介绍】

Koalas是Spark社区推出的新项目,旨在为Spark提供与pandas完全兼容的接口,在降低pandas用户的学习和迁移成本的同时,充分利用Spark强大的分布式处理能力。本次分享介绍Koalas的基本用法和原理。

3583 0

雾霾天气预测

通过分析2016年一年来的空气指标数据探查雾霾成因,最终成功挖掘出影响雾霾的最关键因素是二氧化氮的排放量。使用了统计分析组件、逻辑回归以及随机森林。<br />数据源:国家气象局数据<br />数据大小:37.3 KB<br />字段数量:7<br />使用组件:归一化,拆分,SQL脚本,读数据表,类型转换<br />

1082 0
来自: 人工智能平台PAI  版块
|
分布式计算 MaxCompute
|

【MaxCompute季报】MaxCompute新功能发布 2019Q2

2019年Q2 MaxCompute发布了一系列新功能。 本文对主要新功能和增强功能进行了概述。 SQL新功能 华北张家口节点正式开服售卖 国际Region Spark商业化发布 存储降价 元数据服务Information Schema MaxCompute搬站迁移工具MMA 数据脱敏 Tunn...

1198 0
来自: 大数据计算 MaxCompute  版块
|
搜索推荐
|

CTR中的GBDT+LR 融合方案_副本

实现GBDT与LR的融合<br />数据源:<br />数据大小:1.54 MB<br />字段数量:20<br />使用组件:拆分,读数据表,特征编码<br />

1065 0
来自: 人工智能平台PAI  版块
|
存储 机器学习/深度学习 分布式计算
|

HDFS Federation简介

背景 熟悉大数据的人应该都知道,HDFS 是一个分布式文件系统,它是基于谷歌的 GFS 思路实现的开源系统,它的设计目的就是提供一个高度容错性和高吞吐量的海量数据存储解决方案。在经典的 HDFS 架构中有2个 NameNode 和多个 DataNode 的,如下: 从上面可以看出 HDFS 的架构其实大致可以分为两层: Namespace:由目录,文件和数据块组成,支持常见的文件系统操作,例如创建,删除,修改和列出文件和目录。

2917 0
|
消息中间件 存储 安全
|

Flink kafka source & sink 源码解析

本文基于 Flink 1.9.0 和 Kafka 2.3 版本,对 Flink Kafka source 和 sink 端的源码进行解析,主要分为 Flink-kafka-source 源码解析、Flink-kafka-sink 源码解析两部分。

2950 0
来自: 实时计算 Flink  版块
|
存储 缓存 分布式计算
|

7月31日Spark钉钉群直播【Apache Spark 在存储计算分离趋势下的数据缓存】

在数据上云的大背景下,存储计算分离逐渐成为了大数据处理的一大趋势,计算引擎需要通过网络读写远端的数据,很多情况下 IO 成为了整个计算任务的瓶颈,因而数据缓存成为此类场景下的一个重要的优化手段。本次分享将介绍 Spark 在数据缓存上的一些做法,并将介绍 EMR 自研的 Jindo 存储系统在数据缓存上的应用。

1250 0
|
搜索推荐 算法 人工智能
|

当搜索推荐遇到广告 - 三位一体的AI·OS技术新体系

AI·OS是由阿里巴巴搜索工程团队负责,集个性化搜索、推荐、广告三位一体的技术平台。本次分享来自该团队资深算法专家喜德,为大家带来这一年里,搜索工程体系在阿里巴巴内网及开源平台上的最新技术成果。

3222 0
来自: 智能搜索推荐  版块
|
SQL 存储 分布式计算
|

如何在Spark中实现Count Distinct重聚合

背景 Count Distinct是SQL查询中经常使用的聚合统计方式,用于计算非重复结果的数目。由于需要去除重复结果,Count Distinct的计算通常非常耗时。为了支持更快速的非重复结果统计Spark还基于Hyperloglog实现了Approximate Count Distinct,用于统计非重复结果的近似值,支持。

3795 0

CTR_GBDT_LR_TEST

实战分享:CTR中的GBDT+LR融合方案<br />数据源:internet<br />数据大小:770 KB<br />字段数量:20<br />使用组件:拆分,读数据表,特征编码<br />

878 0
来自: 人工智能平台PAI  版块
|
分布式计算 Spark 开发者
|

7月24日阿里云峰会.上海 开发者大会回看

阿里云峰会.上海 开发者大会将在上海世博中心盛大启程,与未来世界的开发者们分享开源大数据、IT基础设施云化、数据库、云原生、物联网等领域的技术干货,共同探讨前沿科技趋势,分析阿里云在一线生产场景的最佳实践,携手合作伙伴及广大开发者们共建云上开发新时代,让我们一起code up!

881 0
|
SQL 机器学习/深度学习 新零售
|

实时数仓、1.10生产实践、AI 都来了,2020 首场 Flink 社区 Meetup,可!

5月16日,2020 首场 Meetup 重磅上线。一如既往,本次 Meetup 邀请了来自袋鼠云、网易云音乐、有赞及阿里巴巴的四位技术专家为您现场直播,让您足不出户,有直播看、有干货学、有奖品拿~

1450 0
来自: 实时计算 Flink  版块

testdate

股票<br />数据源:pufa<br />数据大小:12.4 KB<br />字段数量:6<br />使用组件:读数据表,SQL脚本<br />

766 0
来自: 人工智能平台PAI  版块

test_multiEvaluation

多分类评估<br />数据源:多分类评估<br />数据大小:779 KB<br />字段数量:42<br />使用组件:读数据表<br />

739 0
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 算法 搜索推荐
|

原来GNN这么好上手,OMG!用它!

GraphLearn(GL)是阿里巴巴开源的一个大规模图神经网络平台,本文将对GL的接口做基本介绍,帮助用户快速上手。项目地址:https://github.com/alibaba/graph-learn 。

1974 0
来自: 人工智能平台PAI  版块
|
分布式计算 MaxCompute 消息中间件
|

业务流程多节点依赖调度配置实践

在DataWorks业务流程开发过程。一个业务流程通常是由很多个数据同步、数据开发节点组成的。这很多个业务节点的上下游节点的连接通过执行顺序先后进行连接,系统自动就行上下游解析。这里主要用于测试在一个业务流程过程中根据业务需求进行节点连接之后自动解析上下游是否会发生错误。

1397 0
来自: 大数据计算 MaxCompute  版块
|
SQL 存储 分布式计算
|

Flink 与 Hive 的磨合期

在上篇文章中,笔者使用的 CDH 版本为 5.16.2,其中 Hive 版本为 1.1.0(CDH 5.x 系列 Hive 版本都不高于 1.1.0,是不是不可理解),Flink 源代码本身对 Hive 1.1.0 版本兼容性不好,存在不少问题。

2375 0
来自: 实时计算 Flink  版块
|
流计算 调度 缓存
|

Apache Flink 进阶(一):Runtime 核心机制剖析

本文主要介绍 Flink Runtime 的作业执行的核心机制。首先介绍 Flink Runtime 的整体架构以及 Job 的基本执行流程,然后介绍在这个过程,Flink 是怎么进行资源管理、作业调度以及错误恢复的。最后,本文还将简要介绍 Flink Runtime 层当前正在进行的一些工作。

2305 0
来自: 实时计算 Flink  版块
|
资源调度 Prometheus Kubernetes
|

Flink 1.10 Container 环境实战

本文第一部分将简明扼要地介绍容器管理系统的演变;第二部分是 Flink on K8S 简介,包括集群的部署模式调度原理等等;第三部分是我们这一年以来关于 Flink on K8S 的实战经验分享,介绍我们遇到的问题、踩过的坑;最后一部分是 Demo,将手把手演示集群部署、任务提交等等。

1103 0
来自: 实时计算 Flink  版块
|
Web App开发 缓存 负载均衡
|

什么是HTTP代理?HTTP代理的作用?HTTP代理怎么设置?

HTTP代理是一种充当客户端和服务器之间的中间人的服务器。当客户端发起请求时,HTTP代理会拦截请求并将其转发给目标服务器。一旦目标服务器响应,HTTP代理会拦截响应并将其转发回客户端。HTTP代理可以被用于多种场景,例如加强安全、缓存内容以加速访问、访问受限资源等等。在这篇文章中,我们将会讨论HTTP代理的作用、类型以及如何设置它。

5025 0
|
5月前
|
存储 缓存 网络协议
|

CDNJS/UNPKG/JSDelivr 太慢用不了,换成这些国内高速镜像

npm cdn, cdnjs, unpkg, jsdelivr, zstatic, zstatic.net, s4.zstatic.net

2380 4
|
6天前
|
机器学习/深度学习 编解码 测试技术
|

TimeMOE: 使用稀疏模型实现更大更好的时间序列预测

TimeMOE是一种新型的时间序列预测基础模型,通过稀疏混合专家(MOE)设计,在提高模型能力的同时降低了计算成本。它可以在多种时间尺度上进行预测,并且经过大规模预训练,具备出色的泛化能力。TimeMOE不仅在准确性上超越了现有模型,还在计算效率和灵活性方面表现出色,适用于各种预测任务。该模型已扩展至数十亿参数,展现了时间序列领域的缩放定律。研究结果显示,TimeMOE在多个基准测试中显著优于其他模型,特别是在零样本学习场景下。

114 64
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|

视觉 注意力机制——通道注意力、空间注意力、自注意力

本文介绍注意力机制的概念和基本原理,并站在计算机视觉CV角度,进一步介绍通道注意力、空间注意力、混合注意力、自注意力等。

3052 0
|
3月前
|
存储 Python
|

数据包络分析(Data Envelopment Analysis, DEA)详解与Python代码示例

数据包络分析(Data Envelopment Analysis, DEA)详解与Python代码示例

1025 2
|
存储 人工智能 运维
|

免费公测|阿里云EMR Serverless StarRocks 公测正式开启!

阿里云EMR Serverless StarRocks 免费公测已开启,向所有用户开放!您可通过EMR控制台直接创建实例,轻松体验全托管、免运维的服务。

5642 1
|
SQL 消息中间件 人工智能
|

周末直播|Flink、Hologres、AI等热门话题全都安排!

6月14日,计算平台事业部与阿里云开发者社区联合举办的首期大数据+AI Meetup即将重磅开启,来自阿里、Databricks、快手、网易云音乐的国内外多位技术专家齐聚一堂,与你探讨大数据及 AI 领域的热门话题!

3877 0
来自: 实时计算 Flink  版块
|
5月前
|
存储 大数据 API
|

大数据隐私保护策略:加密、脱敏与访问控制实践

【4月更文挑战第9天】本文探讨了大数据隐私保护的三大策略:数据加密、数据脱敏和访问控制。数据加密通过加密技术保护静态和传输中的数据,密钥管理确保密钥安全;数据脱敏通过替换、遮蔽和泛化方法降低敏感信息的敏感度;访问控制则通过用户身份验证和权限设置限制数据访问。示例代码展示了数据库、文件系统和API访问控制的实施方式,强调了在实际应用中需结合业务场景和平台特性定制部署。

1262 0
|
5月前
|
机器学习/深度学习 人工智能 数据可视化
|

号称能打败MLP的KAN到底行不行?数学核心原理全面解析

Kolmogorov-Arnold Networks (KANs) 是一种新型神经网络架构,挑战了多层感知器(mlp)的基础,通过在权重而非节点上使用可学习的激活函数(如b样条),提高了准确性和可解释性。KANs利用Kolmogorov-Arnold表示定理,将复杂函数分解为简单函数的组合,简化了神经网络的近似过程。与mlp相比,KAN在参数量较少的情况下能达到类似或更好的性能,并能直观地可视化,增强了模型的可解释性。尽管仍需更多研究验证其优势,KAN为深度学习领域带来了新的思路。

1604 5
|
DataWorks
|

DataWorks售前咨询

DataWorks售前咨询

7517 0
|
4月前
|
自然语言处理 监控 并行计算
|

Qwen2大模型微调入门实战(完整代码)

该教程介绍了如何使用Qwen2,一个由阿里云通义实验室研发的开源大语言模型,进行指令微调以实现文本分类。微调是通过在(指令,输出)数据集上训练来改善LLMs理解人类指令的能力。教程中,使用Qwen2-1.5B-Instruct模型在zh_cls_fudan_news数据集上进行微调,并借助SwanLab进行监控和可视化。环境要求Python 3.8+和英伟达显卡。步骤包括安装所需库、准备数据、加载模型、配置训练可视化工具及运行完整代码。训练完成后,展示了一些示例以验证模型性能。相关资源链接也一并提供。

4754 5
|
4月前
|
数据采集 机器学习/深度学习 编解码
|

视频生成框架EasyAnimate正式开源!

EasyAnimate是人工智能平台PAI自主研发的DiT-based视频生成框架,它提供了完整的高清长视频生成解决方案,包括视频数据预处理、VAE训练、DiT训练、模型推理和模型评测等。可以使用EasyAnimate进行任意风格视频模型的训练和推理,还可以在预训练模型的基础上,通过少量图片的LoRA微调来改变生成视频的风格。

64476 64
来自: 人工智能平台PAI  版块
|
4月前
|
数据采集 监控 大数据
|

大数据时代的数据质量与数据治理策略

在大数据时代,高质量数据对驱动企业决策和创新至关重要。然而,数据量的爆炸式增长带来了数据质量挑战,如准确性、完整性和时效性问题。本文探讨了数据质量的定义、重要性及评估方法,并提出数据治理策略,包括建立治理体系、数据质量管理流程和生命周期管理。通过使用Apache Nifi等工具进行数据质量监控和问题修复,结合元数据管理和数据集成工具,企业可以提升数据质量,释放数据价值。数据治理需要全员参与和持续优化,以应对数据质量挑战并推动企业发展。

1011 3
|
12月前
|
传感器 编解码
|

什么是HDR?HDR与SDR的区别?

HDR(高动态范围)技术是一种近年来变得流行的图像技术,用于拍摄更自然、更真实的影像,尤其在Audio / Visual设备和数码相机等方面得到了广泛应用。在这里,我们将解释HDR技术的具体是什么,HDR与SDR的区别,HDR与4K的关系,以及HDR一般内置在哪些设备中。

1402 0
|
7天前
|
机器学习/深度学习 人工智能 分布式计算
|

使用PAI+LLaMA Factory 微调 Qwen2-VL 模型,搭建文旅领域知识问答机器人

本次教程介绍了如何使用 PAI 和 LLaMA Factory 框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。

83 0
来自: 人工智能平台PAI  版块
|
2月前
|
XML 存储 API
|

RAG效果优化:高质量文档解析详解

本文介绍了如何通过高质量的文档解析提升RAG系统整体的效果。

11655 15
来自: 智能搜索推荐  版块
|
5月前
|
机器学习/深度学习 人工智能 算法
|

通义千问Qwen-72B-Chat大模型在PAI平台的微调实践

本文将以Qwen-72B-Chat为例,介绍如何在PAI平台的快速开始PAI-QuickStart和交互式建模工具PAI-DSW中高效微调千问大模型。

147781 88
来自: 人工智能平台PAI  版块
|
7天前
|
算法 API Apache
|

Flink CDC:新一代实时数据集成框架

本文源自阿里云实时计算团队 Apache Flink Committer 任庆盛在 Apache Asia CommunityOverCode 2024 的分享,涵盖 Flink CDC 的概念、版本历程、内部实现及社区未来规划。Flink CDC 是一种基于数据库日志的 CDC 技术实现的数据集成框架,能高效完成全量和增量数据的实时同步。自 2020 年以来,Flink CDC 经过多次迭代,已成为功能强大的实时数据集成工具,支持多种数据库和数据湖仓系统。未来将进一步扩展生态并提升稳定性。

254 1
来自: 实时计算 Flink  版块
|
11月前
|
机器学习/深度学习 编解码 PyTorch
|

CVPR 2023 | 主干网络FasterNet 核心解读 代码分析

本文分享来自CVPR 2023的论文,提出了一种快速的主干网络,名为FasterNet。核心算子是PConv,partial convolution,部分卷积,通过减少冗余计算和内存访问来更有效地提取空间特征。

3873 1
|
5月前
|
算法
|

【MATLAB】史上最全的11种数字信号滤波去噪算法全家桶

【MATLAB】史上最全的11种数字信号滤波去噪算法全家桶

1049 0
|
机器学习/深度学习 数据采集 人工智能
|

从零开始构建自己的AI:一个初学者的机器学习教程

通过这个简单的机器学习教程,我们初步了解了从数据收集、选择模型到训练和预测的基本流程。机器学习是一个广阔的领域,有很多知识和技能需要深入学习。希望本教程能为初学者提供一个入门的指引,引导大家探索更多有关机器学习的知识。感谢您阅读本文,如果您有任何问题或想法,请在评论区与我分享!让我们一起踏上机器学习的旅程,构建属于自己的AI。

1830 1
|
2月前
|
应用服务中间件 Shell 网络安全
|

nginx安装提示 libssl.so.3: cannot open shared object file: No

【8月更文挑战第1天】### 原因 未将安装的ssl中的`libssl.so.3`链接到`/usr/lib`导致缺失。 ### 解决方案 1. 检查openssl是否已安装,若为低版本则需重装。 ```sh whereis openssl

632 6
|
2月前
|
机器学习/深度学习 并行计算 PyTorch
|

ONNX 优化技巧:加速模型推理

【8月更文第27天】ONNX (Open Neural Network Exchange) 是一个开放格式,用于表示机器学习模型,使模型能够在多种框架之间进行转换。ONNX Runtime (ORT) 是一个高效的推理引擎,旨在加速模型的部署。本文将介绍如何使用 ONNX Runtime 和相关工具来优化模型的推理速度和资源消耗。

395 4
|
2月前
|
机器学习/深度学习 并行计算 PyTorch
|

PyTorch与CUDA:加速深度学习模型训练的最佳实践

【8月更文第27天】随着深度学习应用的广泛普及,高效利用GPU硬件成为提升模型训练速度的关键。PyTorch 是一个强大的深度学习框架,它支持动态计算图,易于使用且高度灵活。CUDA (Compute Unified Device Architecture) 则是 NVIDIA 开发的一种并行计算平台和编程模型,允许开发者直接访问 GPU 的并行计算能力。本文将详细介绍如何利用 PyTorch 与 CUDA 的集成来加速深度学习模型的训练过程,并提供具体的代码示例。

305 3
|
2月前
|
数据采集 Web App开发 测试技术
|

使用Selenium调试Edge浏览器的常见问题与解决方案

在互联网数据采集领域,Selenium常用于自动化网页爬取。针对使用Edge浏览器时遇到的启动远程调试失败、访问受限及代理IP设置等问题,本文提供了解决方案。通过特定命令启动Edge的远程调试模式,并利用Python脚本配合Selenium库,可实现代理IP、User-Agent的设定及Cookie管理等高级功能,有效提升爬虫稳定性和隐蔽性。遵循步骤配置后,即可顺畅执行自动化测试任务。

300 1
|
机器学习/深度学习 开发工具 git
|

开发专题 | 1 :下载 huggingface 上模型的正确姿势

本文主要介绍如何以正确的方式下载 huggingface 上的模型

9537 1
|
1月前
|
前端开发 JavaScript 关系型数据库
|

如何开发一个ERP系统:从零开始构建

【9月更文第4天】企业资源计划(ERP)系统是现代企业管理不可或缺的一部分,它集成了公司的关键业务流程,并提供了统一的数据管理平台。本文将探讨如何从零开始构建一个简单的ERP系统,并提供一些基本的代码示例来演示关键组件的开发过程。

259 3
|
3月前
|
供应链 搜索推荐 物联网
|

云上智能供应链:重塑物流与供应链管理的未来图景

云上智能供应链作为供应链管理领域的创新实践,正以其独特的优势和潜力引领着供应链管理的未来发展。通过数字化、智能化和集成化的手段,云上智能供应链不仅提升了供应链的整体效能和竞争力,还为企业带来了更多的商业价值和市场机遇。我们有理由相信,在未来的日子里,云上智能供应链将成为推动企业转型升级和实现可持续发展的重要力量。

266 0
|
3月前
|
数据采集 机器学习/深度学习 算法
|

Python实现多元线性回归模型(statsmodels OLS算法)项目实战

Python实现多元线性回归模型(statsmodels OLS算法)项目实战

281 2
来自: 人工智能平台PAI  版块
|
2月前
|
机器学习/深度学习 监控 API
|

基于云计算的机器学习模型部署与优化

【8月更文第17天】随着云计算技术的发展,越来越多的数据科学家和工程师开始使用云平台来部署和优化机器学习模型。本文将介绍如何在主要的云计算平台上部署机器学习模型,并讨论模型优化策略,如模型压缩、超参数调优以及分布式训练。

298 2

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

4
今日
64078
内容
106
活动
438008
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务