|
分布式计算 大数据 MaxCompute
|

阿里云大数据平台MaxCompute用户指南官方电子版下载

阿里云大数据平台MaxCompute用户指南

2292 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 大数据
|

通过WebUI查看Structured Streaming作业统计信息

从EMR-3.18.1版本开始,EMR将提供Spark Streaming SQL预览版功能。本次作为新特性的一部分,EMR将扩展现有Spark WebUI,支持Structured Streaming Query的统计信息查看。

2211 0
|
运维 监控 数据挖掘
|

Hawkeye:助力TISPLUS实现数据化运营

背景 TISPLUS平台的数据分析能力主要由hawkeye提供,但是之前存在如下几个问题:1.数据化场景的功能没有凸显,隐藏较深;2.产品形态设计单一,没有一个较好的产品闭环引导用户关注数据化的结果;3.数据分析内容简单,覆盖面不足,远远达不到让用户数据化运营服务的目标;4.重点关注了数据分析的结果,但缺少衡量数据分析结果为搜索服务本身带来的价值大小。

1886 0
来自: 智能搜索推荐  版块
|
算法 搜索推荐 人工智能
|

『Power AI by AI』 PAI-AutoML2.0重磅发布

PAI-AutoML调参服务是通过算法的方式解放用户调节算法参数的工作。自2018年8月发布PAI-AutoML1.0版本以来,该功能已经帮助众多PAI的中小企业用户提升了模型的准确性,得到了不错的反馈。

2232 0
来自: 人工智能平台PAI  版块
|
消息中间件 SQL 分布式计算
|

Flink Weekly | 每周社区更新-12/24

本期的主要内容包括:发布 Flink 1.10 和 Flink 1.9.2 的更新,关于将 Flink Docker image 发布集成到 Flink 发布过程中的讨论,PyFlink 后期新功能的讨论以及一些博客文章。

1612 0
来自: 实时计算 Flink  版块
|
SQL 消息中间件 分布式计算
|

通过Spark SQL实时归档SLS数据

流式计算和SQL 简要介绍Spark SQL流式开发语法 实时归档SLS数据到HDFS

3077 0
|
SQL 测试技术 API
|

State Processor API:如何读取,写入和修改 Flink 应用程序的状态

Apache Flink 1.9.0引入了状态处理器(`State Processor`)API,它是基于DataSet API的强大扩展,允许读取,写入和修改Flink的保存点和检查点(checkpoint)中的状态。

1892 0
来自: 实时计算 Flink  版块
|
存储 关系型数据库 MySQL
|

DataX:导入4字节UTF8编码(生僻字)到Mysql数据库的utf8mb4数据表

MySql数据库的编码支持UFT8字符集。utf-8编码可能是2个字节、3个字节、4个字节的字符,MYSQL的utf-8编码,只支持3个字节的字符。汉字中很多生僻字都是4个字节的字符,日常生活中人的姓名就会有很多高位的生僻字。

5869 0
来自: 大数据计算 MaxCompute  版块
|
存储 JavaScript
|

maxcompute 2.0复杂数据类型之struct

1. 含义 类似于Java中的类的概念。包含很多类的属性。 2. 场景 什么样的数据,适合使用struct类型来存储呢?这里列举了几个我在开发中实际用到的场景。 2.1 多个具有相同前缀的字段 其实struct完全可以拆成多个字段。

2272 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 API Apache
|

# Apache spark系列技术直播# 第五讲【 Spark RDD编程入门 】

主讲人:王道远(健身) 阿里巴巴计算平台EMR技术专家 直播时间:2018.12.13(本周四)19:00 - 20:00 内容提要:本次讲座主要涵盖Spark RDD编程入门基础,包括: Spark、RDD简介 RDD API简介 打包与spark-submit 性能分析与调优基础 ppt链接:https://yq.

1548 0
|
消息中间件 大数据 Kafka
|

如何在E-MapReduce上进行Kafka集群间数据复制

本文介绍如何使用社区的Kafka MirrorMaker工具进行集群间的数据复制。

1657 0
|
SQL 消息中间件 JSON
|

Flink Weekly | 每周社区动态更新 - 2019/12/31

主要内容包括:讨论在 Flink SQL 中支持 JSON functions,新增 Flink 国内社区的活动和相关博客,以及汇总中文邮件中大家遇到的问题。

1674 0
来自: 实时计算 Flink  版块
|
SQL 分布式计算 MaxCompute
|

MaxCompute SQL 使用正则表达式选列

编辑MaxCompute SQL 时,经常会需要在某个表N个列中指定一些列。若需要指定的列比较少,编写SQL时一个个输入既可。当遇到列多的时候,一个个输入就会非常费劲。本文将介绍如何在编写MaxCompute SQL时通过正则表达式表达列(column),从而提升编码效率。

2704 0
来自: 大数据计算 MaxCompute  版块
|
存储 机器学习/深度学习 分布式计算
|

如何从根源上解决 HDFS 小文件问题

我们知道,HDFS 被设计成存储大规模的数据集,我们可以在 HDFS 上存储 TB 甚至 PB 级别的海量数据。而这些数据的元数据(比如文件由哪些块组成、这些块分别存储在哪些节点上)全部都是由 NameNode 节点维护,为了达到高效的访问, NameNode 在启动的时候会将这些元数据全部加载到内存中。

2938 0
|
SQL 分布式计算 资源调度
|

SQL 开发任务超 50% !滴滴实时计算的演进与优化

Apache Flink 是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态计算。可部署在各种集群环境,对各种大小的数据规模进行快速计算。滴滴基于 Apache Flink 做了大量的优化,也增加了更多的功能,比如扩展 DDL、内置消息格式解析、扩展 UDX 等,使得 Flink 能够在滴滴的业务场景中发挥更大的作用。

2329 0
来自: 实时计算 Flink  版块
|
分布式计算 Spark SQL
|

使用Spark Streaming SQL进行PV/UV统计

PV/UV统计是流式分析一个常见的场景。通过PV可以对访问的网站做流量或热点分析,例如广告主可以通过PV值预估投放广告网页所带来的流量以及广告收入。另外一些场景需要对访问的用户作分析,比如分析用户的网页点击行为,此时就需要对UV做统计。

2871 0
|
大数据 Apache Python
|

Koalas:让 pandas 轻松切换 Apache Spark

4 月 24 日,Databricks 在 Spark + AI 峰会上开源了一个新产品 Koalas,它增强了 PySpark 的 DataFrame API,使其与 pandas 兼容。本文转自:https://www.infoq.cn/article/tvGrtwJxCR1kQDs_kqa4

2613 0
|
4月前
|
存储 SQL 消息中间件
|

Hologres+Flink企业级实时数仓核心能力介绍

通过Hologres+Flink构建易用、统一的企业级实时数仓。

73903 27
来自: 实时数仓 Hologres  版块
|
存储 分布式计算 Apache
|

Spark内置图像数据源初探

在Apache Spark 2.4中引入了一个新的内置数据源, 图像数据源.用户可以通过DataFrame API加载指定目录的中图像文件,生成一个DataFrame对象.通过该DataFrame对象,用户可以对图像数据进行简单的处理,然后使用MLlib进行特定的训练和分类计算。

1802 0
|
存储 大数据 BI
|

Iceberg 在基于 Flink 的流式数据入库场景中的应用

本文以流式数据入库的场景为基础,介绍引入 Iceberg 作为落地格式和嵌入 Flink sink 的收益,并分析了当前可实现的框架及要点。

3721 0
来自: 实时计算 Flink  版块
|
大数据 Linux
|

钉钉群直播【Delta Lake:一种新型的数据湖方案】

Delta Lake 是 Databricks 推出的一种新型的数据湖方案,解决了传统数据湖方案中的诸多痛点。其中的核心组件 Delta 也于近期开源。本次分享将围绕 Delta Lake 和 Delta 的诸多细节展开,如 Delta Lake 的适用场景、技术优势,Delta 的原理实现以及一些高级特性等,并就现有解决方案做横向对比。

1325 0
|
分布式计算 资源调度 Kubernetes
|

Spark on Kubernetes 的现状与挑战

云原生时代,Kubernetes 的重要性日益凸显,这篇文章以 Spark 为例来看一下大数据生态 on Kubernetes 生态的现状与挑战。

2320 0
|
机器学习/深度学习 SQL 分布式计算
|

最佳实践 | Flink Forward 全球会议抢先看!

来了!我们把 Apache 顶级项目盛会搬到线上,4月25-26日,Flink Forward 全球在线会议精华版直播将正式上线,该系列直播均为中文版,精选大会优质内容由 Apache Flink 核心贡献者们对原版英文 talk 进行翻译及解说,您可直接免费在线观看!

1625 0
来自: 实时计算 Flink  版块
|
分布式计算 Spark
|

钉钉群直播【Koalas 介绍】

Koalas是Spark社区推出的新项目,旨在为Spark提供与pandas完全兼容的接口,在降低pandas用户的学习和迁移成本的同时,充分利用Spark强大的分布式处理能力。本次分享介绍Koalas的基本用法和原理。

3583 0

雾霾天气预测

通过分析2016年一年来的空气指标数据探查雾霾成因,最终成功挖掘出影响雾霾的最关键因素是二氧化氮的排放量。使用了统计分析组件、逻辑回归以及随机森林。<br />数据源:国家气象局数据<br />数据大小:37.3 KB<br />字段数量:7<br />使用组件:归一化,拆分,SQL脚本,读数据表,类型转换<br />

1082 0
来自: 人工智能平台PAI  版块
|
分布式计算 MaxCompute
|

【MaxCompute季报】MaxCompute新功能发布 2019Q2

2019年Q2 MaxCompute发布了一系列新功能。 本文对主要新功能和增强功能进行了概述。 SQL新功能 华北张家口节点正式开服售卖 国际Region Spark商业化发布 存储降价 元数据服务Information Schema MaxCompute搬站迁移工具MMA 数据脱敏 Tunn...

1198 0
来自: 大数据计算 MaxCompute  版块
|
搜索推荐
|

CTR中的GBDT+LR 融合方案_副本

实现GBDT与LR的融合<br />数据源:<br />数据大小:1.54 MB<br />字段数量:20<br />使用组件:拆分,读数据表,特征编码<br />

1065 0
来自: 人工智能平台PAI  版块
|
存储 机器学习/深度学习 分布式计算
|

HDFS Federation简介

背景 熟悉大数据的人应该都知道,HDFS 是一个分布式文件系统,它是基于谷歌的 GFS 思路实现的开源系统,它的设计目的就是提供一个高度容错性和高吞吐量的海量数据存储解决方案。在经典的 HDFS 架构中有2个 NameNode 和多个 DataNode 的,如下: 从上面可以看出 HDFS 的架构其实大致可以分为两层: Namespace:由目录,文件和数据块组成,支持常见的文件系统操作,例如创建,删除,修改和列出文件和目录。

2917 0
|
存储 缓存 分布式计算
|

7月31日Spark钉钉群直播【Apache Spark 在存储计算分离趋势下的数据缓存】

在数据上云的大背景下,存储计算分离逐渐成为了大数据处理的一大趋势,计算引擎需要通过网络读写远端的数据,很多情况下 IO 成为了整个计算任务的瓶颈,因而数据缓存成为此类场景下的一个重要的优化手段。本次分享将介绍 Spark 在数据缓存上的一些做法,并将介绍 EMR 自研的 Jindo 存储系统在数据缓存上的应用。

1250 0
|
SQL 存储 分布式计算
|

如何在Spark中实现Count Distinct重聚合

背景 Count Distinct是SQL查询中经常使用的聚合统计方式,用于计算非重复结果的数目。由于需要去除重复结果,Count Distinct的计算通常非常耗时。为了支持更快速的非重复结果统计Spark还基于Hyperloglog实现了Approximate Count Distinct,用于统计非重复结果的近似值,支持。

3795 0

CTR_GBDT_LR_TEST

实战分享:CTR中的GBDT+LR融合方案<br />数据源:internet<br />数据大小:770 KB<br />字段数量:20<br />使用组件:拆分,读数据表,特征编码<br />

878 0
来自: 人工智能平台PAI  版块
|
分布式计算 Spark 开发者
|

7月24日阿里云峰会.上海 开发者大会回看

阿里云峰会.上海 开发者大会将在上海世博中心盛大启程,与未来世界的开发者们分享开源大数据、IT基础设施云化、数据库、云原生、物联网等领域的技术干货,共同探讨前沿科技趋势,分析阿里云在一线生产场景的最佳实践,携手合作伙伴及广大开发者们共建云上开发新时代,让我们一起code up!

881 0

testdate

股票<br />数据源:pufa<br />数据大小:12.4 KB<br />字段数量:6<br />使用组件:读数据表,SQL脚本<br />

766 0
来自: 人工智能平台PAI  版块

test_multiEvaluation

多分类评估<br />数据源:多分类评估<br />数据大小:779 KB<br />字段数量:42<br />使用组件:读数据表<br />

739 0
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 算法 搜索推荐
|

原来GNN这么好上手,OMG!用它!

GraphLearn(GL)是阿里巴巴开源的一个大规模图神经网络平台,本文将对GL的接口做基本介绍,帮助用户快速上手。项目地址:https://github.com/alibaba/graph-learn 。

1974 0
来自: 人工智能平台PAI  版块
|
分布式计算 MaxCompute 消息中间件
|

业务流程多节点依赖调度配置实践

在DataWorks业务流程开发过程。一个业务流程通常是由很多个数据同步、数据开发节点组成的。这很多个业务节点的上下游节点的连接通过执行顺序先后进行连接,系统自动就行上下游解析。这里主要用于测试在一个业务流程过程中根据业务需求进行节点连接之后自动解析上下游是否会发生错误。

1397 0
来自: 大数据计算 MaxCompute  版块
|
SQL 存储 分布式计算
|

Flink 与 Hive 的磨合期

在上篇文章中,笔者使用的 CDH 版本为 5.16.2,其中 Hive 版本为 1.1.0(CDH 5.x 系列 Hive 版本都不高于 1.1.0,是不是不可理解),Flink 源代码本身对 Hive 1.1.0 版本兼容性不好,存在不少问题。

2375 0
来自: 实时计算 Flink  版块
|
流计算 调度 缓存
|

Apache Flink 进阶(一):Runtime 核心机制剖析

本文主要介绍 Flink Runtime 的作业执行的核心机制。首先介绍 Flink Runtime 的整体架构以及 Job 的基本执行流程,然后介绍在这个过程,Flink 是怎么进行资源管理、作业调度以及错误恢复的。最后,本文还将简要介绍 Flink Runtime 层当前正在进行的一些工作。

2305 0
来自: 实时计算 Flink  版块
|
资源调度 Prometheus Kubernetes
|

Flink 1.10 Container 环境实战

本文第一部分将简明扼要地介绍容器管理系统的演变;第二部分是 Flink on K8S 简介,包括集群的部署模式调度原理等等;第三部分是我们这一年以来关于 Flink on K8S 的实战经验分享,介绍我们遇到的问题、踩过的坑;最后一部分是 Demo,将手把手演示集群部署、任务提交等等。

1103 0
来自: 实时计算 Flink  版块
|
Web App开发 缓存 负载均衡
|

什么是HTTP代理?HTTP代理的作用?HTTP代理怎么设置?

HTTP代理是一种充当客户端和服务器之间的中间人的服务器。当客户端发起请求时,HTTP代理会拦截请求并将其转发给目标服务器。一旦目标服务器响应,HTTP代理会拦截响应并将其转发回客户端。HTTP代理可以被用于多种场景,例如加强安全、缓存内容以加速访问、访问受限资源等等。在这篇文章中,我们将会讨论HTTP代理的作用、类型以及如何设置它。

5020 0
|
5月前
|
存储 缓存 网络协议
|

CDNJS/UNPKG/JSDelivr 太慢用不了,换成这些国内高速镜像

npm cdn, cdnjs, unpkg, jsdelivr, zstatic, zstatic.net, s4.zstatic.net

2380 4
|
6天前
|
机器学习/深度学习 编解码 测试技术
|

TimeMOE: 使用稀疏模型实现更大更好的时间序列预测

TimeMOE是一种新型的时间序列预测基础模型,通过稀疏混合专家(MOE)设计,在提高模型能力的同时降低了计算成本。它可以在多种时间尺度上进行预测,并且经过大规模预训练,具备出色的泛化能力。TimeMOE不仅在准确性上超越了现有模型,还在计算效率和灵活性方面表现出色,适用于各种预测任务。该模型已扩展至数十亿参数,展现了时间序列领域的缩放定律。研究结果显示,TimeMOE在多个基准测试中显著优于其他模型,特别是在零样本学习场景下。

114 64
|
3月前
|
存储 Python
|

数据包络分析(Data Envelopment Analysis, DEA)详解与Python代码示例

数据包络分析(Data Envelopment Analysis, DEA)详解与Python代码示例

1025 2
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|

视觉 注意力机制——通道注意力、空间注意力、自注意力

本文介绍注意力机制的概念和基本原理,并站在计算机视觉CV角度,进一步介绍通道注意力、空间注意力、混合注意力、自注意力等。

3051 0
|
存储 人工智能 运维
|

免费公测|阿里云EMR Serverless StarRocks 公测正式开启!

阿里云EMR Serverless StarRocks 免费公测已开启,向所有用户开放!您可通过EMR控制台直接创建实例,轻松体验全托管、免运维的服务。

5641 1
|
SQL 消息中间件 人工智能
|

周末直播|Flink、Hologres、AI等热门话题全都安排!

6月14日,计算平台事业部与阿里云开发者社区联合举办的首期大数据+AI Meetup即将重磅开启,来自阿里、Databricks、快手、网易云音乐的国内外多位技术专家齐聚一堂,与你探讨大数据及 AI 领域的热门话题!

3877 0
来自: 实时计算 Flink  版块
|
5月前
|
存储 大数据 API
|

大数据隐私保护策略:加密、脱敏与访问控制实践

【4月更文挑战第9天】本文探讨了大数据隐私保护的三大策略:数据加密、数据脱敏和访问控制。数据加密通过加密技术保护静态和传输中的数据,密钥管理确保密钥安全;数据脱敏通过替换、遮蔽和泛化方法降低敏感信息的敏感度;访问控制则通过用户身份验证和权限设置限制数据访问。示例代码展示了数据库、文件系统和API访问控制的实施方式,强调了在实际应用中需结合业务场景和平台特性定制部署。

1262 0
|
5月前
|
机器学习/深度学习 人工智能 数据可视化
|

号称能打败MLP的KAN到底行不行?数学核心原理全面解析

Kolmogorov-Arnold Networks (KANs) 是一种新型神经网络架构,挑战了多层感知器(mlp)的基础,通过在权重而非节点上使用可学习的激活函数(如b样条),提高了准确性和可解释性。KANs利用Kolmogorov-Arnold表示定理,将复杂函数分解为简单函数的组合,简化了神经网络的近似过程。与mlp相比,KAN在参数量较少的情况下能达到类似或更好的性能,并能直观地可视化,增强了模型的可解释性。尽管仍需更多研究验证其优势,KAN为深度学习领域带来了新的思路。

1603 5
|
DataWorks
|

DataWorks售前咨询

DataWorks售前咨询

7517 0
|
4月前
|
自然语言处理 监控 并行计算
|

Qwen2大模型微调入门实战(完整代码)

该教程介绍了如何使用Qwen2,一个由阿里云通义实验室研发的开源大语言模型,进行指令微调以实现文本分类。微调是通过在(指令,输出)数据集上训练来改善LLMs理解人类指令的能力。教程中,使用Qwen2-1.5B-Instruct模型在zh_cls_fudan_news数据集上进行微调,并借助SwanLab进行监控和可视化。环境要求Python 3.8+和英伟达显卡。步骤包括安装所需库、准备数据、加载模型、配置训练可视化工具及运行完整代码。训练完成后,展示了一些示例以验证模型性能。相关资源链接也一并提供。

4753 5

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

3
今日
64077
内容
106
活动
438008
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务