|
存储 消息中间件 监控
|

Flink在快手的应用实践与技术演进之路

Flink 在快手应用场景与规模 1. Flink 在快手应用场景 快手计算链路是从 DB/Binlog 以及 WebService Log 实时入到 Kafka 中,然后接入 Flink 做实时计算,其中包括实时 ETL、实时分析、Interval Join 以及实时训练,最后的结果存到 Druid、ES 或者 HBase 里面,后面接入一些数据应用产品;同时这一份 Kafka 数据实时 Dump 一份到 Hadoop 集群,然后接入离线计算。

1781 0
|
SQL 消息中间件 缓存
|

Apache Flink 进阶(十二):深度探索 Flink SQL

文章将从用户的角度来讲解 Flink 1.9 版本中 SQL 相关原理及部分功能变更,希望加深大家对 Flink 1.9 新功能的理解,在使用上能够有所帮助。

2901 0
来自: 实时计算 Flink  版块
|
资源调度 Kubernetes 前端开发
|

Flink 1.10 Native Kubernetes 原理与实践

Flink 在 1.10 版本完成了 Active Kubernetes Integration 的第一阶段,支持了 session clusters。后续的第二阶段会提供更完整的支持,如支持 per-job 任务提交,以及基于原生 Kubernetes API 的高可用,支持更多的 Kubernetes 参数如 toleration, label 和 node selector 等。

1609 0
来自: 实时计算 Flink  版块
|
分布式计算 Spark SQL
|

使用Spark Streaming SQL进行PV/UV统计

PV/UV统计是流式分析一个常见的场景。通过PV可以对访问的网站做流量或热点分析,例如广告主可以通过PV值预估投放广告网页所带来的流量以及广告收入。另外一些场景需要对访问的用户作分析,比如分析用户的网页点击行为,此时就需要对UV做统计。

3094 0
|
机器学习/深度学习 文字识别 TensorFlow
|

脚把脚教你利用PAI训练出自己的CNN手写识别模型并部署为可用的服务

虽然已经 9102 年了,MNIST手写数据集也早已经被各路神仙玩出了各种花样,比如其中比较秀的有用MINST训练手写日语字体的。但是目前还是很少有整体的将训练完之后的结果部署为一个可使用的服务的。大多数还是停留在最终Print出一个Accuracy。

3553 57
来自: 人工智能平台PAI  版块
|
大数据 Apache Python
|

Koalas:让 pandas 轻松切换 Apache Spark

4 月 24 日,Databricks 在 Spark + AI 峰会上开源了一个新产品 Koalas,它增强了 PySpark 的 DataFrame API,使其与 pandas 兼容。本文转自:https://www.infoq.cn/article/tvGrtwJxCR1kQDs_kqa4

2782 0
|
API SQL 流计算
|

Apache Flink 零基础入门(七):Table API 编程

本文主要包含三部分:第一部分,主要介绍什么是 Table API,从概念角度进行分析,让大家有一个感性的认识;第二部分,从代码的层面介绍怎么使用 Table API;第三部分,介绍 Table API 近期的动态。

2974 0
来自: 实时计算 Flink  版块
|
存储 分布式计算 Apache
|

Spark内置图像数据源初探

在Apache Spark 2.4中引入了一个新的内置数据源, 图像数据源.用户可以通过DataFrame API加载指定目录的中图像文件,生成一个DataFrame对象.通过该DataFrame对象,用户可以对图像数据进行简单的处理,然后使用MLlib进行特定的训练和分类计算。

1924 0
|
存储 大数据 BI
|

Iceberg 在基于 Flink 的流式数据入库场景中的应用

本文以流式数据入库的场景为基础,介绍引入 Iceberg 作为落地格式和嵌入 Flink sink 的收益,并分析了当前可实现的框架及要点。

3929 0
来自: 实时计算 Flink  版块
|
机器学习/深度学习 SQL 人工智能
|

Flink 如何支持特征工程、在线学习、在线预测等 AI 场景?

人工智能应用场景中,Flink 在包括特征工程,在线学习,在线预测等方面都有一些独特优势,为了更好的支持人工智能的使用场景,Flink 社区以及各个生态都在努力。本文将介绍近期 Flink 在人工智能生态系统中的工作进展。

2975 0
来自: 实时计算 Flink  版块
|
存储 分布式计算 大数据
|

# Apache Spark系列技术直播# 第七讲 【 大数据列式存储之 Parquet/ORC 】

主讲人:诚历(孙大鹏)阿里巴巴计算平台事业部EMR技术专家 简介:Parquet 和 ORC 是大数据生态里最常用到的两个列式存储引擎,这两者在实现上有什异同,哪个效率更好,哪个性能更优,本次分享将和您一起探索两大列式存储。

1740 0
|
安全 机器学习/深度学习 容器
|

【云上未来】从Elasticsearch到ElasticStack的技术演进之路 |(附视频)

在2019云栖大会【Elasticsearch开发者生态专场】上,Elastic中国首席架构师朱杰(Jerry),为大家详细介绍了从“Elasticsearch”到“Elastic Stack”的产品和技术的演进趋势,并确立云上ES战略的意义。

3663 0

使用Spark Streaming SQL基于时间窗口进行数据统计

使用Spark Streaming SQL可以很方便的对事件数据中的时间字段进行处理,同时Spark Streaming SQL提供的时间窗口函数可以将事件时间按照一定的时间区间对数据进行统计操作。 本文通过讲解一个统计用户在过去5秒钟内点击网页次数的案例,介绍如何使用Spark Streaming SQL对事件时间进行操作。

2677 0
|
人工智能 分布式计算 Linux
|

钉钉群直播Spark + AI 北美峰会参会分享

Spark + AI 北美峰会 2019 盛况依然,这两天正如火如荼。大会的主题是 Build,Unify,Scale,对此如何理解?砖厂这次有哪些重磅消息和重要发布,并作如何解读?Spark 过去几年发展的基调和线索是什么,从这次峰会上又如何看出 Spark 在未来几年的发展端倪?阿里巴巴计算平台.

1392 0
|
分布式计算 资源调度 Kubernetes
|

Spark on Kubernetes 的现状与挑战

云原生时代,Kubernetes 的重要性日益凸显,这篇文章以 Spark 为例来看一下大数据生态 on Kubernetes 生态的现状与挑战。

2487 57
|
运维 开发者 搜索推荐
|

云栖全程回顾 | Elasticsearch开发者生态专场(附视频与文稿)

2019年9月25日,在云栖大会中,阿里云Elasticsearch不仅与最大的开源社区Elasticsearch背后的商业公司Elastic宣布了战略升级,同时在100%兼容开源的情况下,通过Logstash云托管、增强内核等多项功能和技术发布,形成了Elastic Stack的云上技术栈闭环。

3965 0
|
监控 NoSQL 流计算
|

海量监控日志基于EMR Spark Streaming SQL进行实时聚合

从EMR-3.21.0 版本开始将提供Spark Streaming SQL的预览版功能,支持使用SQL来开发流式分析作业。结果数据可以实时写入Tablestore。 本文以LogHub为数据源,收集ECS上的日志数据,通过Spark Streaming SQL进行聚合后,将流计算结果数据实时写入Tablestore,展示一个简单的日志监控场景。

1577 0
|
监控 分布式计算 MaxCompute
|

MaxCompute按量计费计算任务消费监控告警

如何通过云监控配置MaxCompute按量计费计算任务消费监控告警

1816 0
来自: 大数据计算 MaxCompute  版块
|
对象存储 分布式计算 Spark
|

玩转阿里云EMR三部曲-中级篇 集成自有服务

玩转阿里云EMR三部曲-中级篇 集成自有服务 作者:邓力,entobit技术总监,八年大数据从业经历,由一代hadoop入坑,深耕云计算应用领域,由从事亚马逊EMR和阿里云EMR应用开发逐步转入大数据架构领域,对大数据生态及框架应用有深刻理解。

1557 0
|
消息中间件 存储 SQL
|

Netflix:如何打造开放协作的实时 ETL 平台?

本文由 Netflix 高级软件工程师徐振中分享,内容包含有趣的案例、分布式系统基础方面的各种挑战以及解决方案,此外还讨论了其在开发运维过程中的收获,对开放式自助式实时数据平台的一些新愿景,以及对 Realtime ETL 基础平台的一些新思考。

2024 0
来自: 实时计算 Flink  版块
|
存储 消息中间件 机器学习/深度学习
|

Flink 完美搭档:数据存储层上的 Pravega

本文将从大数据架构变迁历史,Pravega 简介,Pravega 进阶特性以及车联网使用场景这四个方面介绍 Pravega,重点介绍 DellEMC 为何要研发 Pravega,Pravega 解决了大数据处理平台的哪些痛点以及与 Flink 结合会碰撞出怎样的火花。

2559 0
来自: 实时计算 Flink  版块
|
分布式计算 Spark
|

8月14日Spark社区直播【Spark Shuffle 优化】

本次直播介绍EMR Spark 在shuffle方面的相关优化工作,主要包含shuffle 优化的背景以及shuffle 优化的设计方案,最后会介绍Spark shuffle 在 TPC-DS测试中的性能数据

1539 0
|
机器学习/深度学习 消息中间件 人工智能
|

这场大数据+AI Meetup,一次性安排了大数据当下热门话题

6月14日,阿里巴巴计算平台事业部与阿里云开发者社区共同举办的大数据+AI Meetup 系列第一季即将重磅开启,此次 Meetup 邀请了来自阿里巴巴、Databricks、快手、网易云音乐的7位技术专家,集中解读大数据当前热门话题!

1841 0
来自: 实时计算 Flink  版块
|
NoSQL Redis 分布式计算
|

使用spark-redis组件访问云数据库Redis

本文演示了在Spark Shell中通过spark-redis组件读写Redis数据的场景。所有场景在阿里云E-MapReduce集群内完成,Redis使用阿里云数据库Redis

2435 0
|
SQL 存储 Java
|

Flink Weekly | 每周社区动态更新 - 20200421

本文为 Flink Weekly 的第十三期,由王雷整理,主要内容包括:近期社区开发进展,邮件问题答疑以及 Flink 最新社区动态及技术文章推荐。

1906 0
来自: 实时计算 Flink  版块

农业贷款预测

很多农民因为缺乏资金,在每年耕种前会向相关机构申请贷款来购买种地需要的物资,等丰收之后偿还。农业贷款发放问题是一个典型的数据挖掘问题。贷款发放人通过往年的数据,包括贷款人的年收入、种植的作物种类、历史借贷信息等特征来构建经验模型,通过这个模型来预测受贷人的还款能力。<br />数据源:UCI开源数据<br />数据大小:6.62 KB<br />字段数量:10<br />使用组件:过滤与映射,SQL脚本,读数据表,线性回归(旧),合并列<br />

1168 0
来自: 人工智能平台PAI  版块

农业贷款预测的回归算法实现_1257

农业贷款预测的回归算法实现<br />数据源:<br />数据大小:6.62 KB<br />字段数量:10<br />使用组件:读数据表,线性回归(旧),SQL脚本,过滤与映射,合并列<br />

994 0
来自: 人工智能平台PAI  版块
|
消息中间件 大数据 测试技术
|

Apache Avro as a Built-in Data Source in Apache Spark 2.4

Apache Avro 是一种流行的数据序列化格式。它广泛用于 Apache Spark 和 Apache Hadoop 生态系统,尤其适用于基于 Kafka 的数据管道。从 Apache Spark 2.

1447 0
|
分布式计算 MaxCompute
|

【MaxCompute季报】MaxCompute新功能发布 2019Q2

2019年Q2 MaxCompute发布了一系列新功能。 本文对主要新功能和增强功能进行了概述。 SQL新功能 华北张家口节点正式开服售卖 国际Region Spark商业化发布 存储降价 元数据服务Information Schema MaxCompute搬站迁移工具MMA 数据脱敏 Tunn...

1297 0
来自: 大数据计算 MaxCompute  版块
|
Python 分布式计算 Spark
|

Virgin Hyperloop One如何使用Koalas将处理时间从几小时降到几分钟--无缝的将pandas切换成Apache Spark指南

Koalas项目基于Apache Spark实现了pandas DataFrame API,从而使数据科学家能够更有效率的处理大数据。一份代码可以同时在pandas(用于测试,小数据集)和Spark(用于分布式datasets)两个平台上运行。

1649 0
|
存储 机器学习/深度学习 分布式计算
|

HDFS Federation简介

背景 熟悉大数据的人应该都知道,HDFS 是一个分布式文件系统,它是基于谷歌的 GFS 思路实现的开源系统,它的设计目的就是提供一个高度容错性和高吞吐量的海量数据存储解决方案。在经典的 HDFS 架构中有2个 NameNode 和多个 DataNode 的,如下: 从上面可以看出 HDFS 的架构其实大致可以分为两层: Namespace:由目录,文件和数据块组成,支持常见的文件系统操作,例如创建,删除,修改和列出文件和目录。

3374 0
|
分布式计算 大数据 Spark
|

阿里云大数据+AI技术沙龙上海站

EMR 团队在国内运营最大的 Spark 社区,为了更好地传播和分享业界最新技术和最佳实践,现在联合Intel及开源社区同行,打造一个纯粹的技术交流线下沙龙《大数据 + AI》,定期为大家做公益分享。首站上海开站,请猛戳链接报名!https://www.slidestalk.com/m/61

1644 0
|
消息中间件 存储 缓存
|

有赞实时任务优化:Flink Checkpoint 异常解析与应用实践

本文结合 Flink 1.9 版本,重点讲述 Flink Checkpoint 原理流程以及常见原因分析,让用户能够更好的理解 Flink Checkpoint,从而开发出更健壮的实时任务。

3248 0
来自: 实时计算 Flink  版块
|
SQL 资源调度 Kubernetes
|

重磅!Apache Flink 1.11 功能前瞻抢先看!

Flink 1.11 版本即将正式宣告发布!为满足大家的好奇与期待,我们邀请 Flink 核心开发者对 1.11 版本的功能特性进行解读与分享。Flink 1.11 在 1.10 的基础上对许多方面进行了完善和改进,并致力于进一步提高 Flink 的可用性及性能。

1746 0
来自: 实时计算 Flink  版块
|
SQL XML JavaScript
|

【若依Java】15分钟玩转若依二次开发,新手小白半小时实现前后端分离项目,springboot+vue3+Element Plus+vite实现Java项目和管理后台网站功能

摘要: 本文档详细介绍了如何使用若依框架快速搭建一个基于SpringBoot和Vue3的前后端分离的Java管理后台。教程涵盖了技术点、准备工作、启动项目、自动生成代码、数据库配置、菜单管理、代码下载和导入、自定义主题样式、代码生成、启动Vue3项目、修改代码、以及对代码进行自定义和扩展,例如单表和主子表的代码生成、树形表的实现、商品列表和分类列表的改造等。整个过程详细地指导了如何从下载项目到配置数据库,再到生成Java和Vue3代码,最后实现前后端的运行和功能定制。此外,还提供了关于软件安装、环境变量配置和代码自动生成的注意事项。

25179 72
|
SQL 数据采集 存储
|

Flink 新场景:OLAP 引擎性能优化及应用案例

本文由阿里巴巴技术专家贺小令(晓令)分享,主要介绍 Apache Flink 新场景 OLAP 引擎,内容分为以下四部分:背景介绍、Flink OLAP 引擎、案例介绍、未来计划。

2810 0
来自: 实时计算 Flink  版块

心脏病预测案例_3048

心脏病是人类健康的头号杀手。全世界1/3的人口死亡是因心脏病引起的,而我国,每年有几十万人死于心脏病。 所以,如果可以通过提取人体相关的体侧指标,通过数据挖掘的方式来分析不同特征对于心脏病的影响,对于预测和预防心脏病将起到至关重要的作用。本文将会通过真实的数据,通过阿里云机器学习平台搭建心脏病预测案例。<br />数据源:<br />数据大小:7.49 KB<br />字段数量:15<br />使用组件:读数据表,类型转换,SQL脚本,归一化,拆分,过滤式特征选择<br />

1033 0
来自: 人工智能平台PAI  版块
|
SQL 机器学习/深度学习 新零售
|

回顾 | Apache Flink Meetup 杭州站圆满结束(附PPT下载)

5月16日,2020 年首场 Apache Flink Meetup · 杭州站在线直播圆满结束。本次 Meetup 邀请了来自袋鼠云、网易云音乐、有赞及阿里巴巴的四位技术专家分享关于实时数仓、1.10 生产环境实践、Flink 分布式同步工具以及 Flink 在 AI 流程中的应用。

1824 0
来自: 实时计算 Flink  版块

gbdt

电力<br />数据源:<br />数据大小:5.97 KB<br />字段数量:8<br />使用组件:写数据表,读数据表<br />

1006 0
来自: 人工智能平台PAI  版块
|
SQL 存储 分布式计算
|

如何在Spark中实现Count Distinct重聚合

背景 Count Distinct是SQL查询中经常使用的聚合统计方式,用于计算非重复结果的数目。由于需要去除重复结果,Count Distinct的计算通常非常耗时。为了支持更快速的非重复结果统计Spark还基于Hyperloglog实现了Approximate Count Distinct,用于统计非重复结果的近似值,支持。

3991 0
|
存储 缓存 Java
|

如何在 Flink 中规划 RocksDB 内存容量?

本文将介绍跟 Flink 相关的一些 RocksDB 操作,并讨论一些提高资源利用率的重要配置。

2113 0
来自: 实时计算 Flink  版块
|
编解码 Apache 项目管理
|

揭秘!开源软件背后的神秘组织

Flink 社区将分享“走进 ASF”系列内容,先从宏观介绍 ASF 是如何运作的,然后详细解说如何参与 Apache 具体项目做贡献,如何成为某个项目的 Committer、PMC 成员,如何选择多个 Apache 项目进行多领域贡献并成为 ASF Member 等,希望有助于你真正了解开源、参与开源。

1709 0
来自: 实时计算 Flink  版块

【推荐算法】商品推荐_1450

测试一下功能<br />数据源:<br />数据大小:328 KB<br />字段数量:4<br />使用组件:过滤与映射,SQL脚本,读数据表,JOIN<br />

976 0
来自: 人工智能平台PAI  版块
|
流计算 SQL 监控
|

Apache Flink 在同程艺龙实时计算平台的研发与应用实践

本文主要介绍 Apache Flink 在同程艺龙的应用实践,从当前同程艺龙实时计算平台现状、建设过程、易用性提升、稳定性优化四方面分享了同城艺龙实时计算平台的建设经验,供大家参考。

2019 0
来自: 实时计算 Flink  版块

wine_lesson1

根据https://tianchi.aliyun.com/competition/new_articleDetail.html?postsId=2089傲海的机器学习PAI教你如何品酒进行PAI平台的操作学习<br />数据源:酒质量评估数据,12个字段,4000多样本,1-11为特征,单位可能为毫米、立方米,量纲不一致,可能需要归一化去除影响。目标列为酒的质量,分数0-10分,分数越高,酒的质量越好<br />数据大小:96.1 KB<br />字段数量:12<br />使用组件:归一化,拆分,SQL脚本,读数据表<br />

1108 0
来自: 人工智能平台PAI  版块
|
SQL 消息中间件 JSON
|

Flink 1.10 SQL、HiveCatalog 与事件时间整合示例

Flink 1.10 与 1.9 相比又是个创新版本,在我们感兴趣的很多方面都有改进,特别是 Flink SQL。本文用根据埋点日志计算 PV、UV 的简单示例来体验 Flink 1.10 的两个重要新特性.

1227 0
来自: 实时计算 Flink  版块
|
6月前
|
机器学习/深度学习 JSON 监控
|

国内最大的MCP中文社区来了,4000多个服务等你体验

国内最大的MCP中文社区MCPServers来了!平台汇聚4000多个服务资源,涵盖娱乐、监控、云平台等多个领域,为开发者提供一站式技术支持。不仅有丰富的中文学习资料,还有详细的实战教程,如一键接入MCP天气服务等。MCPServers专注模块稳定性和实用性,经过99.99% SLA认证,是高效开发的理想选择。立即访问mcpservers.cn,开启你的开发之旅!

8284 16

yonghuahuaxiang

基于用户画像和消费行为的商品推荐<br />数据源:购物数据<br />数据大小:184 KB<br />字段数量:4<br />使用组件:归一化,过滤与映射,SQL脚本,缺失值填充,读数据表,JOIN,类型转换<br />

776 0
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 存储 SQL
|

Flink 消息聚合处理方案

在本篇文章中我们将详细介绍 Flink 中对消息进行聚合处理的方案,描述不同方案中可能遇到的问题和解决方法,并进行对比。

1178 0
来自: 实时计算 Flink  版块
|
SQL 存储 分布式计算
|

Flink 与 Hive 的磨合期

在上篇文章中,笔者使用的 CDH 版本为 5.16.2,其中 Hive 版本为 1.1.0(CDH 5.x 系列 Hive 版本都不高于 1.1.0,是不是不可理解),Flink 源代码本身对 Hive 1.1.0 版本兼容性不好,存在不少问题。

2577 0
来自: 实时计算 Flink  版块

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
67319
内容
127
活动
439319
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务