|
SQL 数据可视化 大数据
|

大数据美食——寻找地图上的美味

上次分享了《教你30分钟创建汽车大屏》后,来咨询的人很多,其中地图可视化的问题最集中,这次我花了点时间,准备了一份美食相关的测试数据,向大家分享《地图上的美食》如何做成的

48870 1
来自: 数据可视化DataV  版块
|
SQL 分布式计算 大数据
|

阿里云数加大数据计算服务MaxCompute学习路线图 (持续更新中)

最近很多客户私信来咨询如何学习阿里云数加大数据计算服务MaxCompute 技术。为此,我们列了一个路线图供大家学习大数据计算服务MaxCompute。这个列表包含了一些社区的优秀资料和我们的原创文章。我们会随着大数据计算服务MaxCompute技术的发展持续更新本文,也会在云栖社区继续贡献

30360 4
来自: 大数据计算 MaxCompute  版块
|
数据可视化
|

DataV接入ECharts图表库 可视化利器强强联手

两个扛把子级产品的结合,而且文末有彩蛋。

24881 0
来自: 数据可视化DataV  版块
|
新零售 搜索推荐 调度
|

通过Flink实时构建搜索引擎的索引

1.背景介绍 搜索引擎的出现大大降低了人们寻找信息的难度,已经深入到生活与工作的方方面面,简单列举几个应用如下: 互联网搜索,如谷歌,百度等; 垂直搜索,如淘宝、天猫的商品搜索; 站内搜索,各个内容网站提供的站内搜索服务; 企业内部搜索,员工查询企业内部信息; 广告投放,根据投放上下文检索出对应的广告主和广告内容; 搜索引擎的关键是让用户找到其所需信息,其整体架构如下: 从图示可知,一个搜索引擎从大的方面来看主要包括两部分,一部分是提供在线的搜索服务,一部分要把原始数据已离线的方式建立索引,建立索引是信息可搜索的前提。

17435 2
来自: 实时计算 Flink  版块
|
消息中间件 Web App开发 监控
|

Flume+Kafka+Flink+Redis构建大数据实时处理系统:实时统计网站PV、UV展示

1.大数据处理的常用方法 大数据处理目前比较流行的是两种方法,一种是离线处理,一种是在线处理,基本处理架构如下: 在互联网应用中,不管是哪一种处理方式,其基本的数据来源都是日志数据,例如对于web应用来说,则可能是用户的访问日志、用户的点击日志等。

23147 15
来自: 实时计算 Flink  版块
|
对象存储 存储 分布式计算
|

JindoFS: 云上大数据的高性能数据湖存储方案

JindoFS 是EMR打造的高性能大数据存储服务,可以为不同的计算引擎提供不同的存储服务,可以根据应用的场景来选择不同的存储模式。在2019杭州云栖大会大数据生态专场,阿里巴巴计算平台事业部EMR团队技术专家殳鑫鑫和Intel大数据团队软件开发经理徐铖共同向大家分享了云上大数据的高性能数据湖存储方案JindoFS的产生背景、架构以及与Intel DCPM的性能评测。

16355 1
|
大数据 分布式计算 安全
|

混合云模式下 MaxCompute + Hadoop 混搭大数据架构实践

2019杭州云栖大会大数据企业级服务专场,由斗鱼大数据高级专家张龙带来以 “混合云模式下 MaxCompute+Hadoop 混搭大数据架构实践” 为题的演讲。本文讲述了从 Apache Hadoop 阶段到 Cloudera CDH 阶段斗鱼大数据架构的发展历程。提出了上云过程中斗鱼遇到的问题和跳战,包括数据安全、数据同步以及迁移任务。概括了混合云模式给斗鱼带来资源效率更高和资源成本更低的变化。

15885 1
来自: 大数据计算 MaxCompute  版块
|
安全 数据中心 分布式计算
|

如何有效降低大数据平台安全风险

在2019杭州云栖大会大数据企业级服务专场,由阿里云智能计算平台事业部资深技术专家李雪峰带来以“如何有效降低大数据平台安全风险”为题的演讲。本文首先概括了企业在大数据上云过程中会产生的安全顾虑。接着,在大数据平台中要处理的安全风险中,对数据中心物理安全与网络安全、大数据平台系统安全以及数据应用安全三部分做了详细的介绍。最后,描述了阿里云飞天大数据平台的安全体系。

13643 1
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 搜索推荐
|

大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据加工:用户画像》篇

本手册为阿里云MVP《云计算·大数据:海量日志数据分析与应用》的《数据加工:用户画像》篇而准备。主要阐述在使用大数据开发套件过程中如何将已经采集至MaxCompute上的日志数据进行加工并进行用户画像,学员可以根据本实验手册,去学习如何创建SQL任务、如何处理原始日志数据。

13118 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 算法
|

MaxCompute SQL原理解析及性能调优

分享内容 介绍了ODPS SQL的基于mapreduce是如何实现的及一些使用小技巧,回顾了mapreduce各个阶段可能产生的问题及相应的处理方法,同时介绍了一些应对数据倾斜的处理方法,最后介绍了一些关于数据集构造、特征选择的技巧帮助减少资源利用。

12465 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 算法 搜索推荐
|

【玩转数据系列十三】机器学习算法基于信用卡消费记录做信用评分

机器学习算法基于信用卡消费记录做信用评分 背景 如果你是做互联网金融的,那么一定听说过评分卡。评分卡是信用风险评估领域常用的建模方法,评分卡并不简单对应于某一种机器学习算法,而是一种通用的建模框架,将原始数据通过分箱后进行特征工程变换,继而应用于线性模型进行建模的一种方法。

14887 0
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 分布式计算 数据可视化
|

实践!如何用阿里云的机器学习得出泰坦尼克号沉船事件中谁有更大的概率获救

阿里云机器学习平台该平台沉淀了阿里巴巴的机器学习算法体系和经验,从数据的预处理、到机器学习算法、模型的评估和预测动能。

14603 0
来自: 人工智能平台PAI  版块
|
存储 缓存 分布式计算
|

JindoFS概述:云原生的大数据计算存储分离方案

JindoFS 是一套新的云原生的数据湖解决方案。在 JindoFS 之前,云上客户主要使用 HDFS 和 OSS/S3 作为大数据存储。HDFS 是 Hadoop 原生的存储系统,10 年来,HDFS 已经成为大数据生态的存储标准,但是我们也可以看到 HDFS 虽然不断优化,但是 JVM 的瓶颈也始终无法突破。

23083 3
|
分布式计算 监控 关系型数据库
|

基于Spark Streaming 进行 MySQL Binlog 日志准实时传输

基本架构 RDS -> SLS -> Spark Streaming -> Spark HDFS 上述链路主要包含3个过程: 如何把 RDS 的 binlog 收集到 SLS。 如何通过 Spark Streaming 将 SLS 中的日志读取出来,进行分析。

11007 0
|
机器学习/深度学习 分布式计算 数据挖掘
|

MaxCompute上你从未体验过的数据分析和机器学习过程

PyODPS,拥有对于Python用户传统的数据分析和机器学习愉快的体验,包括了DataFrame框架和机器学习模块,它们类似于pandas+scikit-learn,能用它们进行数据分析、绘图、机器学习等等。

10210 0
来自: 大数据计算 MaxCompute  版块
|
存储 JSON 分布式计算
|

标签分类理论

最近在做DMP,负责设计一套标签管理系统。在对现有标签进行整理的过程中,整理出了这套东西。 0. 标签的定义:标签分类学(Taxonomy) 对于标签(tag),很难列出一个公认的定义,指明这个概念的种差与属概念。所以为了把握这个概念,就需要采取定义另一种办法:分类与枚举。 我们要解决的第一个

12657 1
来自: 大数据计算 MaxCompute  版块
|
SQL 算法 安全
|

什么是阿里云数加大数据计算服务MaxCompute?

MaxCompute简介 大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。

10922 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 监控
|

阿里云 MaxCompute 2020-4 月刊

4月MaxCompute审计日志发布,可通过历史事件及明细查询、实时行为事件分析,满足您实时审计、问题回溯分析等需求。同时,MaxCompute在支持实时消费监控告警的基础上新发布支持对按量付费单个SQL作业的消费进行控制,帮您更好的监控消费。更多4月的新功能与新解决方案,欢迎阅读4月刊。

9134 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 大数据
|

导出SQL运行结果的方法总结

本文通过几个例子,介绍了几种下载MaxCompute SQL计算结果的方法。为了减少篇幅,所有的SDK部分都只举例介绍Java的例子。 SQLTask SQLTask是SDK直接调用MaxCompute SQL的接口,能很方便得运行SQL并获得其返回结果。 从文档可以看到,SQLTask.ge

12437 1
来自: 大数据计算 MaxCompute  版块
|
项目管理
|

MaxCompute 项目子账号做权限管理

场景: 一个企业使用多款阿里云产品,MaxCompute是其中一个产品,用的是同个主账号,主账号不是由使用MaxCompute的大数据同学管理,  大数据同学使用的是子账号。大数据同学日常需要给MaxCompute项目 操作新增子账号(add  user),新的子账号授权(grant xx on project/table)等操作,即日常权限管理。

8933 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 MaxCompute
|

MaxCompute SQL-列转行和行转列

1. 假设我们在MaxCompute中有两张表,其中一张表是存用户基本信息,另一张表是存用户的地址信息等,表数据假设如下: user_basic_info: id name 1 a 2 b 3 c

13143 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 搜索推荐 算法
|

告别1人年,教你21天搭建推荐系统!

本文作者为阿里云技术专家郑重(卢梭),主要分享内容是如何在21天内快速搭建推荐系统。推荐系统的搭建是个复杂工程,涉及到实时计算、离线计算,以及各种数据采集、流转等,对自建推荐系统来说,1人年是跑不掉的。 本文介绍的内容还包括如何搭建一个个性化推荐系统所需的环境准备、基本配置和离线技术等基本功能的搭

9726 0
来自: 大数据计算 MaxCompute  版块
|
运维 搜索推荐 调度
|

Ha3搜索引擎简介

Ha3是阿里巴巴搜索团队开发的搜索引擎平台,它为阿里集团包括淘宝、天猫在内的核心业务提供搜索服务支持。

21305 1
来自: 智能搜索推荐  版块
|
SQL 分布式计算 MaxCompute
|

如何用SQL对MaxCompute数据进行修改和删除

MaxCompute SQL不支持对数据的Update和Delete操作,但是实际工作中可能确实有一些场景需要这样处理,怎么办呢?本文就各种场景下的的解决方法做一个说明。 特别提醒大家,在工作中为避免误操作,尽量避免直接对数据进行直接的修改和删除,建议是创建一张新的表,把结果表进过加工后写入新的表

10849 0
来自: 大数据计算 MaxCompute  版块
|
大数据 存储 调度
|

阿里巴巴大数据技术关键进展及展望

2019杭州云栖大会大数据技术专场,由阿里云通用计算平台负责人关涛带来以 “阿里巴巴大数据技术关键进展及展望” 为主题的演讲。本文首先讲解了从阿里巴巴的角度看待大数据领域的客户价值迁移,概览了核心技术的发展点,最后针对如何构建智能化大数据平台的相关工作进行了介绍,从引擎优化到 “自动驾驶”,并列举了几个典型案例。

12218 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 监控 搜索推荐
|

基于MaxCompute构建企业用户画像(用户标签的制作)

在数据化营销时代,数据的价值越发显得更为珍贵。那如何让自己的数据发挥价值,也就是说如何让公司沉睡的数据能够驱动业务发展给公司带来商业价值?在营销里面我们都谈精准营销,谈用户画像,那用户画像到底如何构建,用户的标签如何开发?本示例给与最简单的demo,那个大家清楚认识基于MaxCompute如何构建企业用户标签。

8766 0
来自: 大数据计算 MaxCompute  版块
|
Web App开发 运维 自然语言处理
|

使用llvm实现一门语言 —— cava

本文将介绍如何使用llvm+bison+flex技术实现一门编程语言。 以我们实现的cava语言为例,介绍编译器各阶段,词法分析 -> 语法分析 -> 语义分析 -> 中间代码优化 -> 目标代码生成,最终生成汇编指令,再由汇编语言根据不同的指令集生成对应的可执行程序是如何实现的。

10799 0
来自: 智能搜索推荐  版块
|
大数据
|

大数据简析“林丹出轨事件”背后的微博信息传播

超级丹出轨,微博热门话题再次被置换,21.2亿的“话题阅读”瞬间将第二名甩的不见身影。看着恐怖的阅读数,笔者不由感叹,“互联网时代做人真难”。

7383 0
来自: 大数据计算 MaxCompute  版块
|
开发者
|

2019北京Elastic开发者大会日程重磅上线 | 由阿里云联合赞助

2019年度Elastic中国开发者大会(北京)是由Elastic官方在中国举办的第三次开发者大会。阿里云作为Elasticsearch云上生态的主要推动者,很荣幸作为本次大会战略级合作伙伴参与其中,届时将和Elastic技术社区联合发布《Elasticsearch中国开发者报告》。

7839 0
|
存储 SQL API
|

【对话科技】Flink技术介绍和新功能展望

2017年6月22号,由“京城学堂”和阿里巴巴集团技术发展部主办的“对话科技”系列讲座邀请到了Apache Flink项目的PMC成员,来自德国DataArtisans公司的Till Rohrmann,在北京阿里中心为关注实时计算技术的阿里同学做了一场关于Apache Flink技术发展的精彩分享。

6817 0
来自: 实时计算 Flink  版块
|
SQL 新零售 消息中间件
|

Flink: 实时规则引擎助力新零售发展

9931 0
来自: 实时计算 Flink  版块
|
大数据 云计算
|

阿里云数加合作伙伴-袋鼠云获A轮融资,成立一年半获三轮投资超亿元

创投市场再次风起。2017年7月,袋鼠云宣布,获得来自戈壁创投主投、元璟资本跟投的A轮融资,相对于当前冷淡的投资市场,此举也再次引发了行业对大数据、云计算技术创新企业的关注。据袋鼠云CEO陈吉平(花名:拖雷)介绍,获得的资金将投入到三个方面:数据智能产品研发、高端数据智能人才的引进和培养、袋鼠云品牌打造和市场推广。

6769 0
来自: 大数据计算 MaxCompute  版块
|
SQL 存储 分布式计算
|

MaxCompute 使用总结-初级篇

本文面向的读者是要使用MaxCompute sql进行一些数据查询和挖掘,或者要使用MaxCompute udf自定义函数的用户。

8264 1
来自: 大数据计算 MaxCompute  版块
|
人工智能 自然语言处理 算法
|

基于数加分析政府工作报告

摘要:3月5日,第十二届全国人民代表大会第五次会议在北京人民大会堂开幕,两会期间的“部长通道”是每年两会的一个亮点,李克强总理多次强调要让部长们当“第一新闻发言人”,积极回应舆论关切,给社会各界一个稳定预期。

6148 0
来自: 大数据计算 MaxCompute  版块

使用Spark Streaming SQL基于时间窗口进行数据统计

流式计算一个很常见的场景是基于事件时间进行处理,常用于检测、监控、根据时间进行统计等系统中。使用Spark Streaming SQL可以很方便的对事件数据中的时间字段进行处理,本文通过讲解一个统计用户在过去5秒钟内点击网页次数的案例,介绍如何使用Spark Streaming SQL对事件时间进行操作。

8336 0
|
分布式计算 安全 大数据
|

企查查支撑8000万+企业数据的大数据平台技术选型与实现

企查查终端所有企业工商信息均实时同步更新,汇集了目前国内市场中的80个产业链,8000个行业,6000个市场以及8000多万家企业数据。

7722 0
来自: 大数据计算 MaxCompute  版块
|
Web App开发 分布式计算 Java
|

MaxCompute(原ODPS) MapReduce常见问题解答

#### 1. 作业出现ClassNotFoundException和NoClassDefFoundError异常失败? A: 对于ClassNotFoundException异常,一般是依赖的class不在你的jar包中,需要把依赖的库打到作业jar包中或者单独上传,并在-resources中指

6679 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 MaxCompute SQL
|

基于MaxCompute InformationSchema进行冷门表热门表访问分析

在实际的数据平台运营管理过程中,数据表的规模往往随着更多业务数据的接入以及数据应用的建设而逐渐增长到非常大的规模,数据管理人员往往希望能够利用元数据的分析来更好地掌握不同数据表的使用情况,从而优化数据模型。

6544 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 分布式计算 大数据
|

一图胜千言,阿里云视觉大数据智能计算实践

在2016云栖大会杭州峰会人工智能专场上,阿里云研究员、资深总监华先胜为大家带来了阿里云眼视觉大数据智能计算的实践经验。所谓“一图胜千言”,图像所包含的数据量非常之大,如何充分利用人工智能和大数据以及云计算的平台从海量的视频与图像信息中挖掘数据的价值呢?本文就为大家分享。

6077 0
来自: 大数据计算 MaxCompute  版块
|
存储 分布式计算 算法
|

基于MaxCompute的媒体大数据开放平台建设

摘要:随着自媒体的发展,传统媒体面临着巨大的压力和挑战,新华智云运用大数据和人工智能技术,致力于为媒体行业赋能。通过媒体大数据开放平台,将媒体行业全网数据汇总起来,借助平台数据处理能力和算法能力,将有价值数据内容和能力开放给用户。

5740 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 IDE 大数据
|

MaxCompute和DataIDE权限体系介绍

理解大数据开发套件和大数据计算服务的权限体系。

5171 0
来自: 大数据计算 MaxCompute  版块
|
大数据 数据中心 云计算
|

Gartner公布2017年全球云计算魔力象限:阿里云进入前四

据媒体报道,6月16日,国际知名调研机构Gartner公布了2017年全球云计算IaaS魔力象限,阿里云强势崛起成为这一核心领域的前四名。这也是中国云计算厂商首次进入Gartner的IaaS魔力象限。

5254 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 数据库
|

佰腾科技的专利大数据的云上裂变之路

在票选最美云上大数据暨大数据技术峰会上,来自江苏佰腾科技有限公司的许鹏通过介绍佰腾专利大数据平台的演化、上云前后的平台结构和任务处理流程,为大家分享了专利大数据的云上裂变之路,解释了非专业人士也能进行专利信息的检索与统计,即专利信息的大众化。

5896 0
来自: 大数据计算 MaxCompute  版块
|
算法 搜索推荐
|

推荐系统之冷启动问题

5652 0
来自: 人工智能平台PAI  版块
|
机器学习/深度学习
|

机器学习系列直播--使用对抗神经网络(GANs)生成猫【8月30日 20点不见不散】

对抗神经网络模型(GANs)作为当下最火的神经网络模型 使用GANs我们可以还原图像原始颜色 可以还原马赛克: 可以把漫画变成真实图像 可以把文字变成图像 还可以进行视频下一帧预测.

5024 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 Hadoop
|

盘点全球最热门十家大数据公司中国占据三席

近两年来,大数据发展浪潮席卷全球。研究机构IDC预测,全球大数据与分析市场规模将由2015年的1220亿美元,在5年间成长超过50%,并在2019年底达到1870亿美元的规模。

4983 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 安全 大数据
|

开源大数据周刊-第12期

本周包括 全景洞察大数据全貌、数据分析师的职业规划、打造智能聊天机器人、E-Mapreduce的相关实践及动态、最近值得关注的大数据会议。

4943 0
|
人工智能 分布式计算 大数据
|

阿里云MaxCompute加速全球化布局 11月1日北京、马来西亚两地开服

11月1日,阿里云宣布大数据计算服务MaxCompute在北京和马来西亚同日开服。这是阿里云首次将其大数据计算服务在国内和海外双节点同时开服,特别是在马来西亚数据中心全球开放2天后,MaxCompute即开服马来西亚,意味着大数据计算产品正在市场和业务的呼唤下加速全球化拓展步伐。

4729 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 测试技术 数据库
|

MaxCompute原(ODPS)创建dual表

4992 0
来自: 大数据计算 MaxCompute  版块
|
新零售 机器学习/深度学习 分布式计算
|

专访360医药大数据负责人侯晓锋:谈未来智能医疗的挑战及实践

随着业务的发展壮大,数据量持续增加。集群变大,实时计算硬件资源消耗也变大。集群的维护成本不断增加,。大数据计算服务MaxCompute帮我们省去了这些维护成本。让我们更加专注于业务,专注让数据产生价值。

4624 0
来自: 大数据计算 MaxCompute  版块

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
64074
内容
106
活动
438008
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务