|
分布式计算 大数据 Hadoop
|

开源大数据周刊-第56期

阿里云E-Mapreduce实践: 使用hadoop restful api实现对集群信息的统计 资讯 全球因Hadoop服务器配置不当导致的数据泄露或达5120TB 网络犯罪分子近期开始针对配置不当的 Hadoop Clusters 与 CouchDB 服务器展开攻击活动。

2646 0
|
分布式计算 大数据 MaxCompute
|

MaxCompute UDF系列之拼音转换

汉字转换拼音在日常开发中是个很常见的问题。例如我们伟大的12306,在地名中输入“WH”,就会出现“武汉”“芜湖”“威海”等地名,输入“WUHU”就会出现“芜湖”。 我们在MaxCompute开发中也会遇到此类问题,今天为大家提供一个转换的UDF,下载地址见附件。

3702 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 DataWorks 调度
|

采云间DPC迁移方案实施计划

迁移计划概述: 第一阶段:前期沟通&准备 1、 请先熟悉Dataworks的相关操作,比如节点的新增、执行、调度运维等相关操作; 2、 本次迁移只把用户在采云间里面的任务迁移到DataWorks里面,需要用户提前确认采云间用到的odps项目在DataWorks中是否已经创建且可用;如果用户

2946 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 Hadoop
|

开源大数据周刊-第26期

云栖社区开源大数据专题回顾、后Hadoop时代圆桌讨论、Hadoop上云的冰与火、Flink的未来、城市大脑、大数据时代几个关键问题剖析

2685 0
|
分布式计算 安全 大数据
|

开源大数据周刊-第39期

2555 0
|
算法框架/工具 Python
|

数据科学老司机在线开车系列: 如何自己训练一个热狗识别模型

前情提要 美剧《硅谷》大家想必都没怎么看过,大家可能都不知道人工智能识别热狗曾是硅谷最赚钱的技术之一。去年 HBO 发布了官方的 Not Hotdog 应用,支持 iOS 和 Android 平台,据说是用 TensorFlow、Keras 和 React Native 打造的,但是源码没有公开。

3378 0
来自: 人工智能平台PAI  版块
|
资源调度 网络性能优化 调度
|

阿里巴巴搜索在离线统一调度

1. 发展历程         Hippo是搜索事业部调度系统团队自研的支撑集团内外多个BU搜索与推荐体系和阿里云上Opensearch/ES等的调度系统,经过了5年的快速发展,提供了可靠、简单、低成本的资源及应用托管方案,通过自动化运维、机器合池、智能弹性调度、混部和在离线统一调度等手段解决成本和效率的问题。

5108 0
来自: 智能搜索推荐  版块
|
大数据 云计算
|

什么是飞天?全球级大数据计算平台,自主研发!

飞天大数据平台就是数字化时代的核心技术。这是中国在新一轮科技革命中把握机遇的关键。

3715 0
来自: 大数据计算 MaxCompute  版块
|
JavaScript 大数据 Java
|

(ElasticsSearch学习)歌词检索Demo的实现:一. 爬取歌词信息,写入ES

一个ElasticSearchDemo,讲解如何使用Jsoup爬取歌词数据写入阿里云Elasticsearch,并搭建Web框架实现歌词的全文检索。

4186 0
|
人工智能 分布式计算 物联网
|

昨日广州云栖“大算”受追捧,今日揭秘阿里双11技术核武器MaxCompute,感恩节再放福利!(活动已结束)

MaxCompute感谢最最亲爱的客户,感谢您信任的将我选择,感谢您期待的将未来托付,更感谢您包容的与我比肩同行。感恩不应只在今天说出,而是在有你们支持走过的每一天。为亲爱的客户们奉上载满MaxCompute团队伙伴们感恩和祝福的话儿 “感恩有你,一路同行”。(文末有福利哦~)

2860 0
来自: 大数据计算 MaxCompute  版块
|
人工智能 安全 算法
|

当大数据邂逅酷暑,谁的热度更高?— 大数据计算杭州峰会圆满落幕

今夏,什么最热?世界杯。。。 除了世界杯还有什么热?杭州的天气。。。 当杭州酷暑遇上大数据,哪个更热? 先不答,往下看。 众所周知,计算的价值绝不止于计算本身,而是让不会说话的数据发声。 从玛雅历法到圆周率,从万有引力定律到二进制,从固化的物体到虚拟的思维都由数据注入。

3107 0
来自: 大数据计算 MaxCompute  版块
|
存储 SQL 消息中间件
|

美团点评基于 Flink 的实时数仓平台实践

数据仓库的建设是“数据智能”必不可少的一环,也是大规模数据应用中必然面临的挑战,而 Flink 实时数仓在数据链路中扮演着极为重要的角色。本文中,美团点评高级技术专家鲁昊为大家分享了美团点评基于 Apache Flink 的实时数仓平台实践。

5193 0
来自: 实时计算 Flink  版块
|
分布式计算 关系型数据库 大数据
|

开源大数据周刊-第40期

阿里云HBase支持PB级别的分布式数据库即将开始公测

2756 0
|
SQL 分布式计算 资源调度
|

带你玩转Logview: MaxCompute Logview参数详解和问题排查

对于Logview上的诸多参数信息,究竟应该怎么“拨开云雾”,发现问题所在呢?又如何通过Logview了解每个instance、task运行状态及资源占用情况,如何分析执行计划,分析query存在问题,找到Long-Tails task,让数据分析业务高效又省钱呢?本文中,阿里巴巴计算平台产品专家云花将为大家揭晓答案。

4634 0
来自: 大数据计算 MaxCompute  版块
|
大数据 TensorFlow Apache
|

开源大数据周刊-第71期

2591 0
|
运维 数据可视化 Linux
|

借助Beats快速搭建可视化运维系统

本例实现了一个对个人PC的可视化运维dashboard。拓展至N个节点的集群也同理可以实现。对于个人或者企业而言,约等于0成本的对接,将一步迈入可视化运维监控的阶段。

3994 0
|
分布式计算 大数据 Hadoop
|

开源大数据周刊-第7期

运行于云端的Hadoop——数据即服务的论证,预先知晓Hadoop3.0新特性。

3147 0
|
机器学习/深度学习 人工智能 算法
|

PAI智能答疑机器人上线啦

随着人工智能相关产业的持续火热,越来越多的同学开始尝试使用机器学习算法去解决问题。阿里云机器学习PAI平台作为人工智能行业的黑产物,每天都会收到用户们大量的咨询。为了更好地服务PAI平台的用户,同时也为了缓解售后同学的工作量。

3463 0
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 人工智能 分布式计算
|

用炸弹开路——加速到来的证券投资行业人工智能时代

去年开始涉足人工智能技术应用于证券投资领域的研究,将近两年的研究实践,发现公开资料上很多关于人工智能(AI)对证券投资业发展影响的文章都存在几个明显的思维误区:①一个是对人工智能的认识有误。人工智能是个广域笼统的概念,但基石是机器学习,以机器学习算法构建逻辑和规则为基石的人工智能与自动化程序软件及通过数据回测构建起来的以固定逻辑运行的量化投资模型是完全不同的事物,区别就好比活鸡和模型鸡,需要明白自动化软件不是人工智能,国内大多数所谓智能投顾其实还不是真正意义上的人工智能投顾;②另一个是曲解了人工智能在证券投资行业的应用。

2757 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 Spark 容器
|

Spark on Kubernetes原生支持浅析

概述 Kubernetes自推出以来,以其完善的集群配额、均衡、故障恢复能力,成为开源容器管理平台中的佼佼者。从设计思路上,Spark以开放Cluster Manager为理念,Kubernetes则以多语言、容器调度为卖点,二者的结合是顺理成章的。

4820 0
|
SQL 大数据 对象存储
|

E-MapReduce的Presto组件默认支持访问oss数据

阿里云E-MapReduce从EMR-2.1.0版本镜像开始,Presto组件默认就支持访问oss数据了,不再需要引导操作额外支持。

2711 0
|
流计算 存储 Apache
|

Apache Flink 进阶(三):Checkpoint 原理解析与应用实践

大家好,今天我将跟大家分享一下 Flink 里面的 Checkpoint,共分为四个部分。首先讲一下 Checkpoint 与 state 的关系,然后介绍什么是 state,第三部分介绍如何在 Flink 中使用state,第四部分则介绍 Checkpoint 的执行机制。

10223 2
来自: 实时计算 Flink  版块
|
分布式计算 MaxCompute
|

Alibaba Cloud MaxCompute to Be Available in Indonesia Which Will Serve as the 12th Global Data Region

On February 9, 2018, Alibaba Cloud MaxCompute will be officially available in Jakarta. By then, Indonesia will be the 12th region in MaxCompute global.

2582 0
来自: 大数据计算 MaxCompute  版块
|
存储 机器学习/深度学习 运维
|

Ververica Platform-阿里巴巴全新Flink企业版揭秘

本文主要从Ververica由来开始谈起,着重讲了Ververica Platform的四个核心插件App Manager、Libra Service、Stream Ledger、Gemini,以及阿里巴巴实时计算云原生版本相关特性及典型应用场景。

6450 1
来自: 实时计算 Flink  版块
|
流计算 资源调度 Java
|

Apache Flink 零基础入门(四):客户端操作的 5 种模式

本文主要分享 Flink 的 5 种任务提交的方式。熟练掌握各种任务提交方式,有利于提高我们日常的开发和运维效率。

7121 0
来自: 实时计算 Flink  版块
|
机器学习/深度学习 存储 算法
|

追求极致的AI·OS——AI·OS引擎平台

6342 0
来自: 智能搜索推荐  版块
|
分布式计算 算法 MaxCompute
|

云端大规模视频分析: MaxCompute在视觉计算中的应用

本文PPT来自阿里云iDST视觉计算技术专家慕开于10月15日在2016年杭州云栖大会上发表的《云端大规模视频分析:MaxCompute在视觉计算中的应用》。

2641 0
来自: 大数据计算 MaxCompute  版块
|
数据可视化
|

分享你的花样DataV

投稿你与DataV的“爱恨情仇”就有机会获得丰富的奖品!

5226 0
来自: 数据可视化DataV  版块
|
SQL 网络协议 Java
|

通过Gateway访问Presto

本文介绍使用HAProxy反向代理实现通过Gateway节点访问Presto服务的方法。该方法也很容扩展到其他组件,如Impala等。

2939 0

为什么要写技术文章-我对写作收获的理解

为了迎接更好的自己。 过去的止步不前 程序员最反感别人没写文档,最不喜欢自己写文档。 我一直很认同技术人员应该持续写技术文章,可以总结经验,打造个人品牌,等等。但加上公司内部分享,实际也没写多少篇,这可能也是很多技术人员的通病吧。

2850 0
|
流计算 数据库 存储
|

Flink State 有可能代替数据库吗?

State 的引入使得实时应用可以不依赖外部数据库来存储元数据及中间数据,部分情况下甚至可以直接用 State 存储结果数据,这让业界不禁思考: State 和 Database 是何种关系?有没有可能用 State 来代替数据库呢?

3567 0
来自: 实时计算 Flink  版块
|
算法 搜索推荐
|

CTR中的GBDT与LR算法融合

在广告点击机器学习实践中, 我们用的最多的是逻辑回归(LR)模型,使用大量的特征做为训练数据输入。 特征的组合非常关键,我们无法穷举这些组合,只能依赖于人工经验来判断,耗时耗力同时带来的效果可能还不好。 如何自动的发现有效的特征,是机器学习实践中要解决的问题。 Facebook 曾经介绍了使用GBDT与LR组合的方法,可以有效的解决这个问题,今天的课程就为大家讲解如何在PAI上实现GBDT与LR的融合。<br />数据源:<br />数据大小:770 KB<br />字段数量:20<br />使用组件:拆分,读数据表,特征编码<br />

2620 0
来自: 人工智能平台PAI  版块
|
算法 Java 容器
|

TPP多租户隔离之资源清理

利用ajdk实现jvm虚拟化,实现容器业务方案的热部署和资源隔离

3776 0
来自: 智能搜索推荐  版块
|
分布式计算 Java MaxCompute
|

MaxCompute_SDK_开发指南

方便和辅助 MaxCompute 开发人员使用 Java / Python SDK 方式进行日常代码的开发工作。

4644 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 算法 索引
|

OpenSearch算法产品化探索与实践

        作为搜索的用户,我觉得最关心的是两个方面:一是召回的结果是否符合预期,二是召回结果的排序是否符合预期。OpenSearch作为一个搜索服务提供平台,在这两个方面我们提供了一定机制方便用户定制自己的召回和排序逻辑。

3364 0
来自: 智能搜索推荐  版块
|
SQL 分布式计算 测试技术
|

扩展Spark Catalyst,打造自定义的Spark SQL引擎

在Spark2.2版本中,引入了新的扩展点,使得用户可以在Spark session中自定义自己的parser,analyzer,optimizer以及physical planning stragegy rule。

4550 0
|
机器学习/深度学习 人工智能 安全
|

开源大数据周刊-第79期

资讯 警惕大数据成了互联网的“PX项目” 新年伊始 BAT 三家关于数据安全的新闻就成功的吸引了公众的目光,也引发了公众对于大公司收集并使用用户数据的担忧。这篇文章比较客观的分析了公众的忧虑,以及互联网公司如何使用这些数据,可以说是一个很好数据安全的科普。

2266 0
|
存储 分布式计算 Apache
|

7月24日晚Spark社区直播:【Apache Spark 基于 Apache Arrow 的列式存储优化】

Apache Arrow 是一个基于内存的列式存储标准,旨在解决数据交换和传输过程中,序列化和反序列化带来的开销。目前,Apache Spark 社区的一些重要优化都在围绕 Apache Arrow 展开,本次分享会介绍 Apache Arrow 并分析通过 Arrow 将给 Spark 带来哪些特性。

2565 0
|
机器学习/深度学习 算法 测试技术
|

机器学习PAI 可视化建模 Tensorflow升级通知

机器学习PAI 可视化建模 Tensorflow升级通知!请PAI Tensorflow用户注意查收邮件!

3231 0
来自: 人工智能平台PAI  版块
|
流计算 SQL HIVE
|

小红书如何实现高效推荐?解密背后的大数据计算平台架构

小红书作为生活分享类社区,目前有8500万用户,年同比增长为300%,大约每天有30亿条笔记在发现首页进行展示。推荐是小红书非常核心且重要的场景之一,本文主要分享在推荐业务场景中小红书的实时计算应用。

9312 0
来自: 实时计算 Flink  版块
|
机器学习/深度学习 分布式计算 大数据
|

开源大数据周刊-第38期

本期关注:梨视频基于阿里云E-MapReduce搭建视频推荐系统的实践,Apache Eagle成为新的顶级项目,英特尔开源的分布式深度学习库BigDL,Hadoop 3.0新功能测评

2447 0
|
搜索推荐 分布式计算 MaxCompute
|

阿里云智能推荐AIRec产品介绍

本文中,来自阿里云搜索推荐技术团队的三秋为大家介绍了阿里云智能推荐AIRec产品的技术架构、核心功能,并与大家分享了使用阿里云智能推荐AIRec的实际案例以及技术场景。

6148 2
来自: 大数据计算 MaxCompute  版块
|
分布式计算 Shell MaxCompute
|

如何制作可以在 MaxCompute 上使用的 crcmod

之前我们介绍过在 PyODPS DataFrame 中使用三方包。对于二进制包而言,MaxCompute 要求使用包名包含 cp27-cp27m 的 Wheel 包。但对于部分长时间未更新的包,例如 oss2 依赖的 crcmod,PyPI 并未提供 Wheel 包,因而需要自行打包。

3458 0
来自: 大数据计算 MaxCompute  版块
|
资源调度 分布式计算 大数据
|

面向大数据与云计算调度挑战的阿里经济体核心调度系统—Fuxi 2.0全揭秘

随阿里经济体和阿里云丰富的业务需求(尤其是双十一)和磨练,伏羲的内涵不断扩大,从单一的资源调度器(对标开源系统的YARN)扩展成大数据的核心调度服务,覆盖数据调度(Data Placement)、资源调度(Resouce Management)、计算调度(Application Manager)、和本地微(自治)调度(即正文中的单机调度)等多个领域,并在每一个细分领域致力于打造超越业界主流的差异化能力。

4231 1
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 Java
|

MaxCompute_UDF_开发指南

本文将介绍Java / Python UDF 如何使用新建工程,添加代码,打包,上传资源包和注册方法,对初次接触的用户提供帮助。

5014 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 流计算
|

通过WebUI查看Structured Streaming作业统计信息

前言 从EMR-3.18.1版本开始,EMR将提供Spark Streaming SQL预览版功能。本次作为新特性的一部分,EMR将扩展现有Spark WebUI,支持Structured Streaming Query的统计信息查看。

2571 0
|
分布式计算 MaxCompute SQL
|

MaxCompute 最新特性介绍2019年8月版

距离上一次MaxCompute新功能的线上发布已经过去了大约一个季度的时间,而在这一段时间里,MaxCompute不断地在增加新的功能和特性,比如参数化视图、UDF支持动态参数、支持分区裁剪、生成建表DDL语句功能等功能都已经得到了广大开发者的广泛使用。

3032 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 分布式计算 算法
|

MaxCompute 图计算用户手册(下)

示例程序 强连通分量 在有向图中,如果从任意一个顶点出发,都能通过图中的边到达图中的每一个顶点,则称之为强连通图。一张有向图的顶点数极大的强连通子图称为强连通分量。此算法示例基于 parallel Coloring algorithm。

2554 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 大数据
|

MaxCompute全表扫描新功能,给你“失误”的机会

MaxCompute提供了在不修改代码的前提下,在MapReduce或自定义函数(UDF) 代码中,通过某个固定的资源名读取不同资源(数据)的需求。

2714 0
来自: 大数据计算 MaxCompute  版块

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
67317
内容
127
活动
439317
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务