阿里云MaxCompute携手华大基因打造精准医疗应用云平台,十万基因组计算成本降低至1000美金以内
摘要:华大基因股份公司总监金鑫介绍了华大基因,并浅谈了与阿里云的情缘,包括Maxcompute等方面应用案例。一起来看下吧。 关于华大基因 华大基因是中国最领先的基因科技公司,华大基因为消除人类病痛、经济危机、国家灾难、濒危动物保护、缩小贫富差距等方面提供分子遗传层面的技术支持。
云数据,大计算—海量日志数据分析与应用
网站日志分析是大数据应用场景中非常常见的一种,今天我们通过实例对网站日志数据进行分析,从日志采集——>日志数据清洗、加工做画像分析——>BI报表展现,更进一步,通过社交数据分析做好友推荐 ,对整个全链路过程做实验操作演练,希望能给大家提供一些帮助。
年服务人次3300万+,网鱼网咖的大数据挑战及架构
从98年成立至今的18年中,网鱼累计签约门店已接近900家,已拥有超过830万会员,2016年网鱼网咖共服务了3300多万人次,服务范围覆盖全国100多个城市,现在网鱼网咖已走出国门,在加拿大、澳大利亚、新加坡等国家开设多家门店。
【阿里云网站日志分析实践】通过Log Service日志服务导入MaxCompute分析
日志服务收集的日志除了可以被实时查询外,还可以把日志数据投递到大数据计算服务MaxCompute(原ODPS),进一步进行个性化BI分析及数据挖掘。通过日志服务投递日志数据到MaxCompute具有如下优势: 使用非常简单。用户只需要完成2步配置即可以把日志服务Logstore的日志数
阿里云数加合作伙伴-袋鼠云获A轮融资,成立一年半获三轮投资超亿元
创投市场再次风起。2017年7月,袋鼠云宣布,获得来自戈壁创投主投、元璟资本跟投的A轮融资,相对于当前冷淡的投资市场,此举也再次引发了行业对大数据、云计算技术创新企业的关注。据袋鼠云CEO陈吉平(花名:拖雷)介绍,获得的资金将投入到三个方面:数据智能产品研发、高端数据智能人才的引进和培养、袋鼠云品牌打造和市场推广。
AI加持的阿里云飞天大数据平台技术揭秘
摘要:2019云栖大会大数据&AI专场,阿里云智能计算平台事业部研究员关涛、资深专家徐晟来为我们分享《AI加持的阿里云飞天大数据平台技术揭秘》。本文主要讲了三大部分,一是原创技术优化+系统融合,打破了数据增长和成本增长的线性关系,二是从云原生大数据平台到全域云数仓,阿里开始从原生系统走入到全域系统模式,三是大数据与AI双生系统,讲如何更好的支撑AI系统以及通过AI系统来优化大数据系统。
【8.23更新--技术干货全家桶】大数据计算技术共享计划 — MaxCompute技术公开课第二季
5月底MaxCompute开启大数据计算技术共享计划,第一季,为大数据爱好者和企业客户带来了MaxCompute数据开发实战的四次主题分享,有1500多名用户线上参加了共享季直播。7月24日,MaxCompute开启第二季技术公开课,近6000名大数据爱好者和企业客户参加了第二季的5次主题直播,越来越多的大数据专家、技术牛人、爱好者参与到我们的技术共享活动中来,让我们一起玩大数据如烹小鲜吧。
双11数据大屏背后的秘密:大规模流式增量计算及应用
回顾大数据技术领域大事件,最早可追溯到06年Hadoop的正式启动,而环顾四下,围绕着数据库及数据处理引擎,业内充斥着各种各样的大数据技术。在云栖社区2017在线技术峰会大数据技术峰会上,阿里云大数据计算平台架构师钱正平做了题为《大规模流式增量计算及应用》的分享,钱正平结合阿里巴巴真实的业务场景为大家分享了流式增量计算编程方面的挑战和当前的解决方案。
什么是PyODPS DataFrame
这篇文章解释了PyODPS DataFrame是什么,能做什么事情,以及简单介绍一下实现的原理。
双管齐下,MaxCompute数据上云与生态
在票选最美云上大数据暨大数据技术峰会上,来自飞天一部的朋春从MaxCompute提供的离线、实时数据通道入手,延伸到DTS、Logstash、DataX等官方/开源软件,向大家介绍如何从数据库、本地文件等多种存储向MaxCompute导入数据,分享最后还介绍了如何在Python和R语言中使用MaxCompute。
Presto实现原理(转)
Presto架构 Presto查询引擎是一个Master-Slave的架构,由一个Coordinator节点,一个Discovery Server节点,多个Worker节点组成,Discovery Server通常内嵌于Coordinator节点中。Coordinator负责解析SQL语句,生
日均百亿级日志处理:微博基于 Flink 的实时计算平台建设
传统基于 Hadoop 生态的离线数据存储计算方案已在业界形成统一的默契,但受制于离线计算的时效性制约,越来越多的数据应用场景已从离线转为实时。微博广告实时数据平台以此为背景进行设计与构建,目前该系统已支持日均处理日志数量超过百亿,接入产品线、业务日志类型若干。
手绘稿如何1秒变身数据大屏?深度学习让人人成为可视化专家
想在1天内快速搞定实时业务数据大屏吗?想用最短路径逆袭成为数据可视化大神吗?想在除了PRD外什么都没有的情况下,体验职场真人版绝境求生吗?
Cuckoo Hashing的应用及性能优化
Cuckoo Hash Table 使用了两个哈希函数来解决冲突。Cuckoo查询操作的理论复杂度为最差O(1),而Cuckoo的插入复杂度为均摊O(1)。我们引入Cuckoo是希望它在实际应用中,能够在较高的空间利用率下,仍然维持不错的查询性能。
MaxCompute(原ODPS)开发入门指南——数据开发工具篇
大家在使用大数据计算服务MaxCompute时,最头疼就是我现在已有的数据如何快速上云?我的日志数据如何采集到MaxCompute上?等等。。。具体详见《MaxCompute(原ODPS)开发入门指南——数据上云篇》。
阿里集团搜索中台TisPlus
阿里集团搜索中台TisPlus 搜索中台的发展 从阿里很多技术产品的发展路径来看都遵循着技术驱动、产品驱动、数据驱动三个阶段,那阿里巴巴的搜索技术的发展也基本基于上述的发展路径。
MaxCompute/DataWorks 数据集成与开发实践
摘要:在2017杭州云栖大会阿里云数加DataWorks专场上,阿里云产品专家代俊峰(花名:普阳)为大家分享了如何借助阿里云数加DataWorks工具进行数据集成和开发,分享了如何借助DataWorks实现从数据处理手工作坊到数据加工工厂的跨越转变。
基础平面地图——地图数据(散点、呼吸气泡、飞线等)不显示问题
地图数据(散点、呼吸气泡、飞线等)不显示问题:经纬度放反、API返回结果或者SQL查询结果与组件所需数据格式不匹配、数据过滤器、跨域问题。
Apache Flink 进阶(五):数据类型和序列化
本文根据 Apache Flink 系列直播整理而成,由 Apache Flink Contributor、360 数据开发高级工程师马庆祥老师分享。文章主要从如何为Flink量身定制的序列化框架、Flink序列化的最佳实践、Flink通信层的序列化以及问答环节四部分分享。
使用EMR-Kafka Connect进行数据迁移
流式处理中经常会遇到Kafka与其他系统进行数据同步或者Kafka集群间数据迁移的情景。使用EMR Kafka Connect可以方便快速的实现数据同步或者数据迁移。本文介绍使用EMR Kafka Connect的REST API接口在Kafka集群间进行数据迁移。
唱吧基于 MaxCompute 的大数据之路
在使用 MaxCompute之前,唱吧使用自建体系来存储处理各端收集来的日志数据,包括请求访问记录、埋点数据、服务器业务数据等。但随着每天处理数据量的增长,积累的历史数据越来越多,来自其他部门同事的需求越来越复杂,自建体系逐渐暴露出了能力上的短板。
SQL优化器原理-Metadata
这是MaxCompute有关SQL优化器原理的系列文章之一。我们会陆续推出SQL优化器有关优化规则和框架的其他文章。添加钉钉群“关系代数优化技术”(群号11719083)可以获取最新文章发布动态(二维码在文章末尾)。
iGraph架构演进之三战
前言 iGraph是搜索事业部工程团队打造的实时在线图存储与查询的系统,提供大规模图数据的存储、查询、更新和计算服务,目前承载了集团多个部门5000+表的数据,双11期间proxy入口峰值流量1106w qps、实时数据峰值更新506w qps,是名副其实的在线数据航空母舰。
从数砖开源 Delta Lake 说起
Spark AI 北美峰会的第一天,坊间传闻被证实,Databrics(俗称数砖,亦称砖厂)的杀手锏 Delta 产品特性作为 Delta Lake 项目开源!会前,笔者有幸同砖厂的两位大佬李潇和连城做了个线下交流,谈到 Delta 时被告知会有相关重磅在大会上宣布,但却没想到是开源出去。
hive在E-MapReduce集群的实践(一)hive异常排查入门
hive是hadoop集群最常用的数据分析工具,只要运行sql就可以分析海量数据。初学者在使用hive时,经常会遇到各种问题,不知道该怎么解决。 本文是hive实践系列的第一篇,以E-MapReduce集群环境为例,介绍常见的hive执行异常,定位和解决方法,以及hive日志查看方法。
【技术实验】Elasticsearch 做数据库系列之一:表结构定义
Elaticsearch 有非常好的查询性能和查询语法,在一定场景下可以替代RDBMS做为OLAP。《Elasticsearch 做数据库系列》系列文章通过类比SQL的概念,实验并学习Elasticsearch聚合DSL的语法和语义,并用 python 实现一个翻译器,能够使用 SQL 来完成 Elasticsearch 聚合DSL一样的功能。
【大数据技术干货】阿里云伏羲(fuxi)调度器FuxiMaster功能简介(一) 多租户(QuotaGroup)管理
转载自xingbao 各位好,这是介绍阿里云伏羲(fuxi)调度器系列文章的第一篇,今天主要介绍多租户(QuotaGroup)管理的实现 一、FuxiMaster简介 FuxiMaster和Yarn非常相似,定位于分布式系统中资源管理与分配的角色:一个典型的资源分配流程图如下所
万元大奖邀您参与阿里云数加 MaxCompute最佳实践征文大赛
DT时代,越来越多的企业应用数据步入云端。与传统Hadoop相比,阿里云数加MaxCompute(原名ODPS)向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。
1次演讲13次提到技术,马云在阿里巴巴年会上都说了什么?
阿里巴巴是一个奇迹,18年前的今天,阿里巴巴只有18人和50万人民币,18年后的今天,拥有54421名员工,市值4426亿美金,亚洲第1,全球第6。慕名上门拜访的各国高级政要更是络绎不绝,企业做到这份上,阿里巴巴算是独一家。
【阿里内部应用】基于Blink为新商业调控打造实时大数据交互查询服务
基于Blink为新商业调控打造实时大数据交互查询服务 从IT到DT、从电商到新商业,阿里巴巴的每个细胞都存在大数据的DNA,如何挖掘大数据的价值成为抢占未来先机的金钥匙!传统的大数据开发主要基于离线计算平台MaxCompute(ODPS)进行天级别、小时级别的批量数据分析,但近些年随着618、99.
MaxCompute(原ODPS) MapReduce常见问题解答
#### 1. 作业出现ClassNotFoundException和NoClassDefFoundError异常失败? A: 对于ClassNotFoundException异常,一般是依赖的class不在你的jar包中,需要把依赖的库打到作业jar包中或者单独上传,并在-resources中指
赋能平台、提效工具、场景化应用,地产大数据玩转有诀窍
在2017在线峰会——票选最美云上大数据暨大数据技术峰会上,来自明源云的刘峥分享了整个的地产行业的趋势以及探索应用实践。他主要从行业趋势和应用实践两个方面进行了分享。他详细的分享了数据管理平台DMP平台的基础层、画像层、算法层、展示层的架构设计,并通过应用场景诠释了大数据在地产行业的作用。
美甲帮:玩转指甲上的大数据平台
美甲帮APP目前有几百万的用户,然而不同用户喜好和动机不同,譬如是想提升美甲技艺,还是想通过美甲图片选款,或者是想在商城里购买美甲产品,如何挖掘用户需求并以此进行精准化营销或个性化推荐,提升客户体验同时又可以增加收入,这些都是美甲帮最关注的问题。
【X-Pack解读】阿里云Elasticsearch X-Pack 机器学习组件功能详解
阿里云Elasticsearch集成了Elastic Stack商业版的X-Pack组件包,包括安全、告警、监控、报表生成、图分析、机器学习等组件,用户可以开箱即用。本文将对X-Pack 的机器学习功能进行详细解读。
【云上ELK系列】Logstash迁移Elasticsearch数据方法解读
用Logstash实现Elasticsearch集群快速迁移,解读Logstash中metadata的功效,避免踩坑
YARN ResourceManager重启作业保留机制
YARN可以通过相关配置支持ResourceManager重启过程中,不影响正在运行的作业,即重启后,作业还能正常继续运行直到结束
E-MapReduce集群搭建HAWQ实践
HAWQ是一种基于HDFS的MPP(Massively Parallel Processing) SQL引擎,支持标准SQL/事务处理,性能比原生Hive快几百倍。本文介绍在E-MapReduce集群上面如何搭建HAWQ。
一种基于Lucene的实时搜索服务
因为本文篇幅有限,在这里我只会着重介绍:实时性、高可用性在我们产品中的一些技术实践。 实时解决方案 在介绍我们产品方案之前,首先介绍下业内常见的实时解决方案,见图1-1实时架构图: ,详细的接入方法可以见官方文档,本文主要阐述connector设计和使用上需要注意的问题。
阿里小二的日常工作要被TA们“接管”了!
昨天有人偷偷告诉我说 阿里巴巴其实是一家科技公司! 我想了整整一夜 究竟是谁走漏了风声 那么重点来了,阿里到底是如何在内部的办公、生活中,玩转“黑科技”的呢? AI取名:给你专属的“武侠”花名 花名是阿里巴巴独特的文化,也是阿里员工独一无二的“身份”。
阿里云机器学习平台PAI,助力降低机器学习的成本和技术门槛
摘要:在2017杭州云栖大会机器学习平台PAI专场上,阿里巴巴研究员、阿里云机器学习平台PAI负责人林伟为大家分享了人工智能的发展历史以及阿里云机器学习平台PAI的简单情况和特性。 本文内容根据嘉宾演讲视频以及PPT整理而成。
MaxCompute Studio使用心得系列1——本地数据上传下载
通过MaxCompute Studio工具界面,轻松完成tunnel命令能完成的本地数据导入导出工作。打破大数据开发套件中本地数据文件导入10M的限制,和打破下载只能下载查询结果最多10000行的限制。
首席技术官大数据专享会线上首播 | 2019飞天大数据平台技术公开课第六季
2019年11月29日阿里云智能飞天大数据平台在北京国家会议中心召开 “首席技术官大数据专享会”,超过70位企业首席技术官和大数据平台负责人与会。会上由来自阿里云智能,阿里巴巴搜索推荐事业部,阿里巴巴CRO技术部,友盟+的四位分享嘉宾进行了精彩演讲。
MaxCompute Studio使用心得系列4——可视化查看所有job并分析运行情况
“通过`show p -all;`命令查看所有执行过的job,再通过`wait instanceid;`查看这个job的logview,最后通过logview再查看具体的执行日志。” 这样的方式查看所有job并分析运行情况实在太麻烦,MaxCompute Studio已经可以轻松完成了。
大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据采集:日志数据上传》篇
本手册为云栖大会Workshop《云计算·大数据:海量日志数据分析与应用》的《数据采集:日志数据上传》篇而准备。主要为保障各位学员在workshop当天能够顺畅进行动手实操,那么本节为学员掌握阿里云数据采集的操作和使用。
大数据与机器学习
大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。