我的2017云栖之行

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 2017云栖大会参会感想

我的2017云栖之行

——笨笨的粽子妞

零:云栖初印象

说起今年的云栖,很早就关注了,但是苦于京杭的距离和工作原因,一直在摇摆不定,但是又不想给自己留下遗憾。在收到赠票后,毅然决然请假,在10月9日踏上云栖之行。

然而,天公不作美,9号的北京,雨从早到晚,一直下个不停。原定下午六点的航班,一直延误到晚上十二点,因担心航班取消,便申请了改签,好在在10日凌晨落地杭州。

9e316efcbdbbbec72e7d04c966f06626c1223b4a

  因为酒店定在西湖附近,在稍作休息之后,早上6点便起身洗漱,前往云栖小镇。

  上次来杭州已是三年前,现在的杭州,不得不说,给人一种油然而生的喜爱之情,宁静、静谧,途径杨公堤时,除了能够呼吸到清新的空气以外,两边郁郁葱葱的树林,给人以生机,阳光洒入树林中,一束束光映入眼帘,美不胜收。道路两旁时不时还有跑步经过的年轻人,甚至老奶奶,不禁感叹不已。

  在去云栖小镇的路上,可以看到距离云栖大会XX公里的指示牌,在快到云栖小镇的转完路口,可以看到云栖小镇的花坛。

d137338f1f3e83526823615e93245af2dc6c7648

  云栖小镇A、B馆的外观图:

ff28017b8683f8379ad6c9af91e1c085d8cc1b83

  云栖小镇A、B和C馆之间的拱形门:

d6533d507b02edea166b1c60e73f7c50606674ee

  B馆门口的参会指南:

0e499a4cd45d0c15b6e6af2e0d1523ebe4981306

  C馆门口的无人机试飞区:

73f6fa11469a974a893d173e81cbb5d79494711e

  D区的自动签到区:

048538baba4397c8a3e341eea096459c15fff9fa

壹:Tech Insight专场

Tech Insight主要面向开发者、架构师以及产品技术管理人员,解读各类跨行业解决方案,包含5场分论坛,2场Workshop,1场MVP Demo Show,在论坛外的休息区,还有阿里云专家一对一的交流专区。

aedc84d1d13de441059a4a8f3f354794e90318b1


我此次主要参加了Alibaba Cloud Workshop,包括上午的《云计算 大数据:海量日志数据分析与应用》和下午的《在线用户行为分析:基于流式计算的数据处理及应用》。

60fb26432d17785783058ebbd9732dd03e29f2a5 

简略的学习笔记如下:

 

Tech Insight_20171010_《云计算 大数据:海量日志数据分析与应用》

教程:https://yq.aliyun.com/articles/72538

 

阿里云数加的前世今生?

2009.9 阿里云成立,开始自主研发计算平台

数加是阿里云大数据的品牌名,旗下包含一系列的大数据产品及服务。

人工智能、BI、数仓,行业场景化应用

DataWorks产品架构

网站日志分析思路

明确业务问题,搜集整理数据

数据分析挖掘,提取有效信息

制定经营策略,优化提升价值

从用户行为到用户画像:日志分析

自然属性、地理属性、统计属性、社会属性、……

从原始日志文件数据,提炼直观清晰的用户行为属性分析结果

数据采集、画像分析、数据展现

大数据计算服务MaxCompute

大数据开发套件DataWorks

1. 环境准备

https://yq.aliyun.com/articles/72350?spm=5176.100239.blogcont72538.15.3gP1LE

为什么进行数据采集?

带来挑战:不易维护、配置复杂、局限于单机、无法跨网络

多并发、分布式执行(突破单机瓶颈)

无需暴露公网地址,实现数据跨机房交换(解决无法跨网络问题)

实验步骤

需求分析

南丁格尔玫瑰图

数据可视化的意义

高效理解数据

快速洞察规律

即时发现异常

BDP能为企业带来什么价值?

整合内部外部数据,统一数据管控口径

同比环比留存重复,高级计算一键接入

钻取筛选自由分析,业务人员按需索图

移动应用动态掌控,预警信息即时推送

57efb0b8fec57075291934ddade605f0f3ddf972

Tech Insight_20171010_《在线用户行为分析:基于流式计算的数据处理及应用》

13:30 - 13:50 流式日志分析及采集场景介绍及技术点分析 祎休 阿里云产品专家

如何提高平台的用户粘性和活跃度

如何从海量的日志中挖掘关键价值?

Nginx访问日志、用户行为日志、点击日志、性能日志、GPS日志

海量日志处理方案的演进

·         海量日志处理方案 1.0时代

无集中式处理

缺乏复杂事务处理

只做事后追查

·         海量日志处理方案 2.0时代

日志离线批处理

实时性差

非拿来即用

·         海量日志处理方案 3.0时代

快:只有数秒时延

大:每天处理TB级别日志量

灵活:可搜索分析日志

实时采集 Log 实时消费 StreamCompute 加工存储 RDS 可视化 DataV

Log实时采集/解析

13:50 - 14:35 流数据采集:海量流式视频日志收集 北洲 阿里云技术专家

目标:

监控用户体验和服务质量

多种来源:平台多、格式多

运维负担:集群扩容、采集工具运维

事后排查:HTTP 500、报警

日志服务(LOG

针对实时日志的一站式托管服务。

·         Hub:实时数据采集、存储和消费

·         Shipper:与数据仓库投递对接

·         Search/Analytics

LogHub

功能:通过ECS、容器、移动端、开源软件、JS等接入实时日志数据(例如MetricEventBinLogTextLogSyslog等)

与实时计算及服务对接,并提供SDK/API自定义消费

直播系统日志分析架构

设备端、浏览器——RTMP——ECS

14:45 - 15:30 流数据处理:通过StreamSQL分析视频日志 巴真 阿里云产品专家

数据处理面临的新场景

用户 (参与) 系统 (产生) 数据 报告 (决策) 用户 越快越好

用户参与系统交互,构成大量用户行为

系统跟踪用户行为,产生大量用户数据

数据进行加工处理,形成决策参考依据

决策通过影响客户,

实时侦测工业车床各指标,优化制品工艺

实时了解双十一全网总额,提升媒体曝光

实时了解各渠道广告效果,调优广告分配

商品大促广告投放的实时监控案例

数据装载 ——》批处理模型 —— 数据请求

批量模型,无法对实时数据进行实时处理

全量计算,无法对局部数据进行增量处理

主动请求,无法对上游变化进行及时响应

流数据订阅 —— 实时流计算模型—— 流数据写出

流式模型,对流式数据进行边流边算

增量计算,对局部数据进行增量处理

事件触发,实时上游变化进行及时响应

流计算如何解决问题

流数据订阅—— 流式计算—— 流数据写出

持续、低时延、事件触发

数据装载—— 批量计算 ——数据请求

批量、高时延、主动发起

流计算环境搭建

用户搭建环境遇到的问题

不想从头搭建流计算系统

不想负责运维流计算集群

不想处理大量技术细节

不想固定计算容量,无法应对流量洪峰

不享手工对接上下游诸多数据系统

不想黑屏化开发、黑屏化运维、工具零件化

流式处理系统构建难度太大,用户希望直接提供一套成熟的方案

阿里云流计算

产品定位:轻量型流数据分析工具,提供给用户在云上进行流式数据实时化分析功能。

核心Feature:主打以SQL语义的流式数据分析能力(Stream SQL),降低流处理开发门槛

主打提供Exactly-Once的处理语义保证,保证业务精确一致

辅助提供一站式的流式开发运维平台,方便用户快速上手

天然对接

日志采集

1.    引用外部日志服务源头表

2.    引用外部RDS结果表

3.    编写StreamSQL

4.    调试StreamSQL

5.    提交上线流式作业

15:30 - 16:15 数据可视化:构建实时动态运营数据分析大屏 鹿山 阿里云技术专家

 

33e7b433dcc9b138b3b81da536525959986dc77c

PS:中午提供了午餐,还是很开心的。


 

壹零:主论坛+分论坛

11日的主论坛门口,挤满了围观马爸爸的人,但是除了能进入主会场的VIP外,最终大家还是在直播视频上见到的马爸爸,见证了达摩院的公布。

0d58835c48f5e9f2dad40eaf6bc3cfce91c00d0c

此次大会有有上百场分论坛,从技术到经济、从安全到医疗,方方面面,让人眼花缭乱。在参会之前,其实有计划好去听哪些场次,但是到现场发现很多场次距离较远,时间上会有冲突,人数也较多,所以在实际听分论坛时做了一些取舍。

 

部分分论坛的简略笔记如下:

 

20171012_阿里妈妈数智营销专场

论坛时间:1012日上午 论坛地点:B-3-1 论坛简介:人工智能技术的发展,将为互联网营销带来哪些深刻的变革?阿里妈妈的人工智能技术有哪些亮点?在人工智能技术深刻营销的大趋势下,该如何适应潮流,创变未来?阿里妈妈将从技术、业务双重角度阐述在人工智能时代,阿里妈妈如何实现智能营销,为商家赋能。

fe9a285c1888ae74ff98fcc2e34ab57a9d3eab0a

09:00-09:45 人工智能技术开启互联网营销未来 刘凯鹏 阿里资深技术专家

阿里妈妈营销生态:

代理商赋能、开放第三方监测、阿里数据赋能、阿里电商、阿里媒体、外部合作媒体

阿里妈妈特有的数据优势:

200亿+日均展示 6.3亿用户数据 95%网民覆盖

5亿真实人口属性 5亿真实消费意向 3亿跨屏打通 5亿跨设备延续

新零售下营销新挑战

数字化、个性化、全周期

深度学习

智能工具

全周期营销:货品生命全周期营销支持

深度学习与营销场景:认知计算

输入(文本、图片…… —— 感知(看、读、…… —— 记忆(经验、知识、…… —— 判断(比较、推理、…… —— 输出(点击、购买、……

深度学习算法:深度认知网络

阿里大数据:闭环数据、真实行为、千亿样本

User —— Embedding Network ——》关系网络——》关系网络 ——》输出

Query —— Embedding Network ——| ||

Ad ——Embedding Network ——| 写入、读取

Image ——Convolutional Neural Network ——| 记忆网络:* Recurrent Procedure

表达学习 * Attentional Interface

输入 感知网络 * Structured Storage

+12%点击率 +13% 转化率

时序递归网络

factor machine

1.该网络由完全不同功能模块组成的非常复杂的网络,参数非常多,深度网络对计算能力比线性多,架构设计如何支撑海量

2.各个模块对数据要求不同,参数调整

测试场景是淘宝最为成熟的场景模块

表明建模和深度学习对用户行为的判断能力有了质的飞跃

性能:对比TensorFlow提高60

Asynchronous Data-Pipeline

Async Sample Processing

Double Buffer for gradient

智能工具:

·         智能创意:创意制作轻松精美

装饰:按需拼接

主图:层次化缓存

文案:深度语义理解&个性化内容生成

特殊:Logo 按需替换

·         智能受众:人群触达精确高效

·         智能出价:流量获取质优价廉 竞争是否激烈、质量如何

·         智能预算:预算使用聪明划算

全周期营销

MVB

新品 冷启动 排序引入新品价值

商品累计信用对未来产生影响

付费推广 定时推广

未来:数营销

数字媒体矩阵、海量用户数据、人工智能拘束、智能营销工具

技术如何运用到营销管理中

13da3a0975f2b5ba42425e45795f282d5f897238

09:45-10:30 智能设计-DT时代的新设计 Innovision 谢宣松 阿里巴巴资深技术专家

双十一预计3亿以上图片

视觉和设计:设计工作组成

像素 状态空间

两条主线:数据问题、问题定义清楚解决清楚

蒙特卡洛树

数据增强:从已有元素或组合的自动变化出合理且多样的元素或组合

基于知识的配色增强、基于数据的颜色增强、基于知识的颜色增强

预计今年双11:超7Banner由智能设计生成,总计在3亿

10:30-11:15 深度学习在阿里精准定向广告的实践及演化 朱小强 阿里巴巴高级算法专家

电商场景下的精准定向广告形态

Banner广告:首聚场景广告

Item广告:导购场景

机器学习信号输入:文本、图片、ID体系

电商场景下的广告CTRCVR预估问题及特点

用户:Past——Behavior timeline——Now

行为结构体:文本描述、创意图片、行为粒度(itemshopcate)、行为类型(clickcollectbuy)、行为时间、行为频次

Candidateclick ——collect——buy

深度学习在广告领域遭遇的挑战

图像 语音 广告

CNN结构 RNN结构

能够很好拟合数据规律:怎么用智能力量理解数据规律,拟合的规律不能是强记忆的,应具有泛化能力

01

我们怎么看深度学习技术:优势一:模型设计组件化,优势二:优化方法标准化,优势三:模型设计和模型优化解耦

抽象问题后面的模型

要回答的问题

1.适合互联网尺度稀疏离散数据的神经网络结构是什么?经典的FCN/CNN/RNN结构是否足够?

2.能否设计统一的模型架构,支持结构化信号(ID、图像、文字等等)的通用建模?

3.怎么保证百亿

4.

基于深度学习的CTR/CVR

激活权重

第一代DNN模型:系数分组嵌入网络GwEN

稀疏分组嵌入网络[2016] http://arxiv.org/abs/1706.06978 Deep Interest Network for Click-Through Rate Prediction

第二代DNN模型:用户兴趣分布网络DIN

深度兴趣网络[2017] https://arxiv.org/abs/1706.06978 Deep Interest Network for Click-Through Rate Prediction

激活权重分布可视化

PastAttention intensityUser Behavior Trace

第三代DNN模型:Cross-Media网络

图像泛化性

Tricks For Training Industrial Sparse Deep Nets

Mini-Batch Aware Regularization

Data

Rocket Training

无损压缩

通用方法:用复杂模型作为老师,指导学生简单

Rocket Training2017https://arxiv.org/abs/1708.04106 Rocket Launching: A Universal and Efficient Framework for Training Well-performing Light Net

固定老师网络的参数

11:15-12:00 XDL:工业级的深度学习框架 腾冥(孙鹏)阿里巴巴高级技术专家

充分洞察用户的兴趣习惯,提供更好的个性化体验

互联网核心应用问题:搜索、推荐、广告

XDL的初心:互联网个性化应用领域的定制化、垂直解决方案(灵活赋能主流算法实现与创新)——

工业级深度学习框架

输出不一定是0-1值,可能会是序列

算法创新驱动XDL框架设计:第一计算范式

工业级稀疏

算法创新驱动XDL框架设计:第二计算范式

查表查图像CNN查表组合

分布式处理-模型计算-分布式处理

XDL架构:A Distributed View

IO/AMS/Backend Tensor Flow

XDL架构: A Local View

XDL Dev Stack

结构化IO

Advanced Model ServerAMS

AMS之异构计算

CPU只做寻址,参数计算在GPU

 


壹壹:展会

  今年的参展商很多,展会上的一些新技术黑科技很多,远超预期,很赞,不解释,哈哈~

acc839a2f9795077dbac0c05e5b7e75fede22356115236b6a6797ceb4f5bb66287e3bb45a41f803b4bef00cc2a4bebcf9f7eb39d0667d9ab35a662de5cef888c0f8dca596eef5b4a459419e64fd168a7b12b51dc3ef5cf2f08cfa847f0272a007ecc344544cfd9ca50bd5c16709f9e95f962e981a84350c2b53d259ed39d214389cae9be76b53d45c49b81548c946094cb2600308e27104863efa81c26e0cf8d687e60b47a95695a0bcddd8d4662d57bf7b270b59f313db849bcbc0862de63ffa2e2fb5481730836


壹零贰肆:虾米音乐节

11号的主会场无法见到马爸爸,晚上的音乐节真是满足了一个小迷妹的追星梦,不但听到了马爸爸的歌声,还在马爸爸退场的时候在距离马爸爸两米距离之处见到马爸爸真人一秒钟,还是很超值的,哈哈。对了,还见到了萌萌哒淘公仔哦~

a2c31f1f13cdfe541672f8e91a9c85f0de73793c1ad9a446cad47c80df262ce834cf610e36cc0aae3b29a2e112098e8de1ed37262be7a3d18bdf09db5aa3a7e0a78c15fbc5d9cd73313d5fe5d599c647


贰零肆捌:云栖1718

  对于2017云栖大会,更多的是感动,感动与科技的进步,感动于大家对于技术的不懈追求,感动于我们所处的时代,处处是机遇,科技已经融入到我们生活的方方面面,同时也会在更多业务场景下,提供更多的应用服务。我们只有不断成长,技术不断沉淀,才有希望跟上技术的发展与时代的步伐。

  对于2018云栖大会,更多的是期待。期待云栖不单单是开发者的盛会,更是全国乃至全世界人民了解科技的一扇大门。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
人工智能 弹性计算 城市大脑
看云栖说云栖——产业互联网专场
阿里云对产业互联网的看法和一些案例。
447 0
看云栖说云栖——产业互联网专场
|
机器学习/深度学习 存储 人工智能
看云栖说云栖——互联网行业峰会
上次聊了聊互联网转型,这次就让我们聊聊互联网行业吧
312 0
看云栖说云栖——互联网行业峰会
|
数据采集 供应链 安全
看云栖说云栖 —— 数据中台
阿里巴巴数据中台是阿里云上实现数据智能的最佳实践,它是由数据中台方法论+组织+工具所组成。
1912 0
看云栖说云栖 —— 数据中台
|
存储 分布式计算 运维
看云栖说云栖—— 大数据技术
聊聊阿里的大数据核心技术。
1074 0
看云栖说云栖—— 大数据技术
|
新零售 人工智能 运维
看云栖说云栖——新零售行业峰会
有关阿里云新零售业务的介绍。
1198 0
|
监控 安全 自动驾驶
看云栖说云栖——智慧高速
纯行业内容,对智慧高速感兴趣的进
683 0
|
物联网 安全 容器
看云栖说云栖——第五赛道
2018年,阿里巴巴宣布IoT成为阿里继电商、金融、物流、云计算后的第五个主赛道。
637 0
|
数据中心 存储 运维
看云栖说云栖——风火水电、方升、泰山、貔貅
2019云栖大会上的数据中心和服务器硬件。
1712 0
云栖上的upm2017
2019年即将来启.新浪博客越来越来不讨人喜欢了, 新浪是一个只想搞娱乐的互联网公司, 而我是想做点技术和业务咨询方面的事.想找一个更有IT氛围的博客网站, 发现了阿里云的云栖社区有博客可供使用, 希望不要让我失望, 不会遇到新浪博客那样的流氓行为.
988 0