我的2017云栖之行
——笨笨的粽子妞
零:云栖初印象
说起今年的云栖,很早就关注了,但是苦于京杭的距离和工作原因,一直在摇摆不定,但是又不想给自己留下遗憾。在收到赠票后,毅然决然请假,在10月9日踏上云栖之行。
然而,天公不作美,9号的北京,雨从早到晚,一直下个不停。原定下午六点的航班,一直延误到晚上十二点,因担心航班取消,便申请了改签,好在在10日凌晨落地杭州。
因为酒店定在西湖附近,在稍作休息之后,早上6点便起身洗漱,前往云栖小镇。
上次来杭州已是三年前,现在的杭州,不得不说,给人一种油然而生的喜爱之情,宁静、静谧,途径杨公堤时,除了能够呼吸到清新的空气以外,两边郁郁葱葱的树林,给人以生机,阳光洒入树林中,一束束光映入眼帘,美不胜收。道路两旁时不时还有跑步经过的年轻人,甚至老奶奶,不禁感叹不已。
在去云栖小镇的路上,可以看到距离云栖大会XX公里的指示牌,在快到云栖小镇的转完路口,可以看到云栖小镇的花坛。
云栖小镇A、B馆的外观图:
云栖小镇A、B和C馆之间的拱形门:
B馆门口的参会指南:
C馆门口的无人机试飞区:
D区的自动签到区:
壹:Tech Insight专场
Tech Insight主要面向开发者、架构师以及产品技术管理人员,解读各类跨行业解决方案,包含5场分论坛,2场Workshop,1场MVP Demo Show,在论坛外的休息区,还有阿里云专家一对一的交流专区。
我此次主要参加了Alibaba Cloud Workshop,包括上午的《云计算 大数据:海量日志数据分析与应用》和下午的《在线用户行为分析:基于流式计算的数据处理及应用》。
简略的学习笔记如下:
Tech Insight_20171010_《云计算 大数据:海量日志数据分析与应用》
教程:https://yq.aliyun.com/articles/72538
阿里云数加的前世今生?
2009.9 阿里云成立,开始自主研发计算平台
数加是阿里云大数据的品牌名,旗下包含一系列的大数据产品及服务。
人工智能、BI、数仓,行业场景化应用
DataWorks产品架构
网站日志分析思路
明确业务问题,搜集整理数据
数据分析挖掘,提取有效信息
制定经营策略,优化提升价值
从用户行为到用户画像:日志分析
自然属性、地理属性、统计属性、社会属性、……
从原始日志文件数据,提炼直观清晰的用户行为属性分析结果
数据采集、画像分析、数据展现
大数据计算服务MaxCompute
大数据开发套件DataWorks
1. 环境准备
https://yq.aliyun.com/articles/72350?spm=5176.100239.blogcont72538.15.3gP1LE
为什么进行数据采集?
带来挑战:不易维护、配置复杂、局限于单机、无法跨网络
多并发、分布式执行(突破单机瓶颈)
无需暴露公网地址,实现数据跨机房交换(解决无法跨网络问题)
实验步骤
需求分析
南丁格尔玫瑰图
数据可视化的意义
高效理解数据
快速洞察规律
即时发现异常
BDP能为企业带来什么价值?
整合内部外部数据,统一数据管控口径
同比环比留存重复,高级计算一键接入
钻取筛选自由分析,业务人员按需索图
移动应用动态掌控,预警信息即时推送
Tech Insight_20171010_《在线用户行为分析:基于流式计算的数据处理及应用》
13:30 - 13:50 流式日志分析及采集场景介绍及技术点分析 祎休 阿里云产品专家
如何提高平台的用户粘性和活跃度
如何从海量的日志中挖掘关键价值?
Nginx访问日志、用户行为日志、点击日志、性能日志、GPS日志
海量日志处理方案的演进
· 海量日志处理方案 1.0时代
无集中式处理
缺乏复杂事务处理
只做事后追查
· 海量日志处理方案 2.0时代
日志离线批处理
实时性差
非拿来即用
· 海量日志处理方案 3.0时代
快:只有数秒时延
大:每天处理TB级别日志量
灵活:可搜索分析日志
实时采集 Log 实时消费 StreamCompute 加工存储 RDS 可视化 DataV
Log实时采集/解析
13:50 - 14:35 流数据采集:海量流式视频日志收集 北洲 阿里云技术专家
目标:
监控用户体验和服务质量
多种来源:平台多、格式多
运维负担:集群扩容、采集工具运维
事后排查:HTTP 500、报警
日志服务(LOG)
针对实时日志的一站式托管服务。
· Hub:实时数据采集、存储和消费
· Shipper:与数据仓库投递对接
· Search/Analytics:
LogHub
功能:通过ECS、容器、移动端、开源软件、JS等接入实时日志数据(例如Metric、Event、BinLog、TextLog、Syslog等)
与实时计算及服务对接,并提供SDK/API自定义消费
直播系统日志分析架构
设备端、浏览器——》RTMP——》ECS
14:45 - 15:30 流数据处理:通过StreamSQL分析视频日志 巴真 阿里云产品专家
数据处理面临的新场景
用户 (参与) 系统 (产生) 数据 报告 (决策) 用户 越快越好
用户参与系统交互,构成大量用户行为
系统跟踪用户行为,产生大量用户数据
数据进行加工处理,形成决策参考依据
决策通过影响客户,
实时侦测工业车床各指标,优化制品工艺
实时了解双十一全网总额,提升媒体曝光
实时了解各渠道广告效果,调优广告分配
商品大促广告投放的实时监控案例
数据装载 ——》批处理模型 《—— 数据请求
批量模型,无法对实时数据进行实时处理
全量计算,无法对局部数据进行增量处理
主动请求,无法对上游变化进行及时响应
流数据订阅 ——》 实时流计算模型——》 流数据写出
流式模型,对流式数据进行边流边算
增量计算,对局部数据进行增量处理
事件触发,实时上游变化进行及时响应
流计算如何解决问题
流数据订阅——》 流式计算——》 流数据写出
持续、低时延、事件触发
数据装载——》 批量计算 《——数据请求
批量、高时延、主动发起
流计算环境搭建
用户搭建环境遇到的问题
不想从头搭建流计算系统
不想负责运维流计算集群
不想处理大量技术细节
不想固定计算容量,无法应对流量洪峰
不享手工对接上下游诸多数据系统
不想黑屏化开发、黑屏化运维、工具零件化
流式处理系统构建难度太大,用户希望直接提供一套成熟的方案
阿里云流计算
产品定位:轻量型流数据分析工具,提供给用户在云上进行流式数据实时化分析功能。
核心Feature:主打以SQL语义的流式数据分析能力(Stream SQL),降低流处理开发门槛
主打提供Exactly-Once的处理语义保证,保证业务精确一致
辅助提供一站式的流式开发运维平台,方便用户快速上手
天然对接
日志采集
1.   引用外部日志服务源头表
2.   引用外部RDS结果表
3.   编写StreamSQL
4.   调试StreamSQL
5.   提交上线流式作业
15:30 - 16:15 数据可视化:构建实时动态运营数据分析大屏 鹿山 阿里云技术专家
PS:中午提供了午餐,还是很开心的。
壹零:主论坛+分论坛
11日的主论坛门口,挤满了围观马爸爸的人,但是除了能进入主会场的VIP外,最终大家还是在直播视频上见到的马爸爸,见证了达摩院的公布。
此次大会有有上百场分论坛,从技术到经济、从安全到医疗,方方面面,让人眼花缭乱。在参会之前,其实有计划好去听哪些场次,但是到现场发现很多场次距离较远,时间上会有冲突,人数也较多,所以在实际听分论坛时做了一些取舍。
部分分论坛的简略笔记如下:
20171012_阿里妈妈数智营销专场
论坛时间:10月12日上午 论坛地点:B-3-1 论坛简介:人工智能技术的发展,将为互联网营销带来哪些深刻的变革?阿里妈妈的人工智能技术有哪些亮点?在人工智能技术深刻营销的大趋势下,该如何适应潮流,创变未来?阿里妈妈将从技术、业务双重角度阐述在人工智能时代,阿里妈妈如何实现智能营销,为商家赋能。
09:00-09:45 人工智能技术开启互联网营销未来 刘凯鹏 阿里资深技术专家
阿里妈妈营销生态:
代理商赋能、开放第三方监测、阿里数据赋能、阿里电商、阿里媒体、外部合作媒体
阿里妈妈特有的数据优势:
200亿+日均展示 6.3亿用户数据 95%网民覆盖
5亿真实人口属性 5亿真实消费意向 3亿跨屏打通 5亿跨设备延续
新零售下营销新挑战
数字化、个性化、全周期
深度学习
智能工具
全周期营销:货品生命全周期营销支持
深度学习与营销场景:认知计算
输入(文本、图片……) ——》 感知(看、读、……) ——》 记忆(经验、知识、……) ——》 判断(比较、推理、……) ——》 输出(点击、购买、……)
深度学习算法:深度认知网络
阿里大数据:闭环数据、真实行为、千亿样本
User ——》 Embedding Network ——》关系网络——》关系网络 ——》输出
Query ——》 Embedding Network ——| ||
Ad ——》Embedding Network ——| 写入、读取
Image ——》Convolutional Neural Network ——| 记忆网络:* Recurrent Procedure
表达学习 * Attentional Interface
输入 感知网络 * Structured Storage
+12%点击率 +13% 转化率
时序递归网络
factor machine
1.该网络由完全不同功能模块组成的非常复杂的网络,参数非常多,深度网络对计算能力比线性多,架构设计如何支撑海量
2.各个模块对数据要求不同,参数调整
测试场景是淘宝最为成熟的场景模块
表明建模和深度学习对用户行为的判断能力有了质的飞跃
性能:对比TensorFlow提高60倍
Asynchronous Data-Pipeline
Async Sample Processing
Double Buffer for gradient
智能工具:
· 智能创意:创意制作轻松精美
装饰:按需拼接
主图:层次化缓存
文案:深度语义理解&个性化内容生成
特殊:Logo 按需替换
· 智能受众:人群触达精确高效
· 智能出价:流量获取质优价廉 竞争是否激烈、质量如何
· 智能预算:预算使用聪明划算
全周期营销
MVB
新品 冷启动 排序引入新品价值
商品累计信用对未来产生影响
付费推广 定时推广
未来:数“智”营销
数字媒体矩阵、海量用户数据、人工智能拘束、智能营销工具
技术如何运用到营销管理中
09:45-10:30 智能设计-DT时代的新设计 Innovision 谢宣松 阿里巴巴资深技术专家
双十一预计3亿以上图片
视觉和设计:设计工作组成
像素 状态空间
两条主线:数据问题、问题定义清楚解决清楚
蒙特卡洛树
数据增强:从已有元素或组合的自动变化出合理且多样的元素或组合
基于知识的配色增强、基于数据的颜色增强、基于知识的颜色增强
预计今年双11:超7成Banner由智能设计生成,总计在3亿
10:30-11:15 深度学习在阿里精准定向广告的实践及演化 朱小强 阿里巴巴高级算法专家
电商场景下的精准定向广告形态
Banner广告:首聚场景广告
Item广告:导购场景
机器学习信号输入:文本、图片、ID体系
电商场景下的广告CTR、CVR预估问题及特点
用户:Past——》Behavior timeline——》Now
行为结构体:文本描述、创意图片、行为粒度(item、shop、cate)、行为类型(click、collect、buy)、行为时间、行为频次
Candidate:click ——》collect——》buy
深度学习在广告领域遭遇的挑战
图像 语音 广告
CNN结构 RNN结构 ?
能够很好拟合数据规律:怎么用智能力量理解数据规律,拟合的规律不能是强记忆的,应具有泛化能力
0和1
我们怎么看深度学习技术:优势一:模型设计组件化,优势二:优化方法标准化,优势三:模型设计和模型优化解耦
抽象问题后面的模型
要回答的问题
1.适合互联网尺度稀疏离散数据的神经网络结构是什么?经典的FCN/CNN/RNN结构是否足够?
2.能否设计统一的模型架构,支持结构化信号(ID、图像、文字等等)的通用建模?
3.怎么保证百亿
4.
基于深度学习的CTR/CVR
激活权重
第一代DNN模型:系数分组嵌入网络GwEN
稀疏分组嵌入网络[2016] http://arxiv.org/abs/1706.06978 Deep Interest Network for Click-Through Rate Prediction
第二代DNN模型:用户兴趣分布网络DIN
深度兴趣网络[2017] https://arxiv.org/abs/1706.06978 Deep Interest Network for Click-Through Rate Prediction
激活权重分布可视化
Past:Attention intensity,User Behavior Trace
第三代DNN模型:Cross-Media网络
图像泛化性
Tricks For Training Industrial Sparse Deep Nets
Mini-Batch Aware Regularization
Data
Rocket Training
无损压缩
通用方法:用复杂模型作为老师,指导学生简单
Rocket Training【2017】https://arxiv.org/abs/1708.04106 Rocket Launching: A Universal and Efficient Framework for Training Well-performing Light Net
固定老师网络的参数
11:15-12:00 XDL:工业级的深度学习框架 腾冥(孙鹏)阿里巴巴高级技术专家
充分洞察用户的兴趣习惯,提供更好的个性化体验
互联网核心应用问题:搜索、推荐、广告
XDL的初心:互联网个性化应用领域的定制化、垂直解决方案(灵活赋能主流算法实现与创新)——》
工业级深度学习框架
输出不一定是0-1值,可能会是序列
算法创新驱动XDL框架设计:第一计算范式
工业级稀疏
算法创新驱动XDL框架设计:第二计算范式
查表查图像CNN查表组合
分布式处理-模型计算-分布式处理
XDL架构:A Distributed View
IO/AMS/Backend Tensor Flow
XDL架构: A Local View
XDL Dev Stack
结构化IO
Advanced Model Server(AMS)
AMS之异构计算
CPU只做寻址,参数计算在GPU中
壹壹:展会
今年的参展商很多,展会上的一些新技术黑科技很多,远超预期,很赞,不解释,哈哈~
壹零贰肆:虾米音乐节
11号的主会场无法见到马爸爸,晚上的音乐节真是满足了一个小迷妹的追星梦,不但听到了马爸爸的歌声,还在马爸爸退场的时候在距离马爸爸两米距离之处见到马爸爸真人一秒钟,还是很超值的,哈哈。对了,还见到了萌萌哒淘公仔哦~
贰零肆捌:云栖1718
对于2017云栖大会,更多的是感动,感动与科技的进步,感动于大家对于技术的不懈追求,感动于我们所处的时代,处处是机遇,科技已经融入到我们生活的方方面面,同时也会在更多业务场景下,提供更多的应用服务。我们只有不断成长,技术不断沉淀,才有希望跟上技术的发展与时代的步伐。
对于2018云栖大会,更多的是期待。期待云栖不单单是开发者的盛会,更是全国乃至全世界人民了解科技的一扇大门。