开发者社区> 花肉酱> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

阿里云全球首批 MVP 杨绣专访 - 技术要坚持刨根问底

简介: 使用阿里云产品过程中,我提过很多工单,包括系统bug、易用性问题、功能建议。因为喜欢刨根问底,不满足于“重启一下”、“再试一次”之类的临时性解决方法,我会很认真地描述使用场景、异常现象和可能的原因,要求客服和后台研发继续分析给出明确原因。
+关注继续查看

自我介绍

我现在在人人车负责数据架构方面的工作,搭建数据采集、抓取、存储、计算、BI可视化等系统。
之前在百度网页搜索部,是一名架构工程师(主要在抓取业务),技术方向是高并发分布式服务架构,负责大抓取系统内的架构模块研发。
涉及高并发抓取器、链接缓存、压力控制、时效性筛选等子系统。
工作的主要目标是系统性能优化、稳定性提升,为策略算法应用提供舒适的架构,这也是我自认为比较擅长的。

使用阿里云产品过程中,我提过很多工单,包括系统bug、易用性问题、功能建议。因为喜欢刨根问底,不满足于“重启一下”、“再试一次”之类的临时性解决方法,我会很认真地描述使用场景、异常现象和可能的原因,要求客服和后台研发继续分析给出明确原因。
这一点对阿里云改进产品体验有一些帮助。

人人车和MaxCompute(原ODPS)的磨合和共同成长

早期,人人车的报表系统是使用RDS(MySQL)+ECS搭建而成,因为当时系统数据量很小,所以运行一段时间比较稳定。
随着业务数据量变大,系统物理指标报警越来越多,我们需要经常给RDS增配,逐渐发现RDS实例每月也要花不少钱了,所以考虑将数据计算部署到可扩展性更好的计算平台上。

当时考虑Oracle和Hive两种方案。按当时我们的业务场景和数据规模来看,Oracle完全能够胜任,但是考虑到未来数据增长、Oracle维护成本较高,我们也不熟悉Oracle,所以直接就否掉了这个选项。

而Hive非常符合我们的技术背景,团队里很多人以前就用过,Hive SQL语法也非常简单易学,可扩展性也很好。当时了解到阿里云有和Hive类似的数据平台MaxCompute(原ODPS),所以就安排时间试用了一下。
试用MaxCompute(原ODPS)前其实心里还是倾向于Hive,因为作为Hadoop生态的开源平台开放性更好,我们也有相关经验。我们参考网站的MaxCompute(原ODPS)帮助文档,经过几个小时的了解和体验,没有什么不适的感觉,和Hive类似的语法、存储方式、计算模型,但不需要我们自己部署、运维。
不足之处是不能支持我们的一些实时数据场景。
综合考虑后,我们决定使用Maxcompute搭建数据仓库,作为数据存储和计算的平台,实时性场景另行解决。阿里云当时还有另一款产品-DPC(采云间)是一套针对MaxCompute的SQL-IDE、任务管理和运维监控的web平台。
通过采云间,我们可以
1. 在网页上通过点选、拖拽设置定时同步任务,把Mysql的数据拉到MaxCompute的表格,操作比较方便;
2. 编写SQL代码实现业务统计逻辑;
3. 再设置同步任务将计算结果推送到我们BI系统的Mysql中。
后来采云间停止维护,数加·大数据开发套件Data IDE。

使用MaxCompute(原ODPS)(+采云间+数加)早期确实是遇到了很多问题,一些局部性的问题能够得到客服和技术支持及时处理和修复,比如一些可稳定复现的bug,而不易复现但出现频率很高的问题让人非常困扰。
工单沟通不能让那一边的技术人员很好了解我们这边发生了什么问题,后来和数加支持团队建立了定期沟通机制,将双方的技术人员拉到了一个钉钉群能更顺畅地沟通这种难以通过工单描述的现象和复现步骤。

曾经比较刻骨铭心的记忆有两段,一段是关于产品功能的、一段是关于系统稳定性。

从一个平台迁移到另一个平台,我们经历了两次,第一次是将数据任务从RDS迁移到采云间,第二次是从采云间迁移到数加平台。我们的业务系统当时少说也有几百个表,而做这件事只有1或2个人,采云间和数加当时在产品设计上可能没有考虑这种场景,所以从Web页面没有办法批量设置数据上传任务,而通过第三方软件配置的数据上传任务不能和阿里云的任务调度很好地集成在一起。
好在这种迁移并不多,忍一下就好了。听说,年初上线的数据集成模块能够很好地解决这类问题。

2016年5月,我们的数据系统稳定性很差,平均每周一次故障导致任务流中断。每当早上醒来发现数据没有算完,整个一天都会心情很差。

究其原因,
  • 一方面是我们的任务结构设计有缺陷,如数据源变化、任务流依赖过于集中、关键路径缺少监控。
  • 另一方面是MaxCompute(原ODPS)平台异常,如任务队列阻塞、计算资源不足。
我们和阿里云团队当面分析了每次故障的原因,根据阿里云的建议对任务流进行了梳理、调整任务依赖关系,避免依赖过于集中,将不合理的定时触发改为上游任务触发。
使用数加平台的运维系统对关键节点添加了”出错报警”、”未完成报警”,同时也给关键路径的每段SQL代码添加一条统计代码,监控每天核心任务数据量的异常变化;阿里云方面则加强平台监控、优化了异常处理流程。

我们最大的感受是阿里云售后和技术支持团队对用户的问题和反馈非常重视、跟进也非常及时,值得一个大大的赞。
【阿里云花肉酱:阿里云并不完美,希望大家来一起帮助阿里云提升产品体验 https://connect.aliyun.com/


很荣幸作为阿里云全球MVP,
我认为这是阿里云对我们团队的认可,我们在使用阿里云服务过程中提出的问题和建议,能够帮助更多的用户节省时间提高效率少走弯路

f425f431024a80cfed2e258752cc2a555493b3b7我是杨绣,人人车大数据负责人,我在阿里云MVP等你

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云ECS个人用户使用一周体会
阿里云ECS服务器使用Linux系统一周体验记录。
55 0
首发!阿里云全球技术服务部技术双月刊《新服务》第一期
《新服务》是由阿里云全球技术服务部出品的关于阿里云技术服务的刊物,《新服务》作为一扇窗口,向客户和合作伙伴全方位展示了阿里云的技术服务能力,解析了为不同行业客户打造的最佳实践,分享了我们在数智化道路上的思考与经验。
8714 0
阿里云开发者 成都ACE同城会 AIOT技术沙龙圆满落幕
本次活动邀请到专注IOT领域的阿里云MVP,老站长,专长领域人工智能;阿里云AIOT开发者,超过十年的开发经验,特聘资深钉钉领域专家,和大家一起分享~
424 0
Maven之阿里云镜像仓库配置--详解
方式一:全局配置 可以添加阿里云的镜像到maven的setting.xml配置中,这样就不需要每次在pom中,添加镜像仓库的配置,在mirrors节点下面添加子节点: nexus-a.
6588 0
阿里云图像搜索Quick Start
图像搜索服务(Image Search)是以深度学习和大规模机器学习技术为核心,通过图像识别和搜索功能,实现以图搜图的智能图像搜索产品。图像搜索服务在基于图像识别技术基础上,结合不同行业应用和业务场景,帮助用户实现相同或相似图片搜索。因为导入到实例的图片实例本身并不存储原始图片,所以在使用查询功能的时候,并不能直接返回原始图片或者可以直接访问的图片URL,需要使用者根据查询反馈的picname等信息自行到自己的图库中反查原始图片,这样给使用带来了很大的不便。
302 0
Maven之阿里云镜像仓库配置
Maven之阿里云镜像仓库配置方式一:全局配置可以添加阿里云的镜像到maven的setting.xml配置中,这样就不需要每次在pom中,添加镜像仓库的配置,在mirrors节点下面添加子节点: nexus-aliyuncentralNexus aliyunhttp://maven.
27717 0
Maven之阿里云镜像仓库配置
方式一:全局配置可以添加阿里云的镜像到maven的setting.xml配置中,这样就不需要每次在pom中,添加镜像仓库的配置,在mirrors节点下面添加子节点: <id>nexus-aliyun</id> <mirrorOf>central</mirrorOf> <name>Nexus aliyun</name> <url>http://maven.
163175 0
+关注
花肉酱
以前端开发工程师的身份进入阿里云。曾负责阿里云容器服务运营,是云栖大会Tech Insight技术大会的策划人和执行人之一,后策划阿里云MVP项目,并致力于改善阿里云产品的用户体验。 现已加入蚂蚁金服,是金融级分布式架构 SOFASTACK 首席运营。
114
文章
2
问答
来源圈子
更多
阿里云最有价值专家,简称 MVP(Most Valuable Professional),是专注于帮助他人充分了解和使用阿里云技术的意见领袖阿里云 MVP 奖项为我们提供了这样一个机会,向杰出的意见领袖表示感谢,更希望通过 MVP 将开发者的声音反映到我们的技术路线图上。
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载