11+大数据行业应用实践请见
https://yq.aliyun.com/activity/156
,同时这里还有流计算、机器学习、性能调优等技术实践。
此外,通过
Maxcompute及其配套产品
,低廉的大数据分析仅需几步,详情访问
https://www.aliyun.com/product/odps
;更多精彩内容参见
云栖社区大数据频道
:
https://yq.aliyun.com/big-data
。
自开始大数据创新案例探索之后,汇合营销(杭州汇江容海网络有限公司)是笔者走进的第二家公司,在拜访过程中, 通过CEO周鹏与CTO欧阳明对笔者了解到,在这个技术普惠的时代,汇合营销的发展之路铺设与架构。
汇合营销大数据规模与挑战
对于任何一家创业公司来说,成本与-效率都是一个不得不考虑的问题——周鹏。
汇合营销主要提供汇合DSP和汇合DMP两个平台,为电商为主的广告主提供推广服务。此外,在接受商家的精准化需求之后,根据具体的业务场景,为电商广告主提供精准化的营销广告。在整个过程中,周鹏表示,构建一个完善且能够持续服务的大数据平台成为关键,这需要大量的人力与物力;此外,这个平台还需要有足够的“弹性”来满足业务:既要撑得住双11期间的流量峰值,又要能够在平时做好运维成本控制。
峰值期间,汇合营销每天需要收集、分析和存储20多亿条的访客浏览轨迹;同时,还需要根据用户需求在亿级日志表中做秒级查询——欧阳明。
纵览汇合营销整个大数据系统,在技术挑战上,欧阳明主要归结于以下三条:
- 大量的数据统计。汇合营销每天收集到的数据,多的时候一天有20多亿访客浏览轨迹,在DMP业务系统中,需要对每个访客的浏览内容进行分析,打上相应标签并进行统计;同时,数据分析师每天也需要产生各种报表,帮助客户进行广告优化。大量的数据存储、统计和大量的业务需求,这使得开发过程中,既要保证高效率,同时也要降低成本。
- 实时大数据查询。广告商在后台的推广组选择标签时,系统需要在毫秒级的时间内显示标签的用户量并预估展现量信息,由于用户选择的标签一般都会比较多、条件比较复杂,并且每个标签的用户也可能重复,从而无法在用户选择标签前做预计算,必须每次在亿级日志表中查询,而且要保证平均延迟不超过1秒。
- CTR预估。CTR预估能够决定广告的精准程度和带来的收益,是广告竞价系统中一个比较核心的部分。在汇合营销,我们使用业内优秀的大数据框架和机器学习算法,例如场感知分解机模型(FFM)、逻辑回归算法等,来训练收集到的TB级数据,将训练好的模型应用于CTR预估,提升了广告投放的精准度,从而有效提升广告效果。
因此在考量了技术与资源之后,汇合营销选择了阿里云数加,通过云服务来取得技术与-效率优势,周鹏总结道。
汇合营销大数据系统架构
开发效率与使用门槛促促成了这个基于云的架构,最大程度减少了运维,即开即用,避免资源浪费——欧阳明。
欧阳明表示,数加有完善的大数据解决方案,能够与阿里云其他产品无缝对接。汇合营销使用了数加的大数据套件、ODPS、DataV和分析型数据库,也尝试了机器学习平台。具体参照下方架构图,通过阿里云数加产品确定的边界,整个系统架构非常清晰:
现在汇合营销大部分离线统计需求都在大数据套件中开发,将数据使用做到非常简单,只要能够写SQL,就可以导出自己需要的报表,满足了大部分的业务需求。此外,分析型数据库能够满足在亿级数据中做毫秒级查询,在数据分析方面,是一个非常不错的工具。在使用数加之前,汇合营销曾搭建了Spark和Hadoop,但每次数据报表都需要开发人员来导出,而且在维护、资源使用上都需要很好地平衡,使用和维护成本相对比较高。
而数加大大降低了数据使用门槛、提高开发效率,现在汇合营销的数据分析团队(非开发人员)都能够独立完成大部分的数据报表需求。此外,数加的按需计费避免了资源空闲,从年初的对比来看,数加在满足同等业务需求基础上能够减少一半的支出,有效地节约了成本开支,帮助创业型企业快速成长。