“分布式机器学习的故事”系列分享

简介:

内容

  1. A New Era slides video
  2. Infrequent itemset mining slides video
  3. Application Driven slides video
  4. Implement Your MapReduce slides video
  5. Deep Learning slides video
  6. Peacock and Latent Topic Modeling slides video

总结

  • 互联网服务超越人工服务
  • 集体智能超越人工智能
  • 大数据是行为数据
  • 大数据必然长尾
  • 长尾数据无噪声
  • 追求“大”比追求“快”重要
  • 开发框架、而不是套用框架
  • 工程技法和数学同样重要
  • 远离 Java、远离 Python
  • 有所谓好的系统,无所谓好的算法

初衷

从2007年博士毕业加入Google做机器学习至今已七年了,一直在工业界机器学习一线工作。尤其是从2010年开始担任腾讯广告的技术总监之后,一边组建团队,一边背负业务指标压力时,针对业务和产品设计开发机器学习技术。在 Google 的工作让我有机会和同事们在 collaborative filtering、spectral clustering、frequent itemset mining、graph clustering、latent topic modeling等几个重要的研究方面做了一些尝试。基于其他同事在计算架构上的创新,我们在其中每个方面都有将文献中的数据处理能力提升1000倍的作品。这段经历让我能更好地针对问题选择方法,对我在腾讯的工作有很大帮助。在腾讯的工作集中在 retrieval system 和 ranking system,以及为了做好它们需要的机器学习技术。其间我们用 Go 语言开发的 Peacock至今是业界最大规模的 latent topic modeling system,在腾讯的广告、推荐和其他业务上使用。为 ranking 做的点击率预估系统也让我们团队成为 KDD Cup 2012的出题者和裁判团队。和学界的交流,收获和感触都很多。这七年里的亲身参与和有幸旁观,让我总结了一些经验和形成了一些观点。有趣的是,这些观点与开源社区以及学术界对“大数据学习”的认识南辕北辙。2014年来到湾区工作之后,Linkedin的同事们鼓励和帮助我分享经历和经验。卡耐基梅隆大学的邢波(Eric Xing)教授也希望我给机器学习系的同学们做一个系列讲座。电子工业和人民邮电出版社的编辑朋友们也希望我完善和出版我的系列博客《分布式机器学习的故事》。承蒙大家的鼓励和帮助,我们准备在湾区和匹兹堡同时开始一个系列的分享:第一次是分享我的经验总结和观点,后面十次每次分享一个我亲身经历过的工业界的实战故事。我们希望通过帮助朋友们模拟业界实战,营造一个深入思考和交流的机会。更清晰地判断大数据学习技术和业务生态发展方向。

本文转自博客园知识天地的博客,原文链接:“分布式机器学习的故事”系列分享,如需转载请自行联系原博主。


相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
机器学习/深度学习 人工智能 Java
机器学习PAI报错问题之跑collective gpu分布式报错如何解决
人工智能平台PAI是是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务;本合集将收录PAI常见的报错信息和解决策略,帮助用户迅速定位问题并采取相应措施,确保机器学习项目的顺利推进。
|
9月前
|
机器学习/深度学习 存储 负载均衡
分布式机器学习(Parameter Server)
分布式机器学习(Parameter Server)
228 0
|
9月前
|
机器学习/深度学习
基于分布式平台的机器学习模型训练以及上线部署方案总结
基于分布式平台的机器学习模型训练以及上线部署方案总结
446 0
|
10月前
|
机器学习/深度学习 数据可视化 数据挖掘
第十二届“中国软件杯”大赛:A10-基于机器学习的分布式系统故障诊断系统——baseline(一)
第十二届“中国软件杯”大赛:A10-基于机器学习的分布式系统故障诊断系统——baseline(一)
441 0
第十二届“中国软件杯”大赛:A10-基于机器学习的分布式系统故障诊断系统——baseline(一)
|
12月前
|
机器学习/深度学习 人工智能 开发者
阿里云PAI发布基于HLO的全自动分布式系统 TePDist,并宣布开源!
阿里云PAI发布基于HLO的全自动分布式系统 TePDist,并宣布开源!
|
机器学习/深度学习 前端开发 算法
阿里云机器学习PAI发布基于HLO的全自动分布式系统 TePDist,并宣布开源!
阿里云PAI发布基于HLO的全自动分布式系统 TePDist正式开源!
|
机器学习/深度学习 分布式计算 Apache
《基于Apache Spark 的大规模分布式机器学习实践》电子版地址
基于Apache* Spark* 的大规模分布式机器学习实践
99 0
《基于Apache Spark 的大规模分布式机器学习实践》电子版地址
|
机器学习/深度学习 存储 分布式计算
分布式机器学习原理及实战(Pyspark)
分布式机器学习原理及实战(Pyspark)
|
机器学习/深度学习 并行计算 算法
MLSys提前看 | 机器学习的分布式优化方法
第三届机器学习与系统会议(MLSys 2020)将于 2020 年 3 月 2 日至 4 日在美国奥斯汀会议中心举行。MLSys 是 2018 年新成立的一个聚焦机器学习在系统、软件、硬件等多个综合领域中应用研究的学术会议。
1147 0
MLSys提前看 | 机器学习的分布式优化方法
|
机器学习/深度学习 人工智能 分布式计算
OpML 2019提前看:模型表现预测与分布式机器学习
OpML 2019 全称是 2019 USENIX Conference on Operational Machine Learning,将于 2019 年 5 月 20 号在美国加州的 Santa Clara 举办。会议旨在提供科研人员和产业从业者一个交流合作的平台,为机器学习生产生命周期管理的普遍挑战开发并带来有影响力的研究进展和前沿解决方案。
136 0
OpML 2019提前看:模型表现预测与分布式机器学习

热门文章

最新文章