专访新浪微博黄波:千人千面,机器学习赋能用户信息流消费

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 社交媒体都在致力于通过大数据、人工智能来更全面地了解用户画像、更深刻地理解内容、更细致地结合业务场景,从而提高信息分发效率,为用户提供更好的内容消费体验。

编者按:1011-14日,为期四天的2017杭州云栖大会(门票火热抢购中!)将再度在杭州云栖小镇起航,作为全球最具影响力的科技展会之一,本届大会将有不少阿里集团专家以及各企业行业领袖的精彩演讲。从今天开始,云栖社区将会对大会嘉宾做一系列专访(关注云栖大会”社区公众号了解更多大会信息)。本期我们采访的是新浪微博机器学习平台负责人、资深架构师黄波,他将在10月的云栖大会上分享微博信息流产品中机器学习和深度学习的实战解读、最新进展,以及搭建微博机器学习平台和深度学习平台的经验总结。


2017杭州云栖大会详情请戳这里

黄波,微博机器学习平台技术负责人、资深架构师,负责微博机器学习平台和Feed算法系统。他毕业于中科院计算所,参与研究了高性能计算和算法优化;并曾供职于百度,参与开发了分布式文件系统。2010年加入新浪微博,目前专注于机器学习、深度学习、高性能计算、大数据处理等领域,致力于打造机器学习平台和深度学习平台,将机器学习技术和分布式计算应用于微博 Feed信息流、推荐、反垃圾等业务场景。

跬步千里,微博深入应用新兴技术

新浪对于大数据和人工智能技术的应用,最早可以追溯到2008年,并且随着技术的深度应用在不断发展完善。

2008年左右,新浪开始搭建Hadoop集群,建立信息系统收集公司级的基本数据,奠定了大数据系统的基础。2009年起,随着微博的兴起和壮大,越来越多的用户、内容和行为等业务数据沉淀下来,奠定了大数据的业务数据和业务场景基础。2011至2012年,微博开放平台让微博数据和第三方数据能够互通。2013至2014年,成功构建了大数据Darwin平台,用于梳理和挖掘用户数据及行为数据,刻画了微博用户的用户画像,并对微博短文本进行分析理解,形成了内容标签等内容理解体系;同时在技术上,以分布式离线处理为基础,成功引入了实时流计算,让数据能更快发挥价值,从而更好地服务于业务。2015年起,微博大数据和Feed、热门微博等业务充分结合;2016年,开始强调机器学习和人工智能挖掘数据价值的能力在业务中的作用,并开发搭建微博的机器学习平台和深度学习平台。

毋庸置疑,大数据、机器学习、人工智能已经逐渐渗透到了微博的各大业务中。然而,这一过程中不可避免地遇到了一些技术挑战。黄波表示,分布式离线计算技术的挑战就是其一,因此微博紧跟业界Hadoop生态的发展,由Hadoop 1.0升级到Hadoop 2.0,引入Hive、Pig、Sqoop、HBase、Yarn、Spark等组件,解决了大数据离线处理的问题。其次是实时流计算技术的挑战,基于此微博选择了依靠开源社区的发展,包括Storm、Spark Streaming等技术的发展和成熟。“目前遇到的最大问题是大规模机器学习和深度学习技术”,为了从容应对这一难题,微博一方面持续深入和阿里云的合作,引入数加、EMR、HPC、PAI等成熟系统来加快技术发展速度,另外一方面还依靠了开源社区的Glint、Angel、Spark、Tensorflow等机器学习技术,自研和完善参数服务器WeiPS、机器学习编程框架WeiFlow来满足微博机器学习和深度学习平台的业务需要。

千人千面,人工智能助力亿级规模的用户画像

数据是人工智能的基础。微博充分发挥了作为社交媒体的先天优势,以其平台所拥有的亿万级图片、视频和文本数据,刻画出了微博庞大的业务体系和用户画像。

黄波介绍,微博数据有内容数据和用户数据这两类。内容数据包括图片、视频和文本等。对于这类数据的处理方法,一是将内容数据映射到微博内容标签体系(微博内容标签体系分为三级内容标签,例如:一级的体育;二级的篮球;三级的金州勇士等),可解释性强,但存在一定歧义,准确性有待提高。另一种处理方式是对内容做embedding,通过embedding向量做匹配或推荐,能够对内容更深入地理解,但是解释性较差。内容数据还有一个独特的点是内容发布人,即发博者。在长期的实践中可以发现,社交网络和社交媒体中的发博者有着相对稳定的特征,在业务场景下简单有效。用户数据包括用户静态数据和用户行为数据,通过挖掘用户性别、年龄、地域、注册时间、账号类型、是否橙V等静态特征构建用户静态画像,通过分析用户在业务产品中的特定行为来构建用户行为画像,例如用户一级兴趣标签、用户实时兴趣标签等。

以上所述的内容数据和用户数据就是业界常说的特征,通过与模型的结合,能为微博Feed信息流、热门微博等场景带来显著的效果提升。在这其中,人工智能技术的部署应用,也为微博的整体技术架构带来了深刻的变化。

人工智能技术的引入,让微博的离线系统、实时系统、在线系统融合得更加紧密。在线系统的业务数据化为机器学习提供了最基础的业务样本数据;离线系统的模型训练充分利用了分布式计算能力,加强了对大数据的处理和理解;离线训练出的模型加载到在线系统并应用于业务系统中,能够为业务发挥作用;同时,实时系统不仅可以提供实时特征,而且还能提供机器学习在线训练服务,有效保障了特征和模型的时效性,从而良好保障了业务效果。以微博Feed信息流为例,基于对内容数据的充分理解和对用户画像的精确刻画,利用大规模机器学习模型排序能够有效控制大量低质内容,深入挖掘出用户感兴趣的个性化内容,从而改善微博Feed信息流的用户体验。

此外,微博特别设立的机器学习实验室也在深入研究人工智能技术潜在的应用价值。“追踪前沿技术,保持技术领先;落地微博业务,体现技术价值”,这是微博机器学习实验室的初衷和使命,其主要的研究方案包括机器学习算法、推荐算法、自然语言理解、计算机视觉、语音识别、机器学习系统、分布式计算系统、高性能计算系统、大数据技术等。黄波提到,目前在大规模机器学习排序算法、深度学习排序、深度学习推荐、文本处理、图片识别、机器学习平台、深度学习平台等方面都已经取得了不错的进展,特别是微博大规模机器学习排序算法在微博Feed信息流、热门微博中的应用和全量上线,取得了显著的效果。

返璞归真,技术落地创造实践价值

时下的社交媒体大趋势,都在致力于通过大数据、人工智能来更全面地了解用户画像、更深刻地理解内容、更细致地结合业务场景,从而提高信息分发效率,为用户提供更好的内容消费体验。

微博实践表明,人工智能技术能够更好地促进产品和业务的发展。在微博,大数据、人工智能等新兴技术广泛地应用到微博Feed信息流、热门微博、Push消息推送、图片推荐、反垃圾等业务中,并取得了不俗的效果。产品和业务目标的理解是基础,在目标理解的基础上再将产品场景、业务目标、用户行为、内容数据等数据化。数据化之后,技术人员利用大数据策略、机器学习模型等方法拟合或逼近业务数据目标,这个过程通常需要借助大规模分布式计算和高性能计算来迭代逼近。同时也要求尽可能早地将这些策略或模型灰度上线到线上系统中,便于收集灰度测试数据,对比评估业务线上效果。数据化是指产品全流程的数据化,包括机器学习模型上线灰度对比的数据,用数据来说明效果。

在本次云栖大会上,黄波将分享微博机器学习平台、深度学习平台的架构和实践,介绍其在微博信息流产品中的实战解读,同时介绍平台搭建中的经验教训,向业界分享微博在机器学习和深度学习方面的最新进展。同时,黄波也希望可以借助这次机会和业界深入交流,获得更多业界经验来完善内部系统及平台,更好地为微博业务服务。(购票请戳这里!)

欲了解更多历届大会相关内容以及最新嘉宾采访,请关注社区公众号——“云栖大会”

专访iDST NLP负责人——淘宝内容搜索、评价归纳的幕后英雄

专访阿里云易立:从实践积累到需求沉淀,容器技术必将引领主流

专访阿里云异构计算负责人:异构计算,GPU、FPGA、ASIC芯片将三分天下

专访阿里云量子技术首席科学家施尧耘:量子计算前途辉煌而任重道远

云栖大会变迁史(2009-2017)
图说历届云栖大会精彩内容(长图鉴赏)

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
目录
相关文章
|
3月前
|
人工智能 分布式计算 数据处理
阿里云与传智教育联合直播:深度解析MaxFrame,探索量化交易新纪元
2024年10月15日,阿里云与传智教育联合举办了一场主题为“解密新一代AI+Python分布式计算框架MaxFrame”的直播,对阿里云最新推出的分布式计算框架MaxFrame进行了详细的介绍。
254 0
|
新金融
《未来保险 新金融时代》——二、保险科技的第一性原理——特征2:“多位一体”的渠道
《未来保险 新金融时代》——二、保险科技的第一性原理——特征2:“多位一体”的渠道
92 0
|
机器学习/深度学习 人工智能 自然语言处理
淘宝千人千面背后的秘密:搜索推荐广告三位一体的在线服务体系AI·OS
揭晓三位一体的在线服务体系AI·OS,及其技术架构演进,技术概况,云原生产品与实践。
淘宝千人千面背后的秘密:搜索推荐广告三位一体的在线服务体系AI·OS
|
移动开发 自然语言处理 算法
智能数据助理-让你的数据价值触手可及
智能数据助理是一款通过自然语言对话形式提供数据分析服务的智能机器人,提供数据查询、智能分析、预警推送、简报以及智能洞察等能力,实现数据决策流程的智能化。
智能数据助理-让你的数据价值触手可及
|
人工智能 边缘计算 Cloud Native
阿里云新品发布会周刊第82期 丨 重磅!大数据实时分析与决策&当AI遇上展会
12月23日阿里云新品发布会带您了解阿里云实时数仓如何助力企业实时决策;12月25日更有新栏目“云计算情报局”登场展现-当AI遇上展会。更多精彩内容敬请关注阿里云新品发布会!
799 0
阿里云新品发布会周刊第82期 丨 重磅!大数据实时分析与决策&当AI遇上展会
|
机器学习/深度学习 运维 大数据
机器学习在高德用户反馈信息处理中的实践| 1月8号云栖号夜读
作为国内领先的出行大数据公司,高德地图拥有众多的用户和合作厂商,这为高德带来了海量的出行数据,同时通过各个渠道,这些用户也在主动地为我们提供大量的反馈信息,这些信息是需要我们深入挖掘并作用于产品的,是高德地图不断进步和持续提升服务质量的重要手段。
3256 0
|
机器学习/深度学习 运维 前端开发
基于融合计算?蚂蚁金服的在线机器学习是如何做的 | 9月19号栖夜读
今天的首篇文章,讲述了:金融领域越来越多的活动场景,如双十一、双十二、财富日、新春大促,具有活动持续时间短强度高的特点,解决场景中的计算冷启动问题,优化系统效率和用户体验的需求越来越多。在生产环境的应用中,还需要满足高吞吐和端到端强数据一致性的需求,解决高维稀疏特征的大模型的训练、更新和服务问题。
3643 0
|
搜索推荐 Serverless
极测未来|淘宝"千人千面"内容下的智能评测技术与实践 | 8月8号云栖夜读
今天的首篇文章,讲述了:全面个性化、内容化的淘宝,构造了基于内容的丰富的导购场景,包括猜你喜欢、有好货、每日好店、必买清单、哇哦视频、微淘、买家秀、头条、洋葱盒子….。个性化,给消费者带来更精准的货品分发。内容化为消费者带来更多惊喜和好的体验,“好的商品,应该以更好的形式展现给消费者”。
6978 0