中国互联网大会:数据挖掘解决微博商业化难题

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:        在8月14日下午举办的互联网大会2013中国大数据发展论坛上,腾讯微博相关负责人高自光分享了大数据技术的运用经验。他表示,大数据本身可以实现三个方面的效果: 第一对内容本身的理解,这个内容不限于一篇微博、一个视频、一篇文章,可能还有广告; 第二对用户的理解,用户的行为、轨迹等信息; 第三对关系的理解,这是最关键的,包括用户和用户之间的关系,内容和内容之间的关系,用户和内容之间的关系。

       在8月14日下午举办的互联网大会2013中大数据发展论坛上,腾讯微博相关负责人高自光分享了大数据技术的运用经验。他表示,大数据本身可以实现三个方面的效果:

第一对内容本身的理解,这个内容不限于一篇微博、一个视频、一篇文章,可能还有广告;

第二对用户的理解,用户的行为、轨迹等信息;

第三对关系的理解,这是最关键的,包括用户和用户之间的关系,内容和内容之间的关系,用户和内容之间的关系。

他还列举了大数据技术在腾讯微博的几个应用场景,例如推荐系统,用户登录腾讯微博之后,需要给他推荐感兴趣的人,提供他的朋友信息,一种是基于兴趣,一种是基于关系的。腾讯微博通过大数据技术让这种推荐更加精准。

高自光还表示,大数据不仅是一种能力,还是一种工具。“现在的数据特别多,如果能把我们的数据使用好,包括数据、数据挖掘能力、算法、平台……有这些东西,就能够很好地解决商业化的一些问题。”

以下是腾讯微博高自光的分享实录:

大家下午好,我用30分钟分享一下我们在微博里面大数据的应用。首先我自我介绍,我是来自微博的,在腾讯做了十几年,一直做技术,这几年做产品技术相结合的产品。我更多的想跟大家讲,大数据概念在具体互联网产品里面是什么样的。大数据已经谈了很多年,最近这几年又一次非常集中的提这个概念。互联网大会第一次设立这个话题。就目前为主大数据的应用比较多的是商业化的领域,怎么利用大数据做点击率提升等等方面。在互联网产品当中怎么做大数据?现在摸索的还不是很多。

我先简单的讲一讲我们对大数据的理解。为什么又再一次提出大数据呢?其实数据有很多变革,第一它的规模,噪声越来越多,速度越来越快,价值越来越大。第二现在的硬件技术和软件技术没有跟上数据规模的变化,但是现在的技术相对几年前是有足够应用空间的。现在我们想到,一个产品的运算,像我们腾讯微博,运行的技术、成本、平台。更重要的是思维变革,我们之前做互联网应用的时候,我们更多的是做抽样,但是现在很少做抽样。我们以前为什么做抽样?因为跑了太长时间了,现在不做抽样了,是思维的变化。

因为什么所以什么?现在我们不强调这个问题,我们只知道这是相关的,发生A事件之后就发生B事件,但是这两者是什么关系,我们不清楚。把相关事件打在一起,发生A事件之后,B事件点击率会高,但是因果关系不怎么追求了,但是肯定是有关系的。我个人感受非常深的,在今天开放的数据,隐私问题,很多情况是能避免的,越来越多开放的社区出现了。你使用一个产品,你使用微博,就意味着有这个问题,因为这个产品开放的时候,就是开放的,你关注什么人,不存在隐私的问题。我们在这个平台上做运算的时候,就会涉及隐私问题。

大数据能做什么?第一对内容本身的理解,这个内容不限于一篇微博,一个视频,一篇文章,可能还有广告。第二个就是对用户的理解,用户的行为,用户的轨迹,基本的信息。第三对关系的理解。其实这是最关键的,用户和用户之间的关系,内容和内容之间的关系,用户和内容之间的关系。出现A页面的时候,你推荐B页面,点击率很高。出现A用户的时候,推送B用户点击率很高。最后一个是趋势,趋势就是关系的变革,我们对点击率用户,做监控,情感分析,还有像电影票什么的,它是一种趋势,我专门搜出来。大数据在应用里面有这么几个类型。

在我们微博平台上用户规模依然是强大的,现在有5.6亿多用户,每天产生多少总的发表量,几千亿,你分析社交关系,是数百亿的,5.6亿的人际关系连接。每一篇新闻,每一篇微博发出来以后,有多少传播路径,我们用关系链传播,又是什么样的成果?我们每天有数百亿计的产品。现在的数据是更开放的,开放的数据一定是显示数据的。

刚才谈到微博的产品里面核心的东西无非就是两种,一个就是用户,一个就是内容,用户发的微博和图片,就这两种东西。现在的用户,大家在上网可选择的东西很多,花多少时间在微信,多少时间在微博。我们现在考虑微博下一代朝哪里走?核心的就是提高效果。你能在最少的时间内让用户看到所有的信息,看到他感兴趣的信息,这就是我们强调的问题。在这种情况下,我们就衍生了大数据的使命。我把我们微博里面运用比较多的应用场景列出来的。

第一个就是推荐系统。一个人上来以后,你给他推荐感兴趣的人,他的朋友。一种是基于兴趣,一种是基于关系的。你只有让他形成更强的关系链,就是他的好朋友,形成更好的兴趣,感情,交集圈。推荐系统和广告推荐是很相似的,算法做法是一样的。

第二个是微频道,核心目前就是给内容分类。微博是很短的,虽然是140个字,平均就是二三十个字,这么短的文本你怎么进行分类,美食,购物,到底是什么?还有更短的,我们把它分出来。把内容进行分类,把好的东西放到用户面前。

第三个叫微热点,真正实现信息关联。微博里面每时每刻都有热点事情发生,用机器发现哪些热点事件能读出来。它要做的事很多,第一发现热点事情,第二把热点事情聚在一起形成热点事件的脉络,第三把热点事件投放到用户面前,是纯自动的形式。每天数亿的数据怎么把它挑选出来。

第四叫微圈,其实就是智能分储。在微博上可以看到谁的微博,要取决于你上线的时间,正好在那个时间发表微博,因为微博操作很容易,你点一下按纽就可以关注他了,但是随着时间的积累,很活跃的用户的关系链已经上千人了,信息量非常多,你上线的时间正好是他发微博,你就看见了,你感兴趣的,你前女友有没有发微博,你关注的人有没有发表微博,你怎么拉取信息的?我们要做的把用户所有历史上已经关注的一千人自动分组,为什么分组?因为用户不会一个一个的关注,95%的人不会分组,他不愿意做,没有人做这个事,那我们做,这是非常难的事。大数据基本上都是智能的。大数据准确率是75%,80%。你能做到我们分组能做到百分之多少的准确率?如果做到60%,上线会被骂死。准确率达到什么样的程度,才能吸引更多的人。因为我们把准确率控制到一定的水平才能上线的。达到百分之多少之后大家才接受,我们才会上市的。

第五个是微博管家。怎么样把好的东西挑出来,垃圾自动过滤。我们邮箱就有垃圾箱,微博也有人做吗?不这么做有很多原因,一是技术是不是准确,二是商业化的问题。我相信不愿意做的原因就是商业化的问题。商业化的价值怎么做,这是需要我们做的,把垃圾信息过滤掉。

这是我们的事例。用户推荐,一个是基于感性的,我们用到了用户的兴趣模型,用到了用户在微博历史上用了那么长时间的微博,我会发现你经常收听哪些人,经常干什么,你对什么领域感兴趣,这个就是兴趣模型最直接的使用。还有一个就是刚才提到的长关系(音译),长关系是社交网络里面非常重要的,长关系要用二维,大家都知道现在有六度空间了,任何两个人的空间都可以利用六个人的空间找到,六度空间基本上是正确的,任何两个人都连一下,不超过4。我们推荐熟关系的时候,就是要把左右可能潜在的朋友,他不知道,他来微博了,他不知道,怎么摆放在他面前,这是5.6亿×5.6亿的关系,这个运算量很大。

广义的推荐系统,不仅仅推荐人,可能是推荐信息,我们在腾讯网慢慢引入这种技术的使用。当你看到这个新闻的时候,我可能在相关性里面,有相关的微博,相关的事宜,通过技术的自然连接,实现内容的串联。他的用户和更多的电商类的,都属于推荐类的应用。

微频道刚才提到了,对优势内容的挑选。单纯从技术角度来考虑这个问题,文本分类是很难的事,因为文本很短,还要分类,不像一些文章,几百个字进行分类,你有充足的理由做这个事,这里面需要很多办法,你不能把精力都放在文本本身,还有用户呢。这个用户老发财经类的内容,他发文章的时候,财经概率很多。利用这种思维,用更多的特征来学习,不要局限在内容本身里面准确会大幅提升。分完类之后还要把差的质量去掉,把好的质量选出来。比如说展示量,各种各样的东西,都是帮助你学习的。

微热点,这里面卷都是机器自动实现的,一件事情的发生,没有人参与,都是机器做的,而且我的机器可以发现这个事情的脉络,首先会把时间点,最热的信息拿出来,然后基于关键词把热点事情挖出来。用户上微博,大部分都是提留在主页上,如果主页提每个事件的话,再吸引你点击。我们用大量数据做这个事很有意义。我们做这个事根本不需要人做,只需要个别人看看,不要有太明显的错误,删删改,每天运营式的,自然的就出来了,这是很智能的。

这是我们的微圈。在PC上网,会把历史信息自动分好组。我们研究了特别多的运算。我们做社交网络分析的时候,很多都是很复杂的,我们做了特别多的改进,怎么把效率提高,把最小的图给解出来。分好组之后,里面有几个同学,我比较感兴趣的,前女友比较多的话,几个前女友分在一起的话,可以去里面看一下。这里面就是对信息和效率很好的提升。

微管家技术难点就是对内容质量的判断。最后就是我们的几点经验。大数据是一种能力,还是一种工具。其实现在的数据特别多,如果能把我们的数据使用好,你有很多的数据,你有很强的数据挖掘能力,算法,平台,如果你有这些东西,能够解决好某一个商业化的价值,很简单的比如说电商,我们腾讯和网点通合作,我们腾讯和它做基于兴趣的广告,利用好大数据,提升一个产品的体验,解决好一个产品的发展方向,如果你找到这些才是我们的出路。如果我们空有数据放在那里,我们也有很强的技术,各种云计算,什么都有,但是没有很好的商业模式,没有很好的产品应用,这样的话就很难施展了。我们长期的摸索,每天有大量的数据进来,数据挖掘团队,有很强的技术能力。找不到商业模式的话,价值是有限的。把我们的数据和技术,以及产品应用和商业化应用结合是我们很重要的目标。


原文发布时间为:2013-08-18


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
数据采集 数据可视化 数据挖掘
数据挖掘微博:爬虫技术揭示热门话题的趋势
微博是中国最大的社交媒体平台之一,每天有数亿用户在上面发表自己的观点、分享自己的生活、参与各种话题。微博上的热门话题反映了用户的关注点和社会的动态,对于分析舆情、预测市场、探索文化等方面都有重要的价值。本文将介绍如何使用爬虫技术从微博上抓取热门话题的数据,并通过可视化的方式展示热门话题的变化趋势。
257 0
数据挖掘微博:爬虫技术揭示热门话题的趋势
|
分布式计算 算法 关系型数据库
|
机器学习/深度学习 自然语言处理 算法

热门文章

最新文章