详解:知乎如何使用机器学习,未来还有哪些想象空间

简介:
本文来自AI新媒体量子位(QbitAI)

机器学习,正在以及将要如何改变知乎?

回答这个问题的最佳人选,莫过于知乎合伙人、大数据团队负责人李大海。这位曾经供职Google的工程师,最近就在斯坦福详细解读了知乎是什么,知乎正在如何使用机器学习,以及未来机器学习能带给知乎怎样的想象空间。

对于知乎来说,使用机器学习技术,可以更加精细地对用户和内容进行建模,促进内容生产和内容分发的效率。

李大海透露,知乎对机器学习的应用划分为6大场景:用户画像、内容分析、排序、推荐、商业化和社区管理。更多详细的介绍,在下文中展开。归根结底一句话,就是将机器学习技术用于内容的生产和分发。

未来,知乎希望在机器学习的帮助下,不止是分发内容,还能更深入的理解内容。

理解内容涉及两个方面:一方面是要从用户生产的非结构化内容中抽取、组织各种知识和观点,变成知乎知识库的一部分;另一方面,要能把知识库的内容转变成用户友好的产品。

以下就是李大海解读知乎与机器学习的详细内容,量子位编辑:

大家好,我是李大海,现在是知乎的合伙人,同时也是知乎大数据团队的负责人。我在知乎的一个很重要的工作,就是推动机器学习技术的应用和落地。今天很荣幸能够来到斯坦福,跟大家一起交流。

今天的话题是知乎与机器学习,这是我们首次站出来表达对机器学习的重视以及对机器学习高手的渴求。接下来,我会重点围绕两个方面的内容来展开:

首先,知乎是如何使用机器学习技术的,我们so far做了哪些工作,以及计划做哪些事情?

第二,展望未来,机器学习技术给知乎提供的想像空间是什么,能够帮我们催生什么样的产品?

首先来看第一个问题。要说明「知乎是如何使用机器学习技术的」,需要先简单描述一下「知乎是什么」。

今年是知乎成立的第6年。6年前知乎刚上线的时候,是一个封闭的邀请式社区,在刚上线的一段时间内,用户量并不大。当时社区里讨论的话题大部分都集中在互联网和创业领域,是一个看起来有些小众的网站。

那么6年后的今天呢?我们来看看,知乎上都有什么。

知乎是什么?

大家可以看看左边的图,这是知乎上关注人数最多的一批内容的话题标签云。可以看到,现在知乎的讨论已经变得非常多元化,从互联网到心理学,从电影到文学,从专业的天文学、数据分析和人工智能,到贴近生活的旅行、健身、时尚等话题,都有人在讨论。

从数量上来看,截止到目前,知乎上已经有1500万个问题,5500万个回答,还有相当数量的专栏文章,这些内容呢,都会被关联和绑定到25万个话题上。所以,到了今天,知乎已经是一个讨论面非常广泛的知识社交平台。

看完了内容,我们再来看看用户的情况。

知乎用户6年来同样也在飞速增长,并且越来越多元化。知乎上既有李开复、马伯庸、张译、贾扬清等一批现实生活中已经是「名人」的用户;也有以前默默无闻,但通过在知乎辛勤耕耘,拥有了一定影响力的优质内容生产者;另外还有像 “穷游锦囊”、“中国科技博览”、“中国印钞造币”等等机构类用户。

截止目前,我们拥有6900万的注册用户,每天有超过2000万独立设备访问和登录知乎,每月有上百亿的Page View。

上面的数据,给我们一个知乎规模的直观认识。事实上,知乎已经成为世界上最大的中文知识社交平台,并且还在保持高速的增长。2016年,我们在没有花一分钱做效果推广的情况下,我们的注册用户量、DAU等核心指标大约翻了一番。

那么,知乎为什么能够在这样的体量下还保持高速增长呢?

我们曾经做过一些用户调研,希望了解他们为什么喜欢用知乎。有的人说他喜欢来知乎看热点事件的评价,了解同一个事情的不同角度的观点,相互碰撞;也有人喜欢来知乎看大家的经验,帮助自己做消费决策:比如装修怎么做预算,职场第三年如何提升自己,等等。

有的用户则是专门来知乎分享自己的知识。我们有个用户是房产律师,叫徐斌,他常常在知乎上回答购房过程中遇到的法律问题,他曾在我们产品知乎Live开了一堂课,名字叫「怎样租房不上当」,有8000名听众购票入场向他取经。

可以看到,用户来知乎,无外乎做两件事,生产内容,或者消费内容。他们有些人是内容的生产者,但绝大多数都是内容的消费者。

「内容生产」和「内容消费」一起,构成了知乎的生态闭环。更多更好的内容生产成就了知乎作为平台的粘性和吸引力,而吸引来的更多用户也催生了更加多样化的内容生产需求。生产内容的用户也能从这个过程中受益,通过知识的分享和交流提升自我。

正是因为满足了用户的内容生产和消费的需求,才有了知乎的高速增长,有了知乎今天数千万的用户和内容。

所以说回来,知乎是什么?知乎其实就是一个连接和匹配海量用户的知识网络,是一个平台。我们的核心目标就是让这个内容生产和消费的闭环顺畅地运转,然后为用户提供一个认真、有效的讨论环境。

要实现这个目标,在我们的规模比较小的时候,是比较容易的。在社区规模比较小的情况下,我们可以通过一些简单的产品策略和运营策略,保证内容生产和分发的效率,也能够通过人工的运营方式来维持良好的社区环境。比如我们的邀请回答机制和谢邀的文化。

但是,在社区规模达到今天的状态时,我们面临的运营压力也在飞度的增长,产品设计也需要更加精细化。现在的知乎每天都有数千万用户在活跃,产生数十万的新内容。这时再纯粹依靠人力进行产品决策和社区运营,会面临效率低下、人力资源难以为继的困境。

机器学习6大场景

因此,回到第一个问题,知乎正在使用机器学习技术做哪些事情?我们认为,使用机器学习技术,可以更加精细地对用户和内容进行建模,促进内容生产和内容分发的效率。

具体说来,我们可以把知乎对机器学习的应用划分为6大场景,也就是用户画像、内容分析、排序、推荐、商业化和社区管理。在过去一年多的时间里,我们在这6个场景上都做了一些工作,也有一些工作正在进行或者马上启动。下面,我来详细介绍一下这些工作。

用户画像

首先是用户画像。

可以说,准确有效的用户画像是进行一切个性化策略的基础。我们现在已经初步建立了一套用户画像的体系,并且对一些重要标签进行了挖掘,例如用户的活跃度、People Rank,常用登录地点;作为生产者在特定话题下的权威度;作为消费者对特定话题的兴趣,等等。

这些用户标签被用在了个性化排序、推荐、问题路由等一系列任务中,取得了不错的效果。接下来,我们还会对用户的属性进行更深入的挖掘,例如,我们希望对用户进行社群分析,并且定位整个信息传播网络中的关键节点,也就是所谓的Key Opinion Leader。

我们也希望用户的兴趣标签变得更加「动态化」和「可预测」,例如,如果一个用户最近对「怀孕期间的健康」这种话题比较感兴趣,那么我们可以推测,用户在几个月后,可能会对「育儿」这个话题产生兴趣。

我们还希望能通过用户的分享来重构他的经历,也计划进一步挖掘用户的消费能力和消费意愿,等等。总之,我们期望,在接下来的一段时间内,能够对用户进行全方位的了解和刻画。

内容分析

说完了用户画像,我们再来看看内容分析。

知乎上每天都会产生大量的新内容,这些内容需要在第一时间被分析和处理,打上各种各样的标签。

因此,我们构建了一条内容分析的流水线,保证站内每条内容发生变化时,都会进入这条流水线进行自动分析,然后第一时间把分析结果同步给搜索、推荐、社区等各个业务场景,对每条内容而言,这个过程大概在10秒左右,这种实时性能够满足我们的业务要求。

目前,在这条流水线上,我们已经针对文本、图像、音频等数据进行了一些基础分析,例如文本分类、命名实体识别,图像色情、暴恐内容检测,音频降噪等等。

我们也会逐步往这条流水线上添加更多的组件,例如最近一个重要的工作,是从不同维度刻画内容质量,这些维度包括内容的时效性、专业性、严肃性、准确性,等等。

我们还计划对内容进行语义分析,例如自动摘要,让用户在 Feed 流这样信息密集场景中,不用点开卡片就能初步判定内容的大概情况,从而提升筛选内容的效率。

排序

用户画像和内容分析是基础工作,很大程度上来讲,不是用户直接可见的。下面我们来介绍更上层的业务场景。

首先说一下Ranking,Ranking是内容分发场景中非常重要的一环,好的 Ranking策略可以让合适的内容第一时间内触达用户,降低用户筛选的成本,提升分发效率。目前,我们我们主要使用Learning to Rank技术来改进各种业务场景下的排序,包括:

  • 首页信息流的排序:

首页是用户进入知乎的第一入口,首页的内容质量会影响用户对知乎调性的认知,以及用户粘性、内容消费量、用户停留时长等一系列关键指标的变化。

  • 搜索结果排序:

这里需要解决好的,主要是不同分类的内容如何混排的问题;

  • 问题下的答案的排序:

知乎上比较热门的问题,都会有很多的回答,有的问题下甚至会有几千个答案,如何对这些答案进行排序,也是一个很重要的课题。除了考虑用户投票的反馈特征之外,还需要考虑各种内容相关特征,例如内容格式、内容质量、答案和提问的相关性,等等。

同时,我们还会考虑作者和投票的用户在这个问题领域的专业性,比如一个机器学习领域的从业者在机器学习问题的回答权重就会比非专业的更高,确保「好答案」不会埋没。

Learning to Rank技术在这些场景下的应用带来了很好的收益。举个例子,原来我们的首页排序算法采取的是类似EdgeRank的排序策略,在经过大概两年的优化后,各种指标都只能保持平稳,很难有大的提升了。

但我们使用了Learning to Rank技术来进行排序优化,三个月内,点击率上升了 40%,用户在线时长上升了 20%,留存也有小幅的提升。

当然,我们觉得,仅仅是这样,还是不够的。目前我们也在探索Learning to Rank技术的更深入优化。一些可能的方向:

  • 一是多目标的业务场景下Ranking的帕累托优化。

大家知道,我们的很多业务场景都是需要进行多目标优化的,仅仅看「点击率」或者「相关性」等指标,很容易陷入到指标上升,但实际收益下降的怪圈中去。

仍然以Feed Ranking举例,在我们使用Pointwise/Pairwise的Learning to Rank技术进行了几轮改进之后,我们就陷入到了一种困境中:新上一个模型,往往是一个指标上去了,其他的指标下降了。

例如,在着重优化点击率之后,新模型的点击率有所上升,但同时放出了大量的低质量内容,比如「抖机灵」、「吵架纠纷」、「标题党」等内容,这些内容非常抓人眼球,吸引了大量点击,但其实用户价值不大,对知乎的产品形象也会带来负面影响。

在这种情况下,我们需要把机器学习中的帕累托优化等思想引入到Learning to Rank的场景中来,促进各种指标的协同提升。

  • 二是用好一些实时特征,让模型除了能反映用户的稳定偏好之外,还能考虑到当前的实时状态,及时做出调整。

例如,如果一个用户是巴萨的球迷,很喜欢看站上各种巴萨的讨论,但昨天巴萨输球了,所以很不高兴,不想看到任何相关的内容,我们就应该要从他的实时行为里面尽快看出端倪。

推荐

下一个业务场景是推荐。

知乎上的推荐主要是两种,一种是针对内容推荐相关内容,一种是针对用户推荐可能感兴趣的内容。

我们之前陆陆续续做了一些推荐的工作,今年年初,我们启动了统一推荐引擎计划,基于Prediction IO和Elastic Search等开源系统,构建了知乎的统一推荐工程框架,接入到一系列业务场景中。

推荐接下来要做的事情主要包括两个:

  • 一是实现一个完备的推荐算法库,包括Explore & Exploit算法,协同过滤,内容关联性推荐,Deep & Wide算法等,提升业务接入各种算法实验的效率;
  • 二是把推荐跟排序结合起来,在首页或者搜索这样的入口级场景,加入一些推荐结果,和原来的内容进行混合排序,帮助用户快速地发现其他优质内容,为用户进行兴趣探索和拓展,发现更大的世界。

商业化

Ranking和推荐都是比较明确的用户场景,主要目的是实现用户和信息的高效匹配。相对来说,商业化这个场景会更加复杂一点。

大家知道商业化产品和用户产品的不同,在于商业化中引入了「平台」和「广告主」这两个角色,需要在各方的利益之间寻求一种平衡。

知乎的商业化探索是从去年开始的,截止目前,我们已经实现了一个商业系统的雏形,实现了流量预估、广告定向投放、CTR 预估、智能化的 Pacing 等一系列功能。

而随着今年业务的规模的扩大,我们也需要更多有效的工具,帮助达到商业收入和用户体验之间的平衡,也为合作伙伴带去收益。接下来,在商业化方向,我们需要机器学习技术武装的地方包括:

  • 智能的广告平台。

支持分析用户对各种品牌的情感倾向,实现更智能的广告售卖;以及帮助广告主设定各种投放计划和定向目标,等等。

  • 广告质量的预判和审核工具。

作为一个非常重视用户体验的公司,我们进行商业化探索的时候也是非常谨慎的,不仅要保证用户尽量不被广告打扰,还希望广告也能给用户带来价值。

过去一年,我们的商业运营团队在保证广告物料质量方面下了很大的功夫,所以用户普遍对知乎的广告是持接受和理解态度,广告的转化效果也得到了很好的保证。

但是在广告的规模化投放开始后,单纯靠人力是不能完成这样的质量保证的,因此我们需要一些机制,例如广告物料的质量判定,让机器辅助人力来做这样的工作。

社区管理

说完商业化,我们再来说一下最后一块工作,社区管理。一个良好运转的社区需要良好的社区讨论氛围。我们使用机器学习技术进行了大量的工作,来帮助社区运营的同学高效地进行社区氛围的维护。

由于知乎上数据的量级非常大,这些检测和处理必须做到足够的自动化和高效率。它们主要包括:

  • Spammer 用户的识别:例如识别爬虫用户、刷粉用户、营销用户等;
  • 各种低质量内容和违规内容的识别和处理,例如前面提到的色情图片识别,文本中的语言暴力识别,等等。

伴随着知乎的高速增长,原来靠社区公约、人工运营、用户举报等建立起来的社区管理机制也会面临巨大的挑战。把知乎比作城市的话,社区管理是一个基础建设的工作,类似于修建道路、疏通下水道。

一个城市的基础建设做好了,才能吸引更多的人入驻;但一个城市的规模扩大了,这些基建工作势必也变得更加繁重。

接下来,我们希望机器学习能够帮助社区管理的同学在这些方面提升效率:

  • 一是更深入地对各种低质量的内容进行检测和自动处理。例如营销软文,或者网络谣言,都需要尽可能快地检测出来,降低传播量,让这些内容对社区的损坏降到最低。
  • 二是希望通过一些自动客服机器人,提高对用户举报、用户反馈等事务的处理效率,这项技术当前在一些电商网站中已经得到了很好的应用,我们也期望能够通过这项技术,来减轻运营人员的工作量,提升用户的满意度。

知乎机器学习的未来

上面简单介绍了知乎当前对机器学习的使用情况,主要在 6 个场景中,包括用户画像、内容分析、排序、推荐、商业化和社区管理。归根结底一句话,就是将机器学习技术用于内容的生产和分发。

但我们相信,随着机器学习技术的发展,它不仅仅是做到这个程度。在可见的未来,知乎更希望机器学习技术帮我们做到什么事情呢?用一句话来描述,就是:希望让知乎不只是「分发」内容,还能更深入地「理解」内容。

大家可以看到,在「内容生产」和「内容消费」的闭环中,知乎作为平台,其实更多是在发挥「信息路由」的作用,促进内容的生产,然后投递到不同的人手中。

如果说这些内容是宝贵的矿石的话,那么知乎的角色,更类似于一个矿产的集散中心,而这些矿产能够发掘出多少价值,则依赖于用户自己。我们希望,在未来知乎能够对这些矿产进行一定程度的加工,来进一步提升用户获取知识的效率。

举个例子,如果用户希望知道,大家对某个新闻事件持有什么观点,现在需要一条一条地阅读知乎上相关的各种内容,再自己去总结和归结每个人的主要思想,这是成本很高的事情。

反过来,如果知乎可以提供这样的服务,让用户更容易看到全局的舆论,多少用户从经济的角度分析问题,又有多少用户从政治博弈的层面解答问题,等等。如果真的需要看某个具体用户的论证过程,还可以按图索骥地去查看,那将是非常有价值的。

这个工作要涉及到两个方面:一方面是要从用户生产的非结构化内容中抽取、组织各种知识和观点,变成知乎知识库的一部分;另一方面,要能把知识库的内容转变成用户友好的产品。

非结构化内容中的知识抽取

先说非结构化内容中的知识抽取。

我们期望能从知乎上的海量内容中,挖掘出各种知识和见解,存储起来,能够被索引和利用。目前业界有一些从非结构化数据中抽取结构化知识的研究,例如知识图谱技术。

那么对知乎上的内容进行信息抽取困难在哪儿呢?主要是,知乎的内容形式比较复杂,除了可以结构化的属性描述和关系描述之外,还包括其它形式多样的知识和见解,例如对科学定理的论述、针对某些事件的评价,等等。

知乎上的内容也不仅仅局限在某些特定的领域下,而是一个开放的、不断扩张的领域集合,用户会发起各种各样的讨论,也会从各种不同的角度来看待同一个问题。

当然,相对于其他的公司,知乎在知识和见解的结构化方面也有优势。因为知乎上的内容质量相对较高,同时知乎的用户通过各种互动行为,和内容构成了一张信息量丰富的网络。我们的数据具有极高的信噪比,这也为信息抽取工作提供了很大的便利。

更加智能、高效的用户交互接口

假设我们已经神奇地完成了上一个步骤,接下来的工作就是,如何将这些信息更高效地提供给用户。我们同样期待机器学习技术能够帮助我们构建一个更加智能、高效的用户交互接口。

一个设想是,智能问答产品,使用自然语言生成手段,以一种更加自然、易于理解的方式,将知识库中的信息提供给用户。

更进一步,我们是不是可以让「知乎」成为一个聪明的大脑,和用户进行更自然、形式更加丰富的相互交流呢?这也是业内的一个比较前沿的研究方向,像 MSRA 和 Google 研究院也在做类似的工作,我们也希望知乎能够在这方面能有自己的积累。

这里是广告

以上就是我的 talk 的主要内容了,主要讲了两个问题,一是知乎目前的机器学习应用状态;二是知乎对机器学习应用场景的未来展望。当然,这些东西要想实现,还需要有更多的机器学习大牛加入我们,一起来增加知乎的产品价值。这也是我们到斯坦福来宣讲的初衷。

所以接下来是一个小广告,对,我们在招聘,不管是算法大神还是刚毕业愿意回国发展的机器学习相关毕业生,我们都求贤若渴。招聘计划就不念啦,很抱歉我们暂时还没有在加州开办公室的计划,以后会有的。

对了,还有另一个小广告,这个月我们正在举办「看山杯机器学习挑战赛」, 5月15号正式开赛, 8月15号结束。这次的比赛,知乎提供的训练数据是问题和话题标签的绑定关系,参赛者的目标是提供最优的自动标注模型。

我们提供了300万问题和2000个标签,每个标签对应知乎上的一个「话题」。大家有兴趣的可以扫这个二维码了解、参赛。

谢谢大家。

One More Thing

看完知乎,量子位此前还发过一篇报道,推荐同时阅读:《详解:估值18亿美元的新晋独角兽美国知乎,如何使用机器学习?》。

这一篇是讲Quora的,因为标题,不少用户在后台吐槽。好吧,量子位当然知道知乎起步是参考Quora的,在这里也澄清一下……同样谢谢大家。

P.S. 量子位也有知乎账号,已经V6啦,欢迎关注~

【完】

本文作者:舒石 假装
原文发布时间: 2017-05-26
相关文章
|
3月前
|
机器学习/深度学习 数据可视化 数据挖掘
机器学习中空间和时间自相关的分析:从理论基础到实践应用
空间和时间自相关是数据分析中的重要概念,揭示了现象在空间和时间维度上的相互依赖关系。本文探讨了这些概念的理论基础,并通过野火风险预测的实际案例,展示了如何利用随机森林模型捕捉时空依赖性,提高预测准确性。
116 0
机器学习中空间和时间自相关的分析:从理论基础到实践应用
|
7月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI操作报错合集之在ODPS的xxx_dev项目空间调用easyrec训练,需要访问yyy项目空间的OSS,出现报错,是什么导致的
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
机器学习/深度学习 算法
学习笔记: 机器学习经典算法-空间内一点到超平面的距离推广公式
机器学习经典算法-个人笔记和学习心得分享
173 0
|
存储 机器学习/深度学习 编解码
【阿旭机器学习实战】【19】如何在不减少分辨率的情况下降低图片存储空间?K-Means算法进行图片颜色点分类存储
【阿旭机器学习实战】【19】如何在不减少分辨率的情况下降低图片存储空间?K-Means算法进行图片颜色点分类存储
【阿旭机器学习实战】【19】如何在不减少分辨率的情况下降低图片存储空间?K-Means算法进行图片颜色点分类存储
|
机器学习/深度学习
【机器学习】假设空间与版本空间
【机器学习】假设空间与版本空间
8279 1
【机器学习】假设空间与版本空间
|
8月前
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。
257 14
|
8月前
|
机器学习/深度学习 算法 数据可视化
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
143 1
|
8月前
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)