信息流战争的新赛点

简介: 半个月前还沉浸在“抖音”高速增长的喜悦中的今日头条,最近却有点焦头烂额。央视、人民日报、第一财经周刊等央媒和核心财经媒体,在上周对今日头条及旗下的抖音产品进行了一轮违规发布广告的曝光以及价值观的批判。


2e45439a9efc224e53e9618cacbf7171.jpg

半个月前还沉浸在“抖音”高速增长的喜悦中的今日头条,最近却有点焦头烂额。央视、人民日报、第一财经周刊等央媒和核心财经媒体,在上周对今日头条及旗下的抖音产品进行了一轮违规发布广告的曝光以及价值观的批判。


在相关的许多报道中,媒体都或明或暗的强调了一点:信息流推荐技术本身早已被国内外论证了是一个成功的移动互联网产品,但之所以出现劣币驱逐良币的问题还是因为使用这个技术的企业出了问题。


也正因此,不少媒体在引述相关报道的时候都会强调,去年初,今日头条创始人张一鸣在接受《财经》杂志专访时提出的,不认为今日头条应该有价值观这一论调。

这在一定程度道出了今日头条的核心问题,但事实上更为关键的是,如今这个阶段的基于人工智能算法的内容之战,已不仅仅是打破“信息茧房”这么简单。从技术之战开始,这场信息流大战的赛点,已发生了轻微的变化。



推荐准确性的PK,仍将决定于数据而非算法的技巧


对信息流来说,算法准确性是竞争重点,但真正的决胜点,却是数据。


1、数据热启动是百度实现奇袭的根源


首先需要明确一个理论,推荐算法的准确性并不是被计算出来的,而是被统计出来的(这一点在后文底层技术分析会详细说明),这意味着数据量越大、越相关,越能得出准确的推荐效果。


而且,由于复杂网络向量关系的存在,一个向量特征的准确性影响是呈几何扩散的,数据对推荐准确性的影响是非线性增长的关系。在足够多的数据量情况下,会快速提升,直到准确率接近100%开始变缓(毕竟100%准确十分困难,越接近越难)如图:

3e6cb3891dfbdfcb471e452f783868c2.png

也就是说,在算法准确性这里,数据热启动的价值将变得更为重要,足够丰富的数据,一旦介入信息流推荐算法,就可以马上实现高的准确率,追赶间距很窄。


以百度为例,其老本行搜索业务与内容直接相关,在内容大数据方面有直接优势,官方对外宣称整合了千亿特征、百亿样本的数据体系,构建了囊括大到科文史哲,小到一个冷僻的小游戏的特征数据。这为其数据热启动做好了充分的准备,而且,主动搜索表达出的用户向量特征,比通过被动点击总结的向量特征可能更为准确有效。从这样的技术角度看,百度信息流可以只用一年时间完成其他公司三五年才达成的目标,在较短的时间内“杠住”今日头条并不意外。


2、只有足够大的试验平台才能让准确率“朝上走”


另一个算法准确性的问题是推荐试算的问题,即通过推荐的实践来反馈当前算法的准确性,从而实现所谓的模型迭代。


例如,平台通过各种方式得出某类用户可能喜欢李娜,但推送李娜比赛新闻后效果很差(点击、停留等指标低),就证明这个推断可能是不准确的,需要返回调整。这样的反复试验能够让推荐逐渐接近真相。


而这些,说来说去都是硬实力的比拼,比的是谁的平台大、空间足够广阔,这会让UC这样早期没跟上的信息流平台越来越落后(如果试验环境不够充分,下一次迭代的准确性未必比这次好,准确率呈现反复波动而非一致提升),而百度这样本来就凭借搜索页面占据用户眼球的平台“庙大好念经”。


也即,算法准确性可能不是什么奇巧淫技,比来比去还是看谁的膀子粗。




技术下一程,要从冰冷的统计学走向有温度的内容尊重


上文准确性所行之事,从宏观层面都是统计学的“花招”。而信息流的下半场竞争,则将更具有尊重内容本身的人文色彩。也即从“量”的上半场进入“质”的下半场。


1、算法不带价值观,但产品要有温度


张一鸣“算法不带价值观”被广为诟病,但从上文的技术推导本身而言,算法可能真的没有价值观,这些冰冷的统计学数据不关注也不可能关注到内容本身。


但同样是推荐系统,网易云音乐在QQ音乐、虾米音乐等一众软件中独树一帜,被广为赞誉。好听的冷门歌曲、年少时听过的磁带、收音机播过的音乐,在恰当的时机跳上来给予用户惊喜。“有温度”的产品收获用户粘性是一种必然,有温度的产品也一定是企业长久发展的必要。


同样是内容产业,信息流莫不如是。


2、“人人平等”要变成“生而不平等”


这里的转化有双重含义,首先是推荐机制不再只局限于“博眼球”的统计学需求指标,从而丢掉了优质内容。其次是打击套路写作,让上百万的内容创作者们实现真正的创作丰富化,而不是束缚于推荐机制的茧房中。


想要实现这种转化,完全寄希望于人工不太现实(虽然百度这些平台都在强调自己的人工投入),最终还是要通过技术本身去甄别内容,打入内容的“内部”,自主判断什么是好文章、什么是好图片、什么是好视频、什么是好音乐、甚至什么是好人(内容源)。


今日头条在公开算法末尾就如何判断内容好坏做了一个章节,但该章节并没有太多骄傲的“技术”宣扬,说明它仍在发力被社会期许的“好内容”。因此,如果说百度或者其他信息流平台下一阶段要彻底超越今日头条,“好内容”将是最合适、最必要的角力点。


百度发力“人工智能皇冠上的明珠”NLP(自然语言处理)或许就是在走这条路。虽然同时强调自己的AI技术,但百度作为综合性科技公司相对头条,在AI的宽度、深度上公认更有优势,在利用自然语言处理技术,对内容的质量、新颖度、情感倾向等进行深度理解和挖掘方面,较今日头条可能更有先机。


百度先于今日头条搞出的“创作大脑”,表面上是为了更好地留住作者,而深层次可能更在于百度想在理解、区分内容好坏方面更先一步。毕竟,AI辅助写作首先需要的就是对知识、对图像的理解,将是锤炼内容识别技术的恰当机会。


无论如何,信息流的技术竞争一定要回到尊重作者、尊重内容的“供给侧竞争”(相对于只关心用户需求的需求侧竞争,它本质上文提及的统计指标集合)上来,让每一个内容个体“生而不平等”,由他评走向自我价值认同。


如果”澳网出线局势深度分析”与“李娜3岁时干的事你绝对不知道”这样的文章不再被同等对待,最终所谓“信息茧房”等表面问题也将迎刃而解。


而这方面,虽然百度已经占得先机,但头条、天天快报甚至手握公认优质内容的微信入局,必将引致一场新的技术恶战。




算法流派众多,但一切归于贝叶斯

基于前文,我们能发现,在信息流推荐中,数据仍然是决胜点,而信息流也必然要更加尊重内容。而从底层技术角度,当我们回到算法的起源,也同样可以印证这些。

以目前主流的算法为例归类分析:基于内容的推荐、协同过滤推荐、基于关联规则的推荐、基于社会化网络分析的推荐等,用通俗的语言即可解释。


1、基于内容的推荐算法


即用户喜欢什么东西,推荐一些相似的东西。该推荐算法简单有效,推荐结果符合人们的认知;无须用户的历史评分信息。但是,该算法必须知道内容的特征,界定“什么才是相似”,比如体育里的篮球、NBA、耐克……如果不能得到足够的信息,则推荐效果较差、结果较单一。


2、协同过滤技术


即把兴趣差不多的用户群体归类,然后给他们推荐相同偏好的内容。它通过协作的方式分析用户之间的喜好,避免特征提取不完全的情况。但存在冷启动问题,无法准确对新用户进行推荐,存在数据稀疏性问题。有从用户出发和从内容出发两种协同,如图所示:99c0b29c7dcaffd60821c6915933ad77.jpg

图:从用户出发和从内容出发的协同过滤推荐(来源:CSDN“数据挖掘工人”博客)


3、关联规则推荐


即通过某些技术挖掘大数据,建立内容之间的关联规则,起初用在实体零售,比如经典案例尿不湿与啤酒的搭售。在信息流领域中,主要是用统计学的方式发掘那些表面上看不出关联的内容与内容之间的某些相关性,及相关程度。


4、社会化网络分析


即身边的人喜欢什么,就给该用户推荐类似的内容。例如亲戚、朋友、同学等双边关系,微博关注、微信公众号订阅等单边关系,织就一个由用户组成的节点网络,探索与分析各节点、边的重要程度,利用这些重要关系来进行推荐。

558183d2dfda0cdcdb0a97c8b518e374.jpg

图:社会化网络分析(来源:知乎“社会网络分析”专栏)


上述这些主要的推荐算法,都源于贝叶斯理论。其主要解决的就是根据已发生的事实推断关联事件发生的概率。


而信息流算法核心推荐系统正是通过利用用户的历史行为数据,分析用户的兴趣爱好并构建相应的用户模型,从待推荐的项目中选择与其兴趣偏好相符的项目进行推荐。例如,在一个极简化的模型中,已知一个喜欢李娜的用户喜欢网球的概率为x,那么就可以得出喜欢网球的用户喜欢李娜的概率y,藉此推荐内容。


这种推断的准确性,就是信息流算法能够达到的准确性,其基础框架就是贝叶斯理论。可以看出,不管是基于何种类型的推荐,在算法前的机器学习层面都是由贝叶斯推断一层层、一步步堆积、衍生而来。不管最终构筑成多么庞大的体系,但它们开始的基点却是一样的,这也使得算法推荐容易陷于“信息茧房”的怪圈。




  “人人平等”造就信息流“创作茧房”

在业务层面,贝叶斯的特性也不可避免地造就了“创造茧房”现象。而打破“创造茧房”,就唯有跳出当下的贝叶斯框架,靠的就是上文所言的内容尊重,从“人人平等”变成“生而不平等”,最终也给出信息流算法技术演化的应有方向。



1、概率统计基础上的算法,都是“他评体系”


主流算法,就是通过推断个体与个体之间的关系(方式可以有上文提到的多种),参考热度等评价指标,从而有目的进行推荐。例如,对一个喜欢李娜的用户推荐澳网的资讯,在推荐时就已经根据复杂的计算(基础是贝叶斯)。由一个预期的点击率、停留时间、点赞、评论情况计算,计算不达标的,就不会推荐出去。


在今日头条算法发布会上,曹欢欢在讲到今日头条的数据量时,称其有几十亿“向量特征”。所谓向量,指的是带方向,例如喜欢李娜和喜欢网球是两个“原始特征”,而“喜欢李娜→喜欢网球”才构成一个向量特征(带概率数据)。


但事实上,向量不过就是从一个点到另一个点,是点与点之间的数据关系,每一个内容个体(一篇文章、一个短视频等)都被当作一个点存在。是否被推荐,是由各种外围向量关系决定,是典型的“他评体系”(数学上,点已经不可再分割)。


2、“人人平等”后,“创作茧房”成信息流顽疾根源


这意味着,内容和内容,在算法这里是“人人平等”的,一篇精心编撰的图文与一个拼凑热文会被一视同仁,都依据向量特征进行推荐。但这也造成了内容质量的“参差不齐”。


可以说,在当下的算法体系下,内容个体真正缺乏的是“自我认可”,高质量内容源不被重视;算法更多地是“世俗评价”,算法为上,人人都在追求曝光量。


于是,在当前算法模式下,创作导向被冰冷的统计学规则限制,越来越收敛到某些高推荐、高曝光、高点击的范围内(褥羊毛有意为之,或者被环境胁迫),最终形成“创作茧房”。


算法推荐直观上造成了用户层面的“信息茧房”现象,更深层次看,则引发了内容生产者的“创作茧房”问题。


诚然,他评体系确实对增强推荐内容与用户的匹配有重要意义,提升准确性仍然是算法的重要任务,但解决“创作茧房”问题,不再把内容个体当做一个不能分割的点,而把算法扩展到内容的内部,尊重每一个内容,会是下一阶段信息流技术突破的重点。



相关文章
idea快捷键大全(纯干货版)
idea快捷键大全(纯干货版)
1064 1
|
资源调度 JavaScript 测试技术
vite的项目,使用rollup打包的方法
vue-cli 自带的是 webpack 的打包方式,打出的包体积有点大,而 vite 自带的是 rollup 的打包方式,这种方式打包的体积就非常小,官网也有一些使用说明,所以学会之后还是比较很方便的。
vite的项目,使用rollup打包的方法
|
11月前
|
人工智能 自然语言处理
WebDreamer:基于大语言模型模拟网页交互增强网络规划能力的框架
WebDreamer是一个基于大型语言模型(LLMs)的网络智能体框架,通过模拟网页交互来增强网络规划能力。它利用GPT-4o作为世界模型,预测用户行为及其结果,优化决策过程,提高性能和安全性。WebDreamer的核心在于“做梦”概念,即在实际采取行动前,用LLM预测每个可能步骤的结果,并选择最有可能实现目标的行动。
248 1
WebDreamer:基于大语言模型模拟网页交互增强网络规划能力的框架
|
10月前
|
数据采集 SQL Oracle
从ORACLE源进行批量数据迁移到GBase8a参考示例
从ORACLE源进行批量数据迁移到GBase8a参考示例
从ORACLE源进行批量数据迁移到GBase8a参考示例
|
10月前
|
人工智能 前端开发 Serverless
主动式智能导购 AI 助手构建解决方案深度评测
《主动式智能导购 AI 助手构建》解决方案通过 Multi-Agent 架构,结合百炼大模型和函数计算,实现了精准的商品推荐。部署流程清晰,但在数据类型选择和配置优化方面存在不足。方案在生产环境应用中提供了基础指导,但仍需完善前端开发指南和数据管理机制,以更好地满足企业需求。
|
10月前
|
监控 数据挖掘 API
探索淘宝商品评论接口:功能、应用与开发者指南
在电子商务蓬勃发展的今天,商品评论已成为消费者购买决策的重要依据之一。作为国内最大的电商平台,淘宝通过其强大的商品评论系统,不仅为消费者提供了丰富的购物参考,也为商家提供了宝贵的用户反馈。而这一切的背后,离不开高效、稳定的商品评论接口支持。本文将深入探讨淘宝商品评论接口的功能、应用场景以及为开发者提供的指南,帮助大家更好地理解并利用这一资源。
|
11月前
|
安全 搜索推荐 Android开发
深入探索Android与iOS的系统架构差异
【10月更文挑战第29天】 在当今的智能手机市场中,Android和iOS无疑是两大主流操作系统。本文旨在深入探讨这两个系统的架构差异,从底层的操作系统设计到用户界面的呈现,以及它们如何影响了开发者和用户的体验。通过对比分析,我们可以更清晰地理解这两种平台的优势与局限,为开发者在选择开发平台时提供有价值的参考,同时也为用户选择设备提供一定的指导。
228 2
|
12月前
|
存储 传感器 监控
物联网:物联网卡为什么没有语音功能
物联网卡(IoT SIM卡)主要是为物联网设备设计的,这些设备包括但不限于智能城市传感器、可穿戴设备、工业监控设备、车联网设备等。与普通的消费者SIM卡相比,物联网卡在功能和设计上存在一些显著的区别,其中不包括语音功能是其重要特点之一。以下是物联网卡没有语音功能的几个主要原因:
|
12月前
|
物联网
物联网卡不能更换地区使用吗
物联网卡(IoT SIM卡)是否能更换地区使用,主要取决于几个关键因素,包括物联网服务提供商的政策、物联网卡的类型(如预付费、后付费)、网络覆盖范围、以及是否存在地理限制等。以下是一些常见的考虑点和操作步骤:
|
算法 数据可视化 定位技术
QGIS+Conda+jupyter玩转Python GIS
QGIS+Conda+jupyter玩转Python GIS
371 1