从百度视频看大数据与人工智能

简介: 大数据与人工智能是具体如何应用的。

一,大数据个性化决策


个性化决策无疑是难度最高的,因为个性化决策是根据用户行为记录来为用户做出相应的推荐。



百度在无线端有大量的产品,其中用户数过亿的APP就多达14款。百度内部有专门的团队,分析用户在这些APP中的行为,利用算法估算用户的年龄、性别、职业、兴趣等特征。


这一技术在百度工程师那里称为用户建模,这些数据来自于用户手机里安装的百度应用如“百度地图”、“百度贴吧”、“百度魔图”外加一些使用百度开放接口的应用诸如“糗事百科”等等,百度是能够通过这些数据进而来为用户建立动态模型。


百度视频的个性化推送是典型的利用群体智慧来解决个体需求的例子。传统的视频APP通常以广播的方式为用户推送视频,即每个用户收到的消息内容是一样的,无法满足用户个性化的需求。百度视频的做法是,分析用户的历史观看记录,同时结合用户的性别、年龄、地域等特征,为用户建立兴趣模型,将用户可能感兴趣但却未观看过的视频推送给用户。


比如一个经常上动漫贴吧的用户,百度通过搜集大数据后判断其是20岁左右的大学生,在个性化推送上就和其他人群就有所不同,可能就会推送一些大学生圈子里比较流行的动漫以及韩剧之类。


简而言之,用户使用的百度系以及带有百度接口产品的产品越多,百度就能越能为用户建立个人模型,所有使用过的产品的数据会汇聚到百度云端,人工智能最后再绘制出一个人的画像,百度再根据这个画像再为每个应用进行大数据决策推送,再根据用户的反馈结果进行迭代试错,当然这是机器学习的部分,不必要再深入讨论下去。我画了一个简单的百度个性化推荐原理。



二,大数据群体化决策



1,个体与群体的价值思辨


之前我对百度个性化推送提出过缺陷的质疑,一旦当用户更换手机之后,百度就无法再次为其建立个人画像模型,进而也就失去了对于个人的意义,百度又要重新建立个人数据,十分麻烦。


而深入了解百度的大数据之后让我感到更有一番深度,百度的大数据并非只为个体用户服务,更重要的是建立群体宏观行为模型,通过这一整套模型为群体进行宏观决策,而群体决策部分的重要战略意义远远大于个体意义。


我对此的理解为:如果我们将人类整体行为看做为个体行为,那么同样的作为个人总有一些误操作,一些随机的非主流的边缘操作,而这些边缘操作对于机器学习来说只是噪声而非信号,是需要进行过滤的,那么机器就需要过滤掉这些没有价值的数据,将有价值的信号数据沉淀与固定下来,为整体行为进行决策。


所以在某种程度上,我们都会陷入个性化至上的错觉,而忽略群体数据决策的价值。再回到百度之前的个性化推送功能,这些推送一定是事先经过群体过滤过后的信号,再向用户推送后才会更戳中人心。比如百度通过数据判断出最新流行的韩剧是《来自星星的你》,而不是过气的《大长今》,继而向用户推荐《星星》,这些都不是人工的,完全是自动生成的。


也就是,这场思辨中我得出了一个关于大数据的重要结论,机器为个人的数据提供个人喜好的小范围数据,而群体大数据决策后的结果在为个体扩大范围。


个性化推送为个人提供确定性,为群体提供不确定性。而群体决策为个人提供不确定性,为群体提供确定性。


二者的噪声互为价值,二者的信号互为干扰。



2,人工智能或许永远无法超越人类


上次我和赵云峰还有刘峰老师在3W咖啡里讨论了人工智能的未来,其中我们谈论到了图灵测试,我们分析到图灵测试的程序虽然越来越厉害了,但这依然是工具而已,本质上人与人的博弈罢了,机器永远无法脱离人类进行自学习。


那么这里回到百度视频上来,百度目前做到了平均给每部视频贴上上百个标签,而且这些标签根据时间还在不断的更新与迭代,不仅如此,这些标签还在不断的自行关联。所以百度视频能够做到,搜索诸如“高智商电影”会出现《盗梦空间》、《禁闭岛》、《源代码》等等这样的关联。


有人问,这些成百上千的标签都是人工匹配的吗?如果这样,百度人力需要很多啊。实际上标签是机器全自动做好的。但制定标签还是需要人,机器应当是通过用户先搜索到某个关键词然后经过一系列的行为判断该关键词与某电影的关系,通过大量用户的反复出现的数据,机器再建立出这些关联。


假如有一天机器能够完全通过独立的自我学习,通过自身而不借助人类去关联这些标签词汇与电影的关系。那一刻才能算是真正实现了人工智能。


这只能说明我和赵云峰还有刘老师在3W咖啡的谈话是多么无聊的正确,对于机器来说,人类就像他们的发动机,他们无法做到产生真正的意识,他们无法像人类一样进行自我追问一切的起源,0与1的结构。


是啊,人类是多么孤独,因为只有人类才会意识到自己的孤独,而机器不会。但又或许,是我们正在共同创造机器的意识吧,这个超级有机体将会成为我们。




微信图片_20211124230304.jpg

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
10天前
|
人工智能 运维 自然语言处理
大数据&AI产品月刊【2024年5月】
大数据&AI产品技术月刊【2024年5月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。
|
12天前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI产品使用合集之在maxcompute上跑模型,如何在本地进行推理
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
人工智能平台PAI产品使用合集之在maxcompute上跑模型,如何在本地进行推理
|
9天前
|
机器学习/深度学习 人工智能 算法
【机器学习】机器学习与AI大数据的融合:开启智能新时代
【机器学习】机器学习与AI大数据的融合:开启智能新时代
20 1
|
1月前
|
人工智能 分布式计算 Cloud Native
大数据&AI产品月刊【2024年4月】
大数据&AI产品技术月刊【2024年4月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。
|
1月前
|
机器学习/深度学习 人工智能 大数据
AI时代Python金融大数据分析实战:ChatGPT让金融大数据分析插上翅膀
AI时代Python金融大数据分析实战:ChatGPT让金融大数据分析插上翅膀
197 6
|
27天前
|
人工智能 安全 算法
AI与大数据:智慧城市安全的护航者与变革引擎
AI与大数据:智慧城市安全的护航者与变革引擎
|
1月前
|
人工智能 监控 数据可视化
智慧工地管理云平台可视化AI大数据建造工地源码
数字孪生可视化大屏,一张图掌握项目整体情况;
45 3
|
1月前
|
人工智能
百度人工智能培训第二天笔记
百度人工智能培训第二天笔记
18 0
|
1月前
|
机器学习/深度学习 数据采集 人工智能
百度人工智能培训第一天笔记
百度人工智能培训第一天笔记
14 0
|
1月前
|
人工智能 分布式计算 安全
Azure Databricks实战:在云上轻松进行大数据分析与AI开发
【4月更文挑战第9天】探索Microsoft Azure的Databricks服务,体验其在大数据分析和AI开发中的高效性能。此平台简化流程,提升效率,适用场景包括数据湖分析、实时流处理和AI开发。核心优势在于一体化平台设计、云原生的弹性伸缩和企业级安全保障。Databricks提升研发效能,无缝集成Azure生态,且持续创新,是应对大数据挑战和加速AI创新的理想工具。
96 1