从百度视频看大数据与人工智能

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据与人工智能是具体如何应用的。

一,大数据个性化决策


个性化决策无疑是难度最高的,因为个性化决策是根据用户行为记录来为用户做出相应的推荐。



百度在无线端有大量的产品,其中用户数过亿的APP就多达14款。百度内部有专门的团队,分析用户在这些APP中的行为,利用算法估算用户的年龄、性别、职业、兴趣等特征。


这一技术在百度工程师那里称为用户建模,这些数据来自于用户手机里安装的百度应用如“百度地图”、“百度贴吧”、“百度魔图”外加一些使用百度开放接口的应用诸如“糗事百科”等等,百度是能够通过这些数据进而来为用户建立动态模型。


百度视频的个性化推送是典型的利用群体智慧来解决个体需求的例子。传统的视频APP通常以广播的方式为用户推送视频,即每个用户收到的消息内容是一样的,无法满足用户个性化的需求。百度视频的做法是,分析用户的历史观看记录,同时结合用户的性别、年龄、地域等特征,为用户建立兴趣模型,将用户可能感兴趣但却未观看过的视频推送给用户。


比如一个经常上动漫贴吧的用户,百度通过搜集大数据后判断其是20岁左右的大学生,在个性化推送上就和其他人群就有所不同,可能就会推送一些大学生圈子里比较流行的动漫以及韩剧之类。


简而言之,用户使用的百度系以及带有百度接口产品的产品越多,百度就能越能为用户建立个人模型,所有使用过的产品的数据会汇聚到百度云端,人工智能最后再绘制出一个人的画像,百度再根据这个画像再为每个应用进行大数据决策推送,再根据用户的反馈结果进行迭代试错,当然这是机器学习的部分,不必要再深入讨论下去。我画了一个简单的百度个性化推荐原理。



二,大数据群体化决策



1,个体与群体的价值思辨


之前我对百度个性化推送提出过缺陷的质疑,一旦当用户更换手机之后,百度就无法再次为其建立个人画像模型,进而也就失去了对于个人的意义,百度又要重新建立个人数据,十分麻烦。


而深入了解百度的大数据之后让我感到更有一番深度,百度的大数据并非只为个体用户服务,更重要的是建立群体宏观行为模型,通过这一整套模型为群体进行宏观决策,而群体决策部分的重要战略意义远远大于个体意义。


我对此的理解为:如果我们将人类整体行为看做为个体行为,那么同样的作为个人总有一些误操作,一些随机的非主流的边缘操作,而这些边缘操作对于机器学习来说只是噪声而非信号,是需要进行过滤的,那么机器就需要过滤掉这些没有价值的数据,将有价值的信号数据沉淀与固定下来,为整体行为进行决策。


所以在某种程度上,我们都会陷入个性化至上的错觉,而忽略群体数据决策的价值。再回到百度之前的个性化推送功能,这些推送一定是事先经过群体过滤过后的信号,再向用户推送后才会更戳中人心。比如百度通过数据判断出最新流行的韩剧是《来自星星的你》,而不是过气的《大长今》,继而向用户推荐《星星》,这些都不是人工的,完全是自动生成的。


也就是,这场思辨中我得出了一个关于大数据的重要结论,机器为个人的数据提供个人喜好的小范围数据,而群体大数据决策后的结果在为个体扩大范围。


个性化推送为个人提供确定性,为群体提供不确定性。而群体决策为个人提供不确定性,为群体提供确定性。


二者的噪声互为价值,二者的信号互为干扰。



2,人工智能或许永远无法超越人类


上次我和赵云峰还有刘峰老师在3W咖啡里讨论了人工智能的未来,其中我们谈论到了图灵测试,我们分析到图灵测试的程序虽然越来越厉害了,但这依然是工具而已,本质上人与人的博弈罢了,机器永远无法脱离人类进行自学习。


那么这里回到百度视频上来,百度目前做到了平均给每部视频贴上上百个标签,而且这些标签根据时间还在不断的更新与迭代,不仅如此,这些标签还在不断的自行关联。所以百度视频能够做到,搜索诸如“高智商电影”会出现《盗梦空间》、《禁闭岛》、《源代码》等等这样的关联。


有人问,这些成百上千的标签都是人工匹配的吗?如果这样,百度人力需要很多啊。实际上标签是机器全自动做好的。但制定标签还是需要人,机器应当是通过用户先搜索到某个关键词然后经过一系列的行为判断该关键词与某电影的关系,通过大量用户的反复出现的数据,机器再建立出这些关联。


假如有一天机器能够完全通过独立的自我学习,通过自身而不借助人类去关联这些标签词汇与电影的关系。那一刻才能算是真正实现了人工智能。


这只能说明我和赵云峰还有刘老师在3W咖啡的谈话是多么无聊的正确,对于机器来说,人类就像他们的发动机,他们无法做到产生真正的意识,他们无法像人类一样进行自我追问一切的起源,0与1的结构。


是啊,人类是多么孤独,因为只有人类才会意识到自己的孤独,而机器不会。但又或许,是我们正在共同创造机器的意识吧,这个超级有机体将会成为我们。




微信图片_20211124230304.jpg

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
5天前
|
人工智能 分布式计算 DataWorks
大数据& AI 产品月刊【2025年1、2月】
大数据& AI 产品技术月刊【2025年1、2月】,涵盖双月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
10天前
|
人工智能 大数据
阿里云云计算ACA、大数据ACA、人工智能ACA三门认证升级调整公告
阿里云云计算ACA、大数据ACA、人工智能ACA三门认证升级调整公告
|
2月前
|
机器学习/深度学习 人工智能 分布式计算
我的阿里云社区年度总结报告:Python、人工智能与大数据领域的探索之旅
我的阿里云社区年度总结报告:Python、人工智能与大数据领域的探索之旅
136 35
|
11天前
|
SQL 人工智能 大数据
【4月重点功能发布】阿里云大数据+ AI 一体化平台
【4月重点功能发布】阿里云大数据+ AI 一体化平台
|
11天前
|
SQL 人工智能 分布式计算
【3月重点功能发布】阿里云大数据+ AI 一体化平台
【3月重点功能发布】阿里云大数据+ AI 一体化平台
|
2月前
|
数据采集 人工智能 分布式计算
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
阿里云推出的MaxFrame是链接大数据与AI的分布式Python计算框架,提供类似Pandas的操作接口和分布式处理能力。本文从部署、功能验证到实际场景全面评测MaxFrame,涵盖分布式Pandas操作、大语言模型数据预处理及企业级应用。结果显示,MaxFrame在处理大规模数据时性能显著提升,代码兼容性强,适合从数据清洗到训练数据生成的全链路场景...
111 5
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
|
2月前
|
人工智能 分布式计算 DataWorks
大数据& AI 产品月刊【2024年12月】
大数据& AI 产品技术月刊【2024年12月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
2月前
|
人工智能 分布式计算 大数据
MaxFrame 产品评测:大数据与AI融合的Python分布式计算框架
MaxFrame是阿里云MaxCompute推出的自研Python分布式计算框架,支持大规模数据处理与AI应用。它提供类似Pandas的API,简化开发流程,并兼容多种机器学习库,加速模型训练前的数据准备。MaxFrame融合大数据和AI,提升效率、促进协作、增强创新能力。尽管初次配置稍显复杂,但其强大的功能集、性能优化及开放性使其成为现代企业与研究机构的理想选择。未来有望进一步简化使用门槛并加强社区建设。
107 7
|
2月前
|
机器学习/深度学习 人工智能 算法
阿里云人工智能平台图像视频特征提取
本文介绍了图像与视频特征提取技术在人工智能和计算机视觉中的应用,涵盖图像质量评分、人脸属性分析、年龄分析、图像多标签打标、图文视频动态分类打标、视频质量评分及视频分类打标。通过深度学习模型如CNN和RNN,这些技术能从海量数据中挖掘有价值信息,为图像分类、目标检测、视频推荐等场景提供支持,提升分析精度与效率。
151 9
|
2月前
|
机器学习/深度学习 人工智能 运维
人工智能在事件管理中的应用
人工智能在事件管理中的应用
112 21

热门文章

最新文章