重启尘封十年的代码!回到未来的人人网,如何用新技术唤醒老数据?

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 重启尘封十年的代码!回到未来的人人网,如何用新技术唤醒老数据?

在某个特定时间,我们都会想,如果能回到过去,当时不那么做,会不会是不一样的结局。

“将‘穿越时空’变为一道谜,变成故事里最浪漫的一件事”,这是最近大火的台剧《想见你》的预告海报中编剧之一林欣慧所写的话。在这个看似简单的穿越故事里,男女主人公分别穿越到未来和过去,试图改变命运,但是在时空交错之中能改变的有多少呢?

处在2019年和2020年的交叉口,10年代的结束似乎正是缅怀过去的最好时机。如果有能力回到过去,你最想改变的是什么?

这是穿越到未来的人人网想知道的问题。

是的,你没有听错,就是中国最老牌的社交平台之一的人人网,在踏入Fintech、区块链、直播、二手车等领域的1400多个日日夜夜后,在2019年最后一天,人人网宣布重新回归社交,“人人”APP 1.1.0版也登陆各个应用市场,以“记录我的青春”为主题,正式开始公测。

00后们可能都没听过人人网,但对于文摘菌一样的80、90后们而言,这可是满满的青春回忆!人人网曾是中国规模最大的实名社交网络,在2005-2015近10年的时间里引领校园社交市场,在校园社交占据着绝对优势。2010年底,人人网的注册用户超过1.7亿,活跃用户超过1亿,到了2012年,人人网更是占据大学生市场75%的份额。截至2017年9月30日,人人网拥有2.54亿激活用户

经历了后续的起起伏伏之后,2018年底,人人网被多牛传媒正式并购。据官方数据显示,至今为止,人人平台保存有超过70亿张用户上传的照片,百亿级的状态信息,而这些信息,不就是帮助我们回到过去的那盒伍佰老师的磁带吗(在剧中男女主角正是通过这首歌实现穿越的)?

十年前,“大数据”的概念还没有真正出现,而人人网上累积的数据事实上早已达到了大数据量级。在大数据和机器学习等新技术趋于成熟的今天,如何让这些PB级的数据重新焕发生机,就成了人人网研发团队首先要面对的问题。

同时,人人网还必须面对如今竞争激烈的社交软件市场。回想2019年初,扎堆出现了马桶MT、多闪、聊天宝等社交软件,其中聊天宝和多闪在上线当天还登上了App Store免费榜第一。

“内忧外患”之下,如何才能盘活人人网的生态?用今天的技术让曾经的数据焕发生机?

这就像是“复活”一个已经“死掉”的项目,多牛传媒COO鲁葳告诉大数据文摘,或许过程会很艰难,但未来回想起来应该还是挺有意思的

重启尘封十年的代码,新老数据如何结合?

面对近十年累积下来的用户数据,多牛传媒研发中心副总经理曹兴宇坦言道,初次看到数据时感觉非常“头疼”。针对未来将如何利用老数据,他说道,新老数据不会完全结合,会进行相应更新

但随着对数据的深入认识,研发人员才发现,数据本身尚未构成太大问题,数据的存储、在中间层和应用层的访问等,都远比预料的要轻松很多,真正让人感到头秃的是架构问题和代码问题

人人网“退隐”的这十年是互联网行业飞速发展的十年,硬件、大数据计算、性能都有很大的提升。但是反观人人网,十年迭代,遗留的数据架构的可维护性等性能很差,鲁葳透露道,人人网的整体架构是叠床架屋一般一层层往上垒的。如果想在当年大数据架构的集成模式基础之上做出新东西,就不能一刀切,带着新旧两套轮前进,持续了很长时间。

同时,曹兴宇也举例回忆道,十年前Java因本身对内存优化没有做到极致等原因,对服务器的要求比较苛刻,大数据同理;不过当时人人网的工作思维十分现代,用人力解决了很多复杂的问题,不过也给他们带来了大量的后期工作。

如今,重新打开尘封已久的代码,除了感叹技术更迭之快,面对前人的努力,鲁葳也十分惊喜感动。

“可以说,人人在还没有微服务概念的时代做出了微服务架构能实现的能力,只是分布式架构中还存在单点耦合,逻辑复杂到一定程度后还是一团乱麻,虽然构想很聪明,做得也很辛苦。”

虽然受限于技术发展,但从遗留的代码中可以看出,人人一直在试图创新,比如当时的数据存储和计算就已经用到了Hadoop,不过现在来看还十分臃肿,整理工作仍不可少。

人人项目经理孟达介绍道,在图数据的处理上人人当时就已经做出了基于人际关系的检索和逻辑,而且,在人脸检测方向也已经有所进展,他们的思路是通过打标签等UGC方式来确定人物关系,这是十分超前的。

这些数据都还保留着,鲁葳说,需要进行更深一步的数据挖掘,如何利用机器学习让这些历史图片变得好玩起来,他们还在摸索。现在社交网站的人脸检测功能多用于照片裁切、主体识别等,他们希望能将其与时域和地域等要素结合,开发出更多的功能。

曹兴宇补充道,看到前人们的尝试,他们的压力很大,现在行业内的预测、推荐等功能都已经足够成熟,他们想把更多有意思的技术带到人人中去。

另一个让人头疼的是代码迭代问题。孟达说道,在这十年中,考虑到人人网的人员流动比较频繁,经常出现代码注释对不上的情况,还会遇到不同的代码语言,这需要配备专业人员去理解,难度很大。

在正式接手人人网数据后的这12个月内,除上述两大问题,人人网的项目组还需要开发业务、逻辑层面的功能,比如预测、人群画像等,以后还会做数据清洗将旧数据对接到现在的大数据集群里,这也是项浩大的工程。

各种尝试唤回老用户,被遗忘权应该被尊重

虽然手握2.4亿老用户的数据,但是人人并没有将重心放在如何召回这些老用户上,让更多新人加入才是长期发展的方向,他们更希望将人人的生态盘活之后,让老用户自己活跃起来。

这便引发了另一个问题,互联网时代的用户大都是“金鱼记忆”,更别提十年前的账号密码了。正是考虑到这点,人人在如何找回密码上也下了不少功夫,除了利用UID检测和联系客服外,用户可以输入自己的信息,算法将匹配与该信息最接近的人,如果拿到账号后还不知道密码,可以利用人脸识别进行确认。

这种方法实践下来,鲁葳说,除了之前就被盗号的人,还没有人投诉过。而且,就算账号被别人拿走,一定也是与本人特别亲近的人,同时,在找回密码的时候需要提供身份信息,这也提供了另一层安全保障。

在利用人脸识别时,人人调用了第三方接口比对身份信息,引入了部分外部数据,也必定会引发用户对数据隐私的担忧。对此鲁葳介绍道,现在人人的很多数据处理都是交给机器来完成的。

此前Facebook因为开放平台受到了外界的广泛质疑,目前人人已经将开放平台的对外服务的接口全都停掉了,一些处理甚至超出了规定的数据隐私范围,而且在这方面技术和人工结合着在同步跟进

鲁葳还说,被遗忘权是下一个需要解决的问题,对于百万分之几十打电话要求注销的用户,人人十分尊重他们的意愿,因此综合考虑后,上架的人人APP一个重要功能就是设置“新鲜事”仅半年可见。

也正是基于这方面的考虑,demo版的APP一开始也没有想往全社会推,但是被相关行业媒体注意到了,也就引起了大家的讨论。鲁葳笑着说。

通讯工具不等于社交网络,重返初心做好校园社交

在AI赋能全产业链的现在,不少社交平台也纷纷利用AI强化功能,就像1月初在广州举办的微信公开课,关于AI如何让搜一搜更智能的话题一度成为业界关注重点。

面对AI的技术趋势,鲁葳说,现在人人在机器判断违禁图方面已经申请了专利这其中需要解决很多小问题,最初开源算法靠分辨肤色进行,到现在已经不灵了。现在人人在北京和深圳两个小组在内的十几位算法工程师在努力将风险识别从90%提高到99%,这是会长期做下去。

除此之外,对于人人网拥有的10亿级动态数据和几千万上亿级日志数据,内部的扫描程序也会一直进行更新提高效率。但遗憾的是,相关的NLP技术在多次与大学、研究所等专家交流之后得出的结论是,短期内无法实现工程化

通讯工具不等于社交网络。面对竞争激烈的社交软件市场时,鲁葳这么说道,他说到前些年同样瞄准校园社交的几家竞品例如soul、即刻,其实都是存在差异的,而现在的校园生态相对来说还处于空白状态。

人人网选择现在回归,无疑将迎来巨大的挑战,但同时,这也是一次绝无仅有的机会。

调查显示,2018年中国移动社交用户规模为7.37亿,预计未来两年将稳步增长,2020年有望突破8亿人,在社交关系偏好方面,有57.6%的受访网民偏好纯熟人社交,而这正是人人的优势所在。

人人网告诉我们,他们想回到初心,重新瞄准校园社交,主要目标群体是离开家乡走向大学的、面临着社交关系重建的挑战的学生,帮助他们建立起相对自主的社交关系,这个断点是之前校内网关注到的,现在人人想继续做下去。

一个好的社交网络不是帮你交朋友,而是在社交软件中实现对现实社交关系的影射,如果用户在毕业后还觉得人人有用,在用户黏度上就无需太过操心。

如何做社交,鲁葳感慨道,10年前开拓的前人们没有想明白,大家就花了10年在这个行业里,相关的理论和总结都是一步步往前演进的。以至于到了现在,再来讨论做实名社交还是陌生人社交就比较外行了,这个分类方法就是有问题的。

10年前大家都还相信六度分割和邓巴常数,这么多年时间的实践证明邓巴常数是站不住脚的,而六度分割根本是个伪命题,现在每个人需要维护的线上社交肯定不止一个,使用的问题牵扯到需求强度、功能丰富度,以及能否包围用户需求等,两度分隔以上的人彼此都不会理睬了。

现在课程盒子等软件也都开发出了相关的校园社交功能,对此鲁葳表示,对于有创意的好的技术和功能,他们也会学习借鉴

如今,人人网APP不断升级,更新更多新功能。面对武汉肺炎疫情的严峻形势,人人与中科闻歌进行合作,推出了“全国新型肺炎疫情数据”,助力疫情解决。其中,人人主要利用自身平台优势,进行数据的处理工作,做好相关疫情的关注和分享。

“与所有平台所有人一样,我们都希望这次的疫情能赶紧过去。“人人网告诉我们。

鼎盛时期的人人网团队有四五千人,光技术团队就有不少于三百人。而现在负责人人APP的技术团队只有大概50人,要重启这样一个曾经的社交巨兽,不是一件容易的事情。

对于未来的发展,鲁葳告诉大数据文摘,目前还有很多细节问题需要不断深入研究,也会跟同行学习,就现在人人了解和掌握的程度来说还远远不够。以后肯定是一个漫长的学习过程,最重要的是从用户身上学习

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7月前
|
缓存 负载均衡 网络协议
作者推荐 | 高并发挑战?试试这些架构优化篇技巧,让你的系统焕发新生!
作者推荐 | 高并发挑战?试试这些架构优化篇技巧,让你的系统焕发新生!
405 1
|
7月前
|
人工智能 运维 安全
元宇宙概念跑得太快,企业网络怎样才能跟上
8月6日到8日,美国超人气歌手Ariana Grande两天时间在全球不同地点,举办了5场演唱会,上演现实版“时空穿梭”。 原来这背后是通过VR技术,配合时下火热的元宇宙概念打造的一场虚拟现实演唱会,演出举办地被放在了游戏《堡垒之夜》之中,全球上千万的玩家,通过自己的游戏分身盛装出席,在世界各地的家中、学校、公园、办公室里,参加这场沉浸式互动。
|
编解码 iOS开发
一节微课诞生的全过程(无保留分享,望收藏)
本来是想以直播的方式把制作这节微课的过程分享出来,但考虑到大家的时间不统一,制作过程太长,这节微课录音之后制作动画就足足用了两天
204 0
|
运维 虚拟化 Anolis
浪潮信息工程师:谈一谈设备透传虚拟机启动慢背后的原因及其优化方法 | 第 51 期
明天下午4点,一起听浪潮信息工程师解析设备透传虚拟机启动慢的原因及优化方法。
浪潮信息工程师:谈一谈设备透传虚拟机启动慢背后的原因及其优化方法 | 第 51 期
|
JavaScript 前端开发 jenkins
[技术杂谈]最近一段时间值得分享的内容(4)
[技术杂谈]最近一段时间值得分享的内容(4)
254 0
[技术杂谈]最近一段时间值得分享的内容(4)
|
消息中间件 Java Docker
[技术杂谈]最近一段时间值得分享的内容(2)
[技术杂谈]最近一段时间值得分享的内容(2)
529 0
[技术杂谈]最近一段时间值得分享的内容(2)
|
消息中间件 JavaScript Java
[技术杂谈]最近一段时间值得分享的内容(1)
[技术杂谈]最近一段时间值得分享的内容(1)
179 0
[技术杂谈]最近一段时间值得分享的内容(1)
|
NoSQL Java 应用服务中间件
[技术杂谈]最近一段时间值得分享的内容(3)
[技术杂谈]最近一段时间值得分享的内容(3)
171 0
[技术杂谈]最近一段时间值得分享的内容(3)
|
机器学习/深度学习 人工智能 自然语言处理
金融科技成2017博鳌论坛开篇重戏 释放三大信号
金融科技成2017博鳌论坛开篇重戏 释放三大信号
125 0
金融科技成2017博鳌论坛开篇重戏 释放三大信号
|
传感器
和12岁小同志搞创客开发:检测按键状态的两件法宝
和12岁小同志搞创客开发:检测按键状态的两件法宝
和12岁小同志搞创客开发:检测按键状态的两件法宝