重启尘封十年的代码!回到未来的人人网,如何用新技术唤醒老数据?

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 重启尘封十年的代码!回到未来的人人网,如何用新技术唤醒老数据?

在某个特定时间,我们都会想,如果能回到过去,当时不那么做,会不会是不一样的结局。

“将‘穿越时空’变为一道谜,变成故事里最浪漫的一件事”,这是最近大火的台剧《想见你》的预告海报中编剧之一林欣慧所写的话。在这个看似简单的穿越故事里,男女主人公分别穿越到未来和过去,试图改变命运,但是在时空交错之中能改变的有多少呢?

处在2019年和2020年的交叉口,10年代的结束似乎正是缅怀过去的最好时机。如果有能力回到过去,你最想改变的是什么?

这是穿越到未来的人人网想知道的问题。

是的,你没有听错,就是中国最老牌的社交平台之一的人人网,在踏入Fintech、区块链、直播、二手车等领域的1400多个日日夜夜后,在2019年最后一天,人人网宣布重新回归社交,“人人”APP 1.1.0版也登陆各个应用市场,以“记录我的青春”为主题,正式开始公测。

00后们可能都没听过人人网,但对于文摘菌一样的80、90后们而言,这可是满满的青春回忆!人人网曾是中国规模最大的实名社交网络,在2005-2015近10年的时间里引领校园社交市场,在校园社交占据着绝对优势。2010年底,人人网的注册用户超过1.7亿,活跃用户超过1亿,到了2012年,人人网更是占据大学生市场75%的份额。截至2017年9月30日,人人网拥有2.54亿激活用户

经历了后续的起起伏伏之后,2018年底,人人网被多牛传媒正式并购。据官方数据显示,至今为止,人人平台保存有超过70亿张用户上传的照片,百亿级的状态信息,而这些信息,不就是帮助我们回到过去的那盒伍佰老师的磁带吗(在剧中男女主角正是通过这首歌实现穿越的)?

十年前,“大数据”的概念还没有真正出现,而人人网上累积的数据事实上早已达到了大数据量级。在大数据和机器学习等新技术趋于成熟的今天,如何让这些PB级的数据重新焕发生机,就成了人人网研发团队首先要面对的问题。

同时,人人网还必须面对如今竞争激烈的社交软件市场。回想2019年初,扎堆出现了马桶MT、多闪、聊天宝等社交软件,其中聊天宝和多闪在上线当天还登上了App Store免费榜第一。

“内忧外患”之下,如何才能盘活人人网的生态?用今天的技术让曾经的数据焕发生机?

这就像是“复活”一个已经“死掉”的项目,多牛传媒COO鲁葳告诉大数据文摘,或许过程会很艰难,但未来回想起来应该还是挺有意思的

重启尘封十年的代码,新老数据如何结合?

面对近十年累积下来的用户数据,多牛传媒研发中心副总经理曹兴宇坦言道,初次看到数据时感觉非常“头疼”。针对未来将如何利用老数据,他说道,新老数据不会完全结合,会进行相应更新

但随着对数据的深入认识,研发人员才发现,数据本身尚未构成太大问题,数据的存储、在中间层和应用层的访问等,都远比预料的要轻松很多,真正让人感到头秃的是架构问题和代码问题

人人网“退隐”的这十年是互联网行业飞速发展的十年,硬件、大数据计算、性能都有很大的提升。但是反观人人网,十年迭代,遗留的数据架构的可维护性等性能很差,鲁葳透露道,人人网的整体架构是叠床架屋一般一层层往上垒的。如果想在当年大数据架构的集成模式基础之上做出新东西,就不能一刀切,带着新旧两套轮前进,持续了很长时间。

同时,曹兴宇也举例回忆道,十年前Java因本身对内存优化没有做到极致等原因,对服务器的要求比较苛刻,大数据同理;不过当时人人网的工作思维十分现代,用人力解决了很多复杂的问题,不过也给他们带来了大量的后期工作。

如今,重新打开尘封已久的代码,除了感叹技术更迭之快,面对前人的努力,鲁葳也十分惊喜感动。

“可以说,人人在还没有微服务概念的时代做出了微服务架构能实现的能力,只是分布式架构中还存在单点耦合,逻辑复杂到一定程度后还是一团乱麻,虽然构想很聪明,做得也很辛苦。”

虽然受限于技术发展,但从遗留的代码中可以看出,人人一直在试图创新,比如当时的数据存储和计算就已经用到了Hadoop,不过现在来看还十分臃肿,整理工作仍不可少。

人人项目经理孟达介绍道,在图数据的处理上人人当时就已经做出了基于人际关系的检索和逻辑,而且,在人脸检测方向也已经有所进展,他们的思路是通过打标签等UGC方式来确定人物关系,这是十分超前的。

这些数据都还保留着,鲁葳说,需要进行更深一步的数据挖掘,如何利用机器学习让这些历史图片变得好玩起来,他们还在摸索。现在社交网站的人脸检测功能多用于照片裁切、主体识别等,他们希望能将其与时域和地域等要素结合,开发出更多的功能。

曹兴宇补充道,看到前人们的尝试,他们的压力很大,现在行业内的预测、推荐等功能都已经足够成熟,他们想把更多有意思的技术带到人人中去。

另一个让人头疼的是代码迭代问题。孟达说道,在这十年中,考虑到人人网的人员流动比较频繁,经常出现代码注释对不上的情况,还会遇到不同的代码语言,这需要配备专业人员去理解,难度很大。

在正式接手人人网数据后的这12个月内,除上述两大问题,人人网的项目组还需要开发业务、逻辑层面的功能,比如预测、人群画像等,以后还会做数据清洗将旧数据对接到现在的大数据集群里,这也是项浩大的工程。

各种尝试唤回老用户,被遗忘权应该被尊重

虽然手握2.4亿老用户的数据,但是人人并没有将重心放在如何召回这些老用户上,让更多新人加入才是长期发展的方向,他们更希望将人人的生态盘活之后,让老用户自己活跃起来。

这便引发了另一个问题,互联网时代的用户大都是“金鱼记忆”,更别提十年前的账号密码了。正是考虑到这点,人人在如何找回密码上也下了不少功夫,除了利用UID检测和联系客服外,用户可以输入自己的信息,算法将匹配与该信息最接近的人,如果拿到账号后还不知道密码,可以利用人脸识别进行确认。

这种方法实践下来,鲁葳说,除了之前就被盗号的人,还没有人投诉过。而且,就算账号被别人拿走,一定也是与本人特别亲近的人,同时,在找回密码的时候需要提供身份信息,这也提供了另一层安全保障。

在利用人脸识别时,人人调用了第三方接口比对身份信息,引入了部分外部数据,也必定会引发用户对数据隐私的担忧。对此鲁葳介绍道,现在人人的很多数据处理都是交给机器来完成的。

此前Facebook因为开放平台受到了外界的广泛质疑,目前人人已经将开放平台的对外服务的接口全都停掉了,一些处理甚至超出了规定的数据隐私范围,而且在这方面技术和人工结合着在同步跟进

鲁葳还说,被遗忘权是下一个需要解决的问题,对于百万分之几十打电话要求注销的用户,人人十分尊重他们的意愿,因此综合考虑后,上架的人人APP一个重要功能就是设置“新鲜事”仅半年可见。

也正是基于这方面的考虑,demo版的APP一开始也没有想往全社会推,但是被相关行业媒体注意到了,也就引起了大家的讨论。鲁葳笑着说。

通讯工具不等于社交网络,重返初心做好校园社交

在AI赋能全产业链的现在,不少社交平台也纷纷利用AI强化功能,就像1月初在广州举办的微信公开课,关于AI如何让搜一搜更智能的话题一度成为业界关注重点。

面对AI的技术趋势,鲁葳说,现在人人在机器判断违禁图方面已经申请了专利这其中需要解决很多小问题,最初开源算法靠分辨肤色进行,到现在已经不灵了。现在人人在北京和深圳两个小组在内的十几位算法工程师在努力将风险识别从90%提高到99%,这是会长期做下去。

除此之外,对于人人网拥有的10亿级动态数据和几千万上亿级日志数据,内部的扫描程序也会一直进行更新提高效率。但遗憾的是,相关的NLP技术在多次与大学、研究所等专家交流之后得出的结论是,短期内无法实现工程化

通讯工具不等于社交网络。面对竞争激烈的社交软件市场时,鲁葳这么说道,他说到前些年同样瞄准校园社交的几家竞品例如soul、即刻,其实都是存在差异的,而现在的校园生态相对来说还处于空白状态。

人人网选择现在回归,无疑将迎来巨大的挑战,但同时,这也是一次绝无仅有的机会。

调查显示,2018年中国移动社交用户规模为7.37亿,预计未来两年将稳步增长,2020年有望突破8亿人,在社交关系偏好方面,有57.6%的受访网民偏好纯熟人社交,而这正是人人的优势所在。

人人网告诉我们,他们想回到初心,重新瞄准校园社交,主要目标群体是离开家乡走向大学的、面临着社交关系重建的挑战的学生,帮助他们建立起相对自主的社交关系,这个断点是之前校内网关注到的,现在人人想继续做下去。

一个好的社交网络不是帮你交朋友,而是在社交软件中实现对现实社交关系的影射,如果用户在毕业后还觉得人人有用,在用户黏度上就无需太过操心。

如何做社交,鲁葳感慨道,10年前开拓的前人们没有想明白,大家就花了10年在这个行业里,相关的理论和总结都是一步步往前演进的。以至于到了现在,再来讨论做实名社交还是陌生人社交就比较外行了,这个分类方法就是有问题的。

10年前大家都还相信六度分割和邓巴常数,这么多年时间的实践证明邓巴常数是站不住脚的,而六度分割根本是个伪命题,现在每个人需要维护的线上社交肯定不止一个,使用的问题牵扯到需求强度、功能丰富度,以及能否包围用户需求等,两度分隔以上的人彼此都不会理睬了。

现在课程盒子等软件也都开发出了相关的校园社交功能,对此鲁葳表示,对于有创意的好的技术和功能,他们也会学习借鉴

如今,人人网APP不断升级,更新更多新功能。面对武汉肺炎疫情的严峻形势,人人与中科闻歌进行合作,推出了“全国新型肺炎疫情数据”,助力疫情解决。其中,人人主要利用自身平台优势,进行数据的处理工作,做好相关疫情的关注和分享。

“与所有平台所有人一样,我们都希望这次的疫情能赶紧过去。“人人网告诉我们。

鼎盛时期的人人网团队有四五千人,光技术团队就有不少于三百人。而现在负责人人APP的技术团队只有大概50人,要重启这样一个曾经的社交巨兽,不是一件容易的事情。

对于未来的发展,鲁葳告诉大数据文摘,目前还有很多细节问题需要不断深入研究,也会跟同行学习,就现在人人了解和掌握的程度来说还远远不够。以后肯定是一个漫长的学习过程,最重要的是从用户身上学习

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
jenkins 测试技术 持续交付
解锁.NET项目高效秘籍:从理论迷雾到实践巅峰,持续集成与自动化测试如何悄然改变游戏规则?
【8月更文挑战第28天】在软件开发领域,持续集成(CI)与自动化测试已成为提升效率和质量的关键工具。尤其在.NET项目中,二者的结合能显著提高开发速度并保证软件稳定性。本文将从理论到实践,详细介绍CI与自动化测试的重要性,并以ASP.NET Core Web API项目为例,演示如何使用Jenkins和NUnit实现自动化构建与测试。每次代码提交后,Jenkins自动触发构建流程,通过编译和运行NUnit测试确保代码质量。这种方式不仅节省了时间,还能快速发现并解决问题,推动.NET项目开发迈向更高水平。
48 8
|
3月前
|
物联网 编译器 API
.NET 6震撼发布:解锁跨平台新纪元,性能飞跃背后的秘密,未来软件开发将如何被重新定义?
【8月更文挑战第28天】.NET 6在简化开发方面也做出了诸多努力。最小Web API的引入,让开发者仅需几行代码即可构建出功能完整的Web服务。
64 4
|
3月前
|
安全 物联网 开发工具
《哇塞!flux.1 loras 竟如此神奇?十个问题带你揭开它的神秘面纱,开启震撼科技之旅!》
【8月更文挑战第20天】flux.1 LoraS 是一种基于LoRa的远距离、低功耗无线通信技术,适用于物联网领域。它利用扩频技术提升抗干扰性和传输距离,可在智能农业、物流等多种场景中部署。具备远距离传输、低能耗、高可靠性的特点,并支持AES-128加密确保安全通信。开发者可通过特定硬件和软件工具进行开发。随着物联网技术的发展,flux.1 LoraS 展现出广阔的应用前景。
74 2
|
3月前
|
UED 存储 自然语言处理
【语言无界·体验无疆】解锁Vaadin应用全球化秘籍:从代码到文化,让你的应用畅游世界每一个角落!
【8月更文挑战第31天】《国际化与本地化实战:构建多语言支持的Vaadin应用》详细介绍了如何使用Vaadin框架实现应用的国际化和本地化,提升用户体验和市场竞争力。文章涵盖资源文件的创建与管理、消息绑定与动态加载、日期和数字格式化及文化敏感性处理等方面,通过具体示例代码和最佳实践,帮助开发者构建适应不同语言和地区设置的Vaadin应用。通过这些步骤,您的应用将更加灵活,满足全球用户需求。
56 0
|
3月前
|
数据处理 Python
解锁Python多线程编程魔法,告别漫长等待!让数据下载如飞,感受科技带来的速度与激情!
【8月更文挑战第22天】Python以简洁的语法和强大的库支持在多个领域大放异彩。尽管存在全局解释器锁(GIL),Python仍提供多线程支持,尤其适用于I/O密集型任务。通过一个多线程下载数据的例子,展示了如何使用`threading`模块创建多线程程序,并与单线程版本进行了性能对比。实验表明,多线程能显著减少总等待时间,但在CPU密集型任务上GIL可能会限制其性能提升。此案例帮助理解Python多线程的优势及其适用场景。
38 0
|
4月前
|
机器学习/深度学习 算法 计算机视觉
EasyAnimate v3:开启I2V新时代——打造无限创意的超长视频制作之旅
官方论坛和社交媒体平台为用户提供了一个交流经验、分享技巧的平台。此外,用户还可以提交反馈或建议,参与到产品的持续改进中。
|
6月前
|
缓存 负载均衡 网络协议
作者推荐 | 高并发挑战?试试这些架构优化篇技巧,让你的系统焕发新生!
作者推荐 | 高并发挑战?试试这些架构优化篇技巧,让你的系统焕发新生!
315 1
|
6月前
|
人工智能 运维 安全
元宇宙概念跑得太快,企业网络怎样才能跟上
8月6日到8日,美国超人气歌手Ariana Grande两天时间在全球不同地点,举办了5场演唱会,上演现实版“时空穿梭”。 原来这背后是通过VR技术,配合时下火热的元宇宙概念打造的一场虚拟现实演唱会,演出举办地被放在了游戏《堡垒之夜》之中,全球上千万的玩家,通过自己的游戏分身盛装出席,在世界各地的家中、学校、公园、办公室里,参加这场沉浸式互动。
|
6月前
|
搜索推荐 开发者
开源打败商业 —— 敲敲云 apaas 平台成为了零代码领域的黑马,开启零代码新时代
随着数字化转型的浪潮席卷全球,企业对于高效、灵活的业务系统需求日益增长。在这个背景下,零代码开发平台应运而生,成为了市场上备受瞩目的产品。而在众多零代码产品中,敲敲云 以其开源的身份和高效的研发速度,彰显了其与众不同的竞争力。
480 0
|
存储 边缘计算 编解码
《2022中国云游戏行业认知与观察》——第二章、云游戏应用场景与技术实践——2.2 微端:游戏小包分发 提高转化效率——2.2.1 应用案例 十秒完成下载,《三国志·战略版》用了什么黑科技?
《2022中国云游戏行业认知与观察》——第二章、云游戏应用场景与技术实践——2.2 微端:游戏小包分发 提高转化效率——2.2.1 应用案例 十秒完成下载,《三国志·战略版》用了什么黑科技?
254 0