上交友软件先“测谎”?日本大学生开发匹配模型,60个问题综评价值观,精度达75%-阿里云开发者社区

开发者社区> -技术小助手-> 正文

上交友软件先“测谎”?日本大学生开发匹配模型,60个问题综评价值观,精度达75%

简介: 上交友软件先“测谎”?日本大学生开发匹配模型,60个问题综评价值观,精度达75%
+关注继续查看

去年年末,日本政府宣布要用AI给民众匹配交往对象,这一新闻一出,引得吃瓜群众纷纷上线。

虽然现在想来仍然感到魔幻,但在文摘菌报道的文章下方,也有读者一针见血地留言指出,这不就是交友软件么?

文摘菌转念一想,那也就是说,人们很有可能仍然会不顾一切地包装自己,“见光死”的现象并不会得到根除。

这个时候,其实只需要哆啦A梦的真假嘴道具就行了。

最近,日本早稻田大学的一个学生团队就把“真假嘴道具”现实化了,并且他们还凭借此获得了“第二届数据科学竞赛”的最高奖。

简单来说,他们主要是通过注册时让用户填写的问卷,对用户在“上进或稳定”“个人或群体”“工作或爱好”三个维度上进行分析,从价值观入手,预测每个人独特的行为方式,从而达到高精度的匹配效果。

从结果上看,利用交叉验证得出的正确率达到了75%,虽然看上去还有很大的改进空间,但考虑到实验数据主要是基于一些企业提供的消费者数据,也可以说十分优秀了。

而且,这个学生团队总共就只有4个人,从大二到研一,是不是感觉更厉害了?赶快和文摘菌一起来看看吧~

从营销专业论文中获得创新灵感

我们都知道,在交友软件上进行匹配的话,系统都是根据用户自己提供的照片和填写的兴趣爱好等特征做出匹配结果。

但不少人也正是利用到了这一点,为了能够和更优秀的人匹配上,不断地在交友软件上粉饰自己,一发不可收拾。

比如,Christian Rudder对美国一个交友软件OkCupid做过一项调查。他发现,一般来说,真人一般会比交友软件填写的身高矮上5厘米;年龄越大的美国人越爱对自己的收入撒谎,一个人的真实收入和约会软件上相比要打个8折。

有没有什么方法能杜绝这种现象呢?

在发表研究提案时,大三学生字井崇晴提到了一个关键点,在一篇营销学论文上,研究人员写过这么一句话,“价值会影响消费者的行为”。

同队的其他成员表示,“价值观这种东西,很多人可能自己也说不怎么上来,因此可能存在有意无意的撒谎行为,如果是这样的话,匹配效果就会非常不理想”。

于是,在开发初期,他们从主办方提供的大量数据中提取了约60项内容,例如“爱好是什么”和“喜欢观看什么样的运动”,并通过应用称为主成分的统计处理将信息压缩为三个维度进行分析,这三个维度也就是“上进或稳定”“个人或群体”“工作或爱好”。

当他们通过交叉验证方法确认所创建的模型时,发现模型的正确率达到了75%。研究团队负责人原健人说到,这表示,基于价值观的匹配比基于可以作假的问题的情况要准确得多。

在决定了“基于消费行为来猜测三轴值”的策略之后,研究人员尝试使用线性回归和随机森林等各种模型来分析数据,从结果上看,算法LightGBM是精度最高的。对于适当的目的变量的提取,也是在不断的试错中进行的。

如果后续该应用程序得以发布,通过接收用户的反馈来获取新的数据的话,那么匹配的精度还会进一步提高。

基于云的机器学习平台与真实数据的结合

这次的数据科学竞赛,早稻田大学提供了由微软为分析环境开发的基于云的机器学习平台“Azure ML”。

之所以决定使用这个平台,一是因为它有一个“设计师”功能,可以让不习惯编码程序的学生通过拖拽的方式建立分析模型,二是它可以安全地在云端完成对敏感和庞大调查数据的处理。

在上述交友软件的开发过程中,学生团队就使用“Jupyter Notebook”编写了用于Python分析的代码,该代码可以轻松地在Azure ML上编写和执行代码。

由于分析数据量很大,在PC的本地环境中就资源而言很难处理。此外,由于数据是从实际调查表中获得的,因此大学方面希望避免在本地下载。Azure的功能与本地分析环境几乎相同,并且可以执行从数据存储到云分析的所有操作,也符合本次竞赛的需求。

团队中负责应用程序开发的铃木说:“我可以立即共享无法在本地保存的数据或想要在线共享的数据,这是一个优势。”

作为竞赛的组织者,数据科学中心的小林学教授表示,“如果你是从头开始安装和设置工具,门槛自然是很高的。此外,为了提高利用分析的能力,Azure ML将为学生提供最新的分析环境。在设置使用量的上限的同时,可以灵活地扩展规格,同时观察学生的使用情况,这也是云技术独有的优势”。

该竞赛的宗旨是将数据科学和各专业领域的知识相结合,来创造新的研究和知识,其目的是通过实际数据的处理来提高数据科学的相关技能,提高学生的能力。

商学院的守口刚教授说:“我们看到每个团队在参加比赛时都使用自己的特殊技能,这取决于他们的专业,但都相当有趣。”

例如,参加比赛的一名理工科学生建议使用一种在商业中不广为人知的最新机器学习方法。商学院的学生擅长将分析结果与商业和营销建议联系起来,“这些方法和观点都给我留下了深刻的印象”。

数据科学中心的野村亮教授说:“当有机会接触到实际数据并获得结果时,学生将变得更有动力并成长。”“明年希望能吸引到更多学生来参加”。

有技术,有真实数据,希望以后在国内,也会有更多脑洞大开的AI被开发出来~

相关报道:
https://www.itmedia.co.jp/news/articles/2103/01/news002.html
https://theblog.okcupid.com/?gi=af6b5f380650

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
HiSDP —— 高效的C++软件开发平台
目前阿里集团每天有近1000PB的数据是通过LogAgent采集的,为了让LogAgent做到资源占用省和高效采集,背后是基于HiSDP去构建的。
21886 0
直播app软件开发中的小游戏和直播如何实现兼顾
直播app软件的更新优化速度非常快,而互动小游戏也是现在主流直播app中的常见功能。当然单独拿出某一个小游戏,我们都可以将它看做一个个体,如果与视频直播结合,就可以为直播软件增光添彩了。那么,直播app软件开发时,怎样兼顾直播和游戏的实现呢?这里主要借助于socket通信将二者串联起来。
1003 0
找优质的直播软件开发公司不用担心系统架构问题
文章标题中提到的系统架构问题,在直播软件开发过程中也是非常重要的一部分。为什么这么说呢?我们举个简单的例子,一个施工队盖楼肯定先要把整体的框架用钢筋扎好,然后再进行下一步的工作。开发直播软件也是一样,先把整体的架构设计好罗列出来,再把其中的功能挨个添加进去。
892 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
4345 0
开发APP软件需要多少钱?
开发APP软件需要多少钱?很多人不太理解,为什么做一个在手机上买东西的app,就像网站一样,找人外包开发价格怎么要花十几万?app开发成本是如何计算的?到底需要多少钱呢?app的开发价格并没有一个固定的标准,受到多种因素的影响:
1007 0
木马频繁造假 伪装成多个安全软件钓鱼
拿到一个“半成品”样本,病毒在文件属性中假冒360安全卫士,但图标明显不对。   运行后,还会假冒毒霸的病毒警告:   这里看一下正常的毒霸实时监控发现病毒时的窗口:   伪造的还挺象那么回事儿,只是文字太多露出马脚。
594 0
1457
文章
0
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载