上交友软件先“测谎”?日本大学生开发匹配模型,60个问题综评价值观,精度达75%

简介: 上交友软件先“测谎”?日本大学生开发匹配模型,60个问题综评价值观,精度达75%

去年年末,日本政府宣布要用AI给民众匹配交往对象,这一新闻一出,引得吃瓜群众纷纷上线。

虽然现在想来仍然感到魔幻,但在文摘菌报道的文章下方,也有读者一针见血地留言指出,这不就是交友软件么?

文摘菌转念一想,那也就是说,人们很有可能仍然会不顾一切地包装自己,“见光死”的现象并不会得到根除。

这个时候,其实只需要哆啦A梦的真假嘴道具就行了。

最近,日本早稻田大学的一个学生团队就把“真假嘴道具”现实化了,并且他们还凭借此获得了“第二届数据科学竞赛”的最高奖。

简单来说,他们主要是通过注册时让用户填写的问卷,对用户在“上进或稳定”“个人或群体”“工作或爱好”三个维度上进行分析,从价值观入手,预测每个人独特的行为方式,从而达到高精度的匹配效果。

从结果上看,利用交叉验证得出的正确率达到了75%,虽然看上去还有很大的改进空间,但考虑到实验数据主要是基于一些企业提供的消费者数据,也可以说十分优秀了。

而且,这个学生团队总共就只有4个人,从大二到研一,是不是感觉更厉害了?赶快和文摘菌一起来看看吧~

从营销专业论文中获得创新灵感

我们都知道,在交友软件上进行匹配的话,系统都是根据用户自己提供的照片和填写的兴趣爱好等特征做出匹配结果。

但不少人也正是利用到了这一点,为了能够和更优秀的人匹配上,不断地在交友软件上粉饰自己,一发不可收拾。

比如,Christian Rudder对美国一个交友软件OkCupid做过一项调查。他发现,一般来说,真人一般会比交友软件填写的身高矮上5厘米;年龄越大的美国人越爱对自己的收入撒谎,一个人的真实收入和约会软件上相比要打个8折。

有没有什么方法能杜绝这种现象呢?

在发表研究提案时,大三学生字井崇晴提到了一个关键点,在一篇营销学论文上,研究人员写过这么一句话,“价值会影响消费者的行为”。

同队的其他成员表示,“价值观这种东西,很多人可能自己也说不怎么上来,因此可能存在有意无意的撒谎行为,如果是这样的话,匹配效果就会非常不理想”。

于是,在开发初期,他们从主办方提供的大量数据中提取了约60项内容,例如“爱好是什么”和“喜欢观看什么样的运动”,并通过应用称为主成分的统计处理将信息压缩为三个维度进行分析,这三个维度也就是“上进或稳定”“个人或群体”“工作或爱好”。

当他们通过交叉验证方法确认所创建的模型时,发现模型的正确率达到了75%。研究团队负责人原健人说到,这表示,基于价值观的匹配比基于可以作假的问题的情况要准确得多。

在决定了“基于消费行为来猜测三轴值”的策略之后,研究人员尝试使用线性回归和随机森林等各种模型来分析数据,从结果上看,算法LightGBM是精度最高的。对于适当的目的变量的提取,也是在不断的试错中进行的。

如果后续该应用程序得以发布,通过接收用户的反馈来获取新的数据的话,那么匹配的精度还会进一步提高。

基于云的机器学习平台与真实数据的结合

这次的数据科学竞赛,早稻田大学提供了由微软为分析环境开发的基于云的机器学习平台“Azure ML”。

之所以决定使用这个平台,一是因为它有一个“设计师”功能,可以让不习惯编码程序的学生通过拖拽的方式建立分析模型,二是它可以安全地在云端完成对敏感和庞大调查数据的处理。

在上述交友软件的开发过程中,学生团队就使用“Jupyter Notebook”编写了用于Python分析的代码,该代码可以轻松地在Azure ML上编写和执行代码。

由于分析数据量很大,在PC的本地环境中就资源而言很难处理。此外,由于数据是从实际调查表中获得的,因此大学方面希望避免在本地下载。Azure的功能与本地分析环境几乎相同,并且可以执行从数据存储到云分析的所有操作,也符合本次竞赛的需求。

团队中负责应用程序开发的铃木说:“我可以立即共享无法在本地保存的数据或想要在线共享的数据,这是一个优势。”

作为竞赛的组织者,数据科学中心的小林学教授表示,“如果你是从头开始安装和设置工具,门槛自然是很高的。此外,为了提高利用分析的能力,Azure ML将为学生提供最新的分析环境。在设置使用量的上限的同时,可以灵活地扩展规格,同时观察学生的使用情况,这也是云技术独有的优势”。

该竞赛的宗旨是将数据科学和各专业领域的知识相结合,来创造新的研究和知识,其目的是通过实际数据的处理来提高数据科学的相关技能,提高学生的能力。

商学院的守口刚教授说:“我们看到每个团队在参加比赛时都使用自己的特殊技能,这取决于他们的专业,但都相当有趣。”

例如,参加比赛的一名理工科学生建议使用一种在商业中不广为人知的最新机器学习方法。商学院的学生擅长将分析结果与商业和营销建议联系起来,“这些方法和观点都给我留下了深刻的印象”。

数据科学中心的野村亮教授说:“当有机会接触到实际数据并获得结果时,学生将变得更有动力并成长。”“明年希望能吸引到更多学生来参加”。

有技术,有真实数据,希望以后在国内,也会有更多脑洞大开的AI被开发出来~

相关报道:
https://www.itmedia.co.jp/news/articles/2103/01/news002.html
https://theblog.okcupid.com/?gi=af6b5f380650

相关文章
|
机器学习/深度学习 算法 搜索推荐
重点算法排序之堆排序(下篇)
我们已经讲述了快速排序和归并排序,快速排序和归并排序详解文章链接:重点算法排序之快速排序、归并排序(上篇),我们本篇文章来详细讲述以下堆排序。堆排序的主要内容有:最大堆(大顶堆)、最小堆(小顶堆)、通过孩子找父亲、通过父亲找孩子、向下调整算法建堆。下面我会给大家一一介绍。
94 0
|
5月前
|
人工智能 搜索推荐 API
🚀 2小时极速开发!基于DeepSeek+智体OS的AI社交「头榜」震撼上线!
基于DeepSeek大模型与DTNS协议的革命性AI社交平台「头榜」震撼上线!仅需2小时极速开发,即可构建完整社交功能模块。平台具备智能社交网络、AI Agent生态、Prompt市场、AIGC创作等六大核心优势,支持低代码部署与个性化定制。开发者可快速接入DeepSeek API,体验去中心化架构与数据自主权。官网:[dtns.top](https://dtns.top),立即开启你的AI社交帝国!#AI社交 #DeepSeek #DTNS协议
165 4
|
存储 机器学习/深度学习 搜索推荐
Elasticsearch 8.X 向量检索和普通检索能否实现组合检索?如何实现?
Elasticsearch 8.X 向量检索和普通检索能否实现组合检索?如何实现?
|
存储 Linux 网络安全
Centos安装Docker的详细安装步骤,Docker相关组件:docker-ce-cli、docker-ce和containerd.io的区别
Centos安装Docker的详细安装步骤,Docker相关组件:docker-ce-cli、docker-ce和containerd.io的区别;CentOS7安装DockerCompose;Docker镜像仓库
1872 11
|
SQL 供应链 关系型数据库
数据库sql超市
当涉及到使用SQL来管理超市数据库时,通常需要考虑多个方面,包括商品管理、订单处理、销售分析、库存管理等。以下是一个简单的超市数据库SQL示例,以及一些常见的查询操作。 **1. 数据库表设计*
234 17
|
安全
如何使用虚拟信用卡在OnlyFans上订阅和支付 - 完全指南
本文将指导你如何使用虚拟信用卡在OnlyFans上订阅和支付,让你轻松解锁心仪创作者的独家内容。
5560 0
|
XML 存储 前端开发
“实战经验总结:构建灵活、可维护的自定义MVC应用程序”(上)
“实战经验总结:构建灵活、可维护的自定义MVC应用程序”
84 0
|
消息中间件 存储 Cloud Native
阿里云 EventBridge 事件驱动架构实践
我们认为 EventBridge 是云原生时代新的计算驱动力,这些数据可以驱动云的计算能力,创造更多业务价值。
7302 0
阿里云 EventBridge 事件驱动架构实践
|
运维 Cloud Native 安全
带你读《企业级云原生白皮书项目实战》——4.2.4 MSE最佳实践
带你读《企业级云原生白皮书项目实战》——4.2.4 MSE最佳实践
197 0
从零开始学Pyqt5之【控件介绍】(17):菜单栏QMenuBar、QToolBar工具栏、QStatusBar状态栏
从零开始学Pyqt5之【控件介绍】(17):菜单栏QMenuBar、QToolBar工具栏、QStatusBar状态栏
从零开始学Pyqt5之【控件介绍】(17):菜单栏QMenuBar、QToolBar工具栏、QStatusBar状态栏