上交友软件先“测谎”?日本大学生开发匹配模型,60个问题综评价值观,精度达75%

简介: 上交友软件先“测谎”?日本大学生开发匹配模型,60个问题综评价值观,精度达75%

去年年末,日本政府宣布要用AI给民众匹配交往对象,这一新闻一出,引得吃瓜群众纷纷上线。

虽然现在想来仍然感到魔幻,但在文摘菌报道的文章下方,也有读者一针见血地留言指出,这不就是交友软件么?

文摘菌转念一想,那也就是说,人们很有可能仍然会不顾一切地包装自己,“见光死”的现象并不会得到根除。

这个时候,其实只需要哆啦A梦的真假嘴道具就行了。

最近,日本早稻田大学的一个学生团队就把“真假嘴道具”现实化了,并且他们还凭借此获得了“第二届数据科学竞赛”的最高奖。

简单来说,他们主要是通过注册时让用户填写的问卷,对用户在“上进或稳定”“个人或群体”“工作或爱好”三个维度上进行分析,从价值观入手,预测每个人独特的行为方式,从而达到高精度的匹配效果。

从结果上看,利用交叉验证得出的正确率达到了75%,虽然看上去还有很大的改进空间,但考虑到实验数据主要是基于一些企业提供的消费者数据,也可以说十分优秀了。

而且,这个学生团队总共就只有4个人,从大二到研一,是不是感觉更厉害了?赶快和文摘菌一起来看看吧~

从营销专业论文中获得创新灵感

我们都知道,在交友软件上进行匹配的话,系统都是根据用户自己提供的照片和填写的兴趣爱好等特征做出匹配结果。

但不少人也正是利用到了这一点,为了能够和更优秀的人匹配上,不断地在交友软件上粉饰自己,一发不可收拾。

比如,Christian Rudder对美国一个交友软件OkCupid做过一项调查。他发现,一般来说,真人一般会比交友软件填写的身高矮上5厘米;年龄越大的美国人越爱对自己的收入撒谎,一个人的真实收入和约会软件上相比要打个8折。

有没有什么方法能杜绝这种现象呢?

在发表研究提案时,大三学生字井崇晴提到了一个关键点,在一篇营销学论文上,研究人员写过这么一句话,“价值会影响消费者的行为”。

同队的其他成员表示,“价值观这种东西,很多人可能自己也说不怎么上来,因此可能存在有意无意的撒谎行为,如果是这样的话,匹配效果就会非常不理想”。

于是,在开发初期,他们从主办方提供的大量数据中提取了约60项内容,例如“爱好是什么”和“喜欢观看什么样的运动”,并通过应用称为主成分的统计处理将信息压缩为三个维度进行分析,这三个维度也就是“上进或稳定”“个人或群体”“工作或爱好”。

当他们通过交叉验证方法确认所创建的模型时,发现模型的正确率达到了75%。研究团队负责人原健人说到,这表示,基于价值观的匹配比基于可以作假的问题的情况要准确得多。

在决定了“基于消费行为来猜测三轴值”的策略之后,研究人员尝试使用线性回归和随机森林等各种模型来分析数据,从结果上看,算法LightGBM是精度最高的。对于适当的目的变量的提取,也是在不断的试错中进行的。

如果后续该应用程序得以发布,通过接收用户的反馈来获取新的数据的话,那么匹配的精度还会进一步提高。

基于云的机器学习平台与真实数据的结合

这次的数据科学竞赛,早稻田大学提供了由微软为分析环境开发的基于云的机器学习平台“Azure ML”。

之所以决定使用这个平台,一是因为它有一个“设计师”功能,可以让不习惯编码程序的学生通过拖拽的方式建立分析模型,二是它可以安全地在云端完成对敏感和庞大调查数据的处理。

在上述交友软件的开发过程中,学生团队就使用“Jupyter Notebook”编写了用于Python分析的代码,该代码可以轻松地在Azure ML上编写和执行代码。

由于分析数据量很大,在PC的本地环境中就资源而言很难处理。此外,由于数据是从实际调查表中获得的,因此大学方面希望避免在本地下载。Azure的功能与本地分析环境几乎相同,并且可以执行从数据存储到云分析的所有操作,也符合本次竞赛的需求。

团队中负责应用程序开发的铃木说:“我可以立即共享无法在本地保存的数据或想要在线共享的数据,这是一个优势。”

作为竞赛的组织者,数据科学中心的小林学教授表示,“如果你是从头开始安装和设置工具,门槛自然是很高的。此外,为了提高利用分析的能力,Azure ML将为学生提供最新的分析环境。在设置使用量的上限的同时,可以灵活地扩展规格,同时观察学生的使用情况,这也是云技术独有的优势”。

该竞赛的宗旨是将数据科学和各专业领域的知识相结合,来创造新的研究和知识,其目的是通过实际数据的处理来提高数据科学的相关技能,提高学生的能力。

商学院的守口刚教授说:“我们看到每个团队在参加比赛时都使用自己的特殊技能,这取决于他们的专业,但都相当有趣。”

例如,参加比赛的一名理工科学生建议使用一种在商业中不广为人知的最新机器学习方法。商学院的学生擅长将分析结果与商业和营销建议联系起来,“这些方法和观点都给我留下了深刻的印象”。

数据科学中心的野村亮教授说:“当有机会接触到实际数据并获得结果时,学生将变得更有动力并成长。”“明年希望能吸引到更多学生来参加”。

有技术,有真实数据,希望以后在国内,也会有更多脑洞大开的AI被开发出来~

相关报道:
https://www.itmedia.co.jp/news/articles/2103/01/news002.html
https://theblog.okcupid.com/?gi=af6b5f380650

相关文章
|
1月前
|
人工智能 自然语言处理 算法
当prompt策略遇上分治算法,南加大、微软让大模型炼成“火眼金睛”
【2月更文挑战第24天】当prompt策略遇上分治算法,南加大、微软让大模型炼成“火眼金睛”
24 2
当prompt策略遇上分治算法,南加大、微软让大模型炼成“火眼金睛”
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
前谷歌科学家离职后创业一年,发文自述算力是训练大模型的难点
【2月更文挑战第20天】前谷歌科学家离职后创业一年,发文自述算力是训练大模型的难点
18 2
前谷歌科学家离职后创业一年,发文自述算力是训练大模型的难点
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
参数少量提升,性能指数爆发!谷歌:大语言模型暗藏「神秘技能」
参数少量提升,性能指数爆发!谷歌:大语言模型暗藏「神秘技能」
|
11月前
|
人工智能 自然语言处理 安全
AI卷趴程序员!DeepMind祭出竞赛级代码生成系统AlphaCode,超越近半码农
AI卷趴程序员!DeepMind祭出竞赛级代码生成系统AlphaCode,超越近半码农
|
数据采集 人工智能 文字识别
好未来 AI 研究院:如何省钱又省力地筛选被测模型的 Badcase?
通常 AI 模型的测试需要依赖高质量的标注数据,不过在不同的应用场景下,所需要的数据标注体量存在差异。QCon 全球软件开发大会(2021)北京站上,好未来 AI 研究院赵明分享了好未来通过借助语音、图像、NLP 等 AI 模型进行有机组合,加入预处理和后处理过程,搭建自动化流水线,在不依赖于标注数据的情况下,对被测模型进行 Badcase 的自动化筛选,从而提高测试效率,辅助算法角色提升算法模型的优化迭代速度的真实案例。
346 0
好未来 AI 研究院:如何省钱又省力地筛选被测模型的 Badcase?
|
运维
对照Google评分卡,看看你的技术水平在什么段位?
对照Google评分卡,看看你的技术水平在什么段位?
388 0
|
机器学习/深度学习 人工智能 算法
全球首例!移动材料上实现动态对抗,这件T恤让你在AI眼皮下隐身
全球首例!移动材料上实现动态对抗,这件T恤让你在AI眼皮下隐身
190 0
|
机器学习/深度学习 人工智能 监控
线上XO派对大热!Zoom想用机器学习鉴别裸体,行得通吗?
线上XO派对大热!Zoom想用机器学习鉴别裸体,行得通吗?
243 0
|
人工智能 算法 安全
案例酷 | 机器人瓦力来了:训练AI吞食垃圾 瀚蓝环境探索破解垃圾围城难题
为摆脱对经验的过度依赖,瀚蓝环境意识到更高效的数字化手段是可行办法。通过将经验与数据中的隐性知识转化为显性知识,并嵌入到机器中,让机器协助人类来完成复杂焚烧过程的复杂决策与控制。但摆在眼前的问题是,垃圾焚烧领域鲜有数据科学家,懂行业机理模型的数据科学家更是凤毛麟角,行业算法处于空白。于是,瀚蓝环境找到阿里云工业大脑团队,希望借助其在数据与算法上的优势,加之与瀚蓝环境专家经验结合,共同开发垃圾焚烧工艺优化算法,优化垃圾焚烧的稳定性。 工业大脑落地场景的选择至关重要。数据可用性、风险可控、可实施、高收益与可复用是选择优先场景需要考虑的关键因素。
824 0
案例酷 | 机器人瓦力来了:训练AI吞食垃圾 瀚蓝环境探索破解垃圾围城难题
让失声群体重获“新声”,脑机接口领域现重大突破
研究团队研发出一款解码器,能够利用人工智能基于大脑数据合成语音。
205 0