一周AI最火论文 | 消除偏见,从机器学习系统开始,谷歌发布ML-fairness-gym

简介: 一周AI最火论文 | 消除偏见,从机器学习系统开始,谷歌发布ML-fairness-gym

本周关键词:AI防疫、Chatbot、人脸防伪

本周最佳学术研究

用积极聆听能力来构建与评估访谈聊天机器人

人们为了搭建高效的聊天机器人付出了很多努力。作为谷歌最前沿的产品之一,Meena能与人进行更加智能和具体的对话。

伊利诺伊大学的研究人员一直在努力构建一种具有积极聆听能力的高效访谈聊天机器人。为此,他们首先研究了公开可用的AI技术对于聊天机器人的可用性和有效性。

他们研究了现有的聊天机器人平台,并从中选择了Juji。选择的原因是,Juji不仅是开源的、基于规则的,并且允许设计人员在没有训练数据的情况下引导聊天机器人。使用Juji开发的一个原型系统构建了具有主动聆听技能的聊天机器人,展示了其在支持访谈聊天机器人方面的成功。

接下来,研究人员使用同一个原型创建了两个聊天机器人,一个有主动聆听技能而另一个没有。然后他们请Amazon Mechanical Turk的206名参与者对这两个机器人进行了实时评估,并通过一系列指标(包括用户回复质量和用户使用体验)比较了他们的表现。

评估结论显示,采取了主动聆听技能的访谈机器人在用户互动和吸引高质量用户输入方面表现更好。

这项工作有以下贡献:

  • 提供了实际可行的搭建访谈机器人的思路与方法;
  • 提供了一个用于开发渐进式聊天机器人平台的混合框架;
  • 提供了除了访谈、面试任务之外的,构建共情聊天机器人的设计意义。

通过将基于规则的聊天机器人构建器与数据驱动的模型相结合,能使机器人具有主动的聆听技能。通过主动聆听的技能,这样的访谈聊天机器人可以更好地处理复杂多样的用户对话,甚至是回应开放式的问题。在实际应用中,聊天机器人将能够提供更多引人入胜的用户体验,并引发更高质量的用户响应。

而且,因为这个聊天机器人是基于Juji的,这个方法可以扩展到任何聊天机器人平台。

原文:

https://arxiv.org/abs/2002.01862v1

人脸防伪的大规模多模型基准

在这篇论文里,研究人员介绍了一个大规模多模型的数据库CASIASURF,这个数据库是目前人脸防伪方面最大的开源数据库。数据库包含1000个主题,21000个视频,并且每个样本具有3种模型(RGB,深度和IR)。

研究人员同时提供了评估指标,协议,培训/验证/测试子集和一种测量工具,从而为人脸防伪开发了新的基准。

除此之外,他们还提出了一种新的多模型,多尺度的融合方法,并将其作为一个高效的基础模型。这个方法可以对特征进行加权,在特征选择中能确保最大信息量,并克服不同模型下信息量不同的问题。人们已经对这个数据库进行了广泛的实验,验证了其重要性和泛化能力。

CASIASURF数据库是对推进最前沿人脸防伪技术重要一步。而且,多模型多尺度的融合方法执行了基于模型的的特征再加权,确保了最高效的特征选择。

研究人员计划通过加入3D蒙版等更多的测试来不断增加数据库的多样性。他们还计划使用交叉模式评估协议研究异类面部反欺骗。

数据库:

https://sites.google.com/qq.com/face-anti-spoofing/welcome/challengecvpr2019?authuser=0

原文:

https://arxiv.org/abs/1908.10654v2

一个多样化的多语言语音文本翻译库

Facebook AI研究团队最近发布了CoVoST,这是一种多样化的多语言语音到文本翻译数据库。CoVoST构建在Common Voice(2019-06-12版本)之上,它包括11种语言的演讲(法语,德语,荷兰语,俄语,西班牙语,意大利语,土耳其语,波斯语,瑞典语,蒙古语和中文),其笔录和英语翻译。

研究小组还根据CC许可,从Tatoeba提供了5种语言(法语,德语,荷兰语,俄语和西班牙语)的其他域外评估集。CoVoST是根据CC0许可发布的开源库,任何人都可以免费使用。

随着互联网的增长越来越,世界越来越紧密,翻译服务也比以往任何时候都更加重要。语音到文本翻译的算法需要翻译多种语言的能力,而 CoVoST是多对一的多语言ST语料库,可以帮助研究人员和开发人员实现这个目标。

在现有语料库中,该数据库与Iranzo-Sanchez和他的团队工作发布的语料库最为相似。Iranzo-Sanchez的语料库是根据欧洲议会程序所创建的多语言ST语料库。

不同点是,CoVoST引入了更长的语音持续时间和更多的翻译提取,并且更加多样化。它有大约27个小时的俄语演讲,37个小时的意大利语演讲和67个小时的波斯语演讲,这是之前最大演讲数据集的1.8倍,2.5倍和13.3倍(Black,2019)。CoVoST中的大多数句子(抄本)都被具有不同口音的多个发言人覆盖,使得演讲内容更加丰富。例如,在法国和德国的开发/测试装置中,包括了一千多名演讲者和10种以上的口音。这样的数据库,可以帮助模型在训练和评估中很好地将语音变化考虑进去。

数据集:

https://github.com/facebookresearch/covost

原文:

https://arxiv.org/abs/2002.01320v1

B2B销售预测建模的一种通用流程:Azure机器学习方法

预测销售机会和结果的能力是企业通向成功的路上必不可少的。在过去,此类预测始终依赖于参与销售决策制定过程的人工评估。

然而在本文中,研究人员提出了一种实用的机器学习(ML)工作流程,以在基于云的计算平台(Azure ML)中实现B2B销售结果预测。

这一工作流按照顺序提取、清理和估算销售机会的数据,然后在数据上广泛训练各种类型的ML模型。而第二条管道使用ML模型来估计赢得给定销售机会的可能性。

使用基于云的Azure机器学习服务(Azure ML)在B2B咨询公司的真实销售数据集上评估了该方法的可用性和性能。与手动用户输入的预测准确率(0.67)相比,该工作流能够实现更高的分类精度(0.85)。

这种基于云的工作流程为前文提到的预测销量问题提供了可扩展性更高的解决方案,也因此可以轻松地集成到企业内部的现有CRM软件应用程序中。

原文:

https://arxiv.org/abs/2002.01441v1

一个用于探索机器学习系统的长期影响的工具

认识到理解ML系统中的公平性以及避免偏见很重要之后,Google发布了ML-fairness-gym:一组用于构建简单模拟的组件,可以用来探索在社交网络环境中部署基于机器学习的决策系统的长期影响。

在本文中,他们演示了如何将ML-fairness-gym用于研究自动化决策系统的长期影响。

ML-fairness-gym使用Open AI的Gym框架模拟顺序决策。在此框架中,代理能够与模拟环境进行交互。在每个步骤中,代理都会选择一个会影响环境状态的操作。然后环境则会揭示代理用来通知其后续操作的观察结果。最后,环境对系统和问题的动态进行建模,观察结果用作代理的数据,这样就可以将其编码为机器学习系统。

本文中提出的ML-fairness-gym可用于解决各种机器学习中的公平问题,它具有足够的灵活性来模拟和探索“公平性”不足的问题。

Google研究人员对ML-fairness-gym的潜力感到振奋,它可以帮助其他研究人员和开发人员更好地理解ML算法对我们社会的影响,并为将来开发更负责任和更公平的机器学习系统提供信息。

代码:

https://github.com/google/ml-fairness-gym/

原文:

https://github.com/google/ml-fairness-gym/blob/master/papers/acm_fat_2020_fairness_is_not_static.pdf

其他爆款论文

最新研究帮助我们找到受损的社交媒体帐户:

https://arxiv.org/abs/1804.07247v2

如何准确识别一个表情包?

https://arxiv.org/abs/2002.01462v1

一个能够为不完整的菜谱推荐配料的推荐算法:

https://arxiv.org/abs/1907.12380v2

一个能够检测物联网中睡眠状态节点的框架:

https://arxiv.org/abs/1910.01092v2

基于单眼模型3D跟踪的一种新组合技术:

https://arxiv.org/abs/2002.01379v1

AI大事件

个性化的AI聊天机器人正在减缓冠状病毒的传播:

https://www.wfmz.com/news/pr_newswire/pr_newswire_technology/bespoke-s-ai-chatbot-provides-assistance-during-current-coronavirus-pandemic/article_205bbfca-784c-5e8d-9d3d-1ab0fb97342a.html

一组研究人员正在努力构建具有精通社交技能的AI代理:

https://www.zdnet.com/article/defense-researchers-developing-software-agents-that-can-read-peoples-thoughts/

Twitter:如果deepfake对我们有害,我们就会扼杀它:

https://www.zdnet.com/article/twitter-well-kill-deepfakes-but-only-if-theyre-harmful/

AI在Google maps中的应用:

https://www.zdnet.com/article/how-ai-has-helped-improve-google-maps/

相关文章
|
13天前
|
机器学习/深度学习 人工智能 安全
探索AI的未来:从机器学习到深度学习
【10月更文挑战第28天】本文将带你走进AI的世界,从机器学习的基本概念到深度学习的复杂应用,我们将一起探索AI的未来。你将了解到AI如何改变我们的生活,以及它在未来可能带来的影响。无论你是AI专家还是初学者,这篇文章都将为你提供新的视角和思考。让我们一起探索AI的奥秘,看看它将如何塑造我们的未来。
49 3
|
7天前
|
机器学习/深度学习 自然语言处理 Linux
Linux 中的机器学习:Whisper——自动语音识别系统
本文介绍了先进的自动语音识别系统 Whisper 在 Linux 环境中的应用。Whisper 基于深度学习和神经网络技术,支持多语言识别,具有高准确性和实时处理能力。文章详细讲解了在 Linux 中安装、配置和使用 Whisper 的步骤,以及其在语音助手、语音识别软件等领域的应用场景。
27 5
|
9天前
|
机器学习/深度学习 人工智能 自然语言处理
机器学习之解释性AI与可解释性机器学习
随着人工智能技术的广泛应用,机器学习模型越来越多地被用于决策过程。然而,这些模型,尤其是深度学习模型,通常被视为“黑箱”,难以理解其背后的决策逻辑。解释性AI(Explainable AI, XAI)和可解释性机器学习(Interpretable Machine Learning, IML)旨在解决这个问题,使模型的决策过程透明、可信。
21 2
|
9天前
|
机器学习/深度学习 数据采集 人工智能
揭秘AI:机器学习的魔法与代码
【10月更文挑战第33天】本文将带你走进AI的世界,了解机器学习的原理和应用。我们将通过Python代码示例,展示如何实现一个简单的线性回归模型。无论你是AI新手还是有经验的开发者,这篇文章都会给你带来新的启示。让我们一起探索AI的奥秘吧!
|
12天前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI的奥秘:机器学习入门指南
【10月更文挑战第30天】本篇文章是一份初学者友好的机器学习入门指南,旨在帮助读者理解并开始实践机器学习。我们将介绍机器学习的基本概念,包括监督学习、无监督学习和强化学习等。我们还将提供一些实用的代码示例,以帮助读者更好地理解和应用这些概念。无论你是编程新手,还是有一定经验的开发者,这篇文章都将为你提供一个清晰的机器学习入门路径。
30 2
|
20天前
|
机器学习/深度学习 数据采集 人工智能
揭秘AI的魔法:机器学习如何改变我们的世界
【10月更文挑战第22天】在这篇文章中,我们将深入探讨机器学习的奥秘,揭示它是如何在我们的日常生活中扮演着越来越重要的角色。从简单的数据分类到复杂的预测模型,机器学习的应用已经渗透到各个领域。我们将通过实例和代码示例,展示机器学习的基本概念、工作原理以及它如何改变我们的生活。无论你是科技爱好者还是对AI充满好奇的初学者,这篇文章都将为你打开一扇通往未来的大门。
|
30天前
|
机器学习/深度学习 存储 人工智能
揭秘机器学习背后的神秘力量:如何高效收集数据,让AI更懂你?
【10月更文挑战第12天】在数据驱动的时代,机器学习广泛应用,从智能推荐到自动驾驶。本文以电商平台个性化推荐系统为例,探讨数据收集方法,包括明确数据需求、选择数据来源、编写代码自动化收集、数据清洗与预处理及特征工程,最终完成数据的训练集和测试集划分,为模型训练奠定基础。
42 3
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
2024年,AI大模型在软件开发领域的应用正重塑传统流程,从自动化编码、智能协作到代码审查和测试,显著提升了开发效率和代码质量。然而,技术挑战、伦理安全及模型可解释性等问题仍需解决。未来,AI将继续推动软件开发向更高效、智能化方向发展。
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
AI在医疗领域的应用及其挑战
【10月更文挑战第34天】本文将探讨人工智能(AI)在医疗领域的应用及其面临的挑战。我们将从AI技术的基本概念入手,然后详细介绍其在医疗领域的各种应用,如疾病诊断、药物研发、患者护理等。最后,我们将讨论AI在医疗领域面临的主要挑战,包括数据隐私、算法偏见、法规合规等问题。
27 1
|
5天前
|
机器学习/深度学习 人工智能 算法
AI在医疗领域的应用与挑战
本文探讨了人工智能(AI)在医疗领域的应用,包括其在疾病诊断、治疗方案制定、患者管理等方面的优势和潜力。同时,也分析了AI在医疗领域面临的挑战,如数据隐私、伦理问题以及技术局限性等。通过对这些内容的深入分析,旨在为读者提供一个全面了解AI在医疗领域现状和未来发展的视角。
29 10