一周AI最火论文 | 消除偏见,从机器学习系统开始,谷歌发布ML-fairness-gym

简介: 一周AI最火论文 | 消除偏见,从机器学习系统开始,谷歌发布ML-fairness-gym

本周关键词:AI防疫、Chatbot、人脸防伪

本周最佳学术研究

用积极聆听能力来构建与评估访谈聊天机器人

人们为了搭建高效的聊天机器人付出了很多努力。作为谷歌最前沿的产品之一,Meena能与人进行更加智能和具体的对话。

伊利诺伊大学的研究人员一直在努力构建一种具有积极聆听能力的高效访谈聊天机器人。为此,他们首先研究了公开可用的AI技术对于聊天机器人的可用性和有效性。

他们研究了现有的聊天机器人平台,并从中选择了Juji。选择的原因是,Juji不仅是开源的、基于规则的,并且允许设计人员在没有训练数据的情况下引导聊天机器人。使用Juji开发的一个原型系统构建了具有主动聆听技能的聊天机器人,展示了其在支持访谈聊天机器人方面的成功。

接下来,研究人员使用同一个原型创建了两个聊天机器人,一个有主动聆听技能而另一个没有。然后他们请Amazon Mechanical Turk的206名参与者对这两个机器人进行了实时评估,并通过一系列指标(包括用户回复质量和用户使用体验)比较了他们的表现。

评估结论显示,采取了主动聆听技能的访谈机器人在用户互动和吸引高质量用户输入方面表现更好。

这项工作有以下贡献:

  • 提供了实际可行的搭建访谈机器人的思路与方法;
  • 提供了一个用于开发渐进式聊天机器人平台的混合框架;
  • 提供了除了访谈、面试任务之外的,构建共情聊天机器人的设计意义。

通过将基于规则的聊天机器人构建器与数据驱动的模型相结合,能使机器人具有主动的聆听技能。通过主动聆听的技能,这样的访谈聊天机器人可以更好地处理复杂多样的用户对话,甚至是回应开放式的问题。在实际应用中,聊天机器人将能够提供更多引人入胜的用户体验,并引发更高质量的用户响应。

而且,因为这个聊天机器人是基于Juji的,这个方法可以扩展到任何聊天机器人平台。

原文:

https://arxiv.org/abs/2002.01862v1

人脸防伪的大规模多模型基准

在这篇论文里,研究人员介绍了一个大规模多模型的数据库CASIASURF,这个数据库是目前人脸防伪方面最大的开源数据库。数据库包含1000个主题,21000个视频,并且每个样本具有3种模型(RGB,深度和IR)。

研究人员同时提供了评估指标,协议,培训/验证/测试子集和一种测量工具,从而为人脸防伪开发了新的基准。

除此之外,他们还提出了一种新的多模型,多尺度的融合方法,并将其作为一个高效的基础模型。这个方法可以对特征进行加权,在特征选择中能确保最大信息量,并克服不同模型下信息量不同的问题。人们已经对这个数据库进行了广泛的实验,验证了其重要性和泛化能力。

CASIASURF数据库是对推进最前沿人脸防伪技术重要一步。而且,多模型多尺度的融合方法执行了基于模型的的特征再加权,确保了最高效的特征选择。

研究人员计划通过加入3D蒙版等更多的测试来不断增加数据库的多样性。他们还计划使用交叉模式评估协议研究异类面部反欺骗。

数据库:

https://sites.google.com/qq.com/face-anti-spoofing/welcome/challengecvpr2019?authuser=0

原文:

https://arxiv.org/abs/1908.10654v2

一个多样化的多语言语音文本翻译库

Facebook AI研究团队最近发布了CoVoST,这是一种多样化的多语言语音到文本翻译数据库。CoVoST构建在Common Voice(2019-06-12版本)之上,它包括11种语言的演讲(法语,德语,荷兰语,俄语,西班牙语,意大利语,土耳其语,波斯语,瑞典语,蒙古语和中文),其笔录和英语翻译。

研究小组还根据CC许可,从Tatoeba提供了5种语言(法语,德语,荷兰语,俄语和西班牙语)的其他域外评估集。CoVoST是根据CC0许可发布的开源库,任何人都可以免费使用。

随着互联网的增长越来越,世界越来越紧密,翻译服务也比以往任何时候都更加重要。语音到文本翻译的算法需要翻译多种语言的能力,而 CoVoST是多对一的多语言ST语料库,可以帮助研究人员和开发人员实现这个目标。

在现有语料库中,该数据库与Iranzo-Sanchez和他的团队工作发布的语料库最为相似。Iranzo-Sanchez的语料库是根据欧洲议会程序所创建的多语言ST语料库。

不同点是,CoVoST引入了更长的语音持续时间和更多的翻译提取,并且更加多样化。它有大约27个小时的俄语演讲,37个小时的意大利语演讲和67个小时的波斯语演讲,这是之前最大演讲数据集的1.8倍,2.5倍和13.3倍(Black,2019)。CoVoST中的大多数句子(抄本)都被具有不同口音的多个发言人覆盖,使得演讲内容更加丰富。例如,在法国和德国的开发/测试装置中,包括了一千多名演讲者和10种以上的口音。这样的数据库,可以帮助模型在训练和评估中很好地将语音变化考虑进去。

数据集:

https://github.com/facebookresearch/covost

原文:

https://arxiv.org/abs/2002.01320v1

B2B销售预测建模的一种通用流程:Azure机器学习方法

预测销售机会和结果的能力是企业通向成功的路上必不可少的。在过去,此类预测始终依赖于参与销售决策制定过程的人工评估。

然而在本文中,研究人员提出了一种实用的机器学习(ML)工作流程,以在基于云的计算平台(Azure ML)中实现B2B销售结果预测。

这一工作流按照顺序提取、清理和估算销售机会的数据,然后在数据上广泛训练各种类型的ML模型。而第二条管道使用ML模型来估计赢得给定销售机会的可能性。

使用基于云的Azure机器学习服务(Azure ML)在B2B咨询公司的真实销售数据集上评估了该方法的可用性和性能。与手动用户输入的预测准确率(0.67)相比,该工作流能够实现更高的分类精度(0.85)。

这种基于云的工作流程为前文提到的预测销量问题提供了可扩展性更高的解决方案,也因此可以轻松地集成到企业内部的现有CRM软件应用程序中。

原文:

https://arxiv.org/abs/2002.01441v1

一个用于探索机器学习系统的长期影响的工具

认识到理解ML系统中的公平性以及避免偏见很重要之后,Google发布了ML-fairness-gym:一组用于构建简单模拟的组件,可以用来探索在社交网络环境中部署基于机器学习的决策系统的长期影响。

在本文中,他们演示了如何将ML-fairness-gym用于研究自动化决策系统的长期影响。

ML-fairness-gym使用Open AI的Gym框架模拟顺序决策。在此框架中,代理能够与模拟环境进行交互。在每个步骤中,代理都会选择一个会影响环境状态的操作。然后环境则会揭示代理用来通知其后续操作的观察结果。最后,环境对系统和问题的动态进行建模,观察结果用作代理的数据,这样就可以将其编码为机器学习系统。

本文中提出的ML-fairness-gym可用于解决各种机器学习中的公平问题,它具有足够的灵活性来模拟和探索“公平性”不足的问题。

Google研究人员对ML-fairness-gym的潜力感到振奋,它可以帮助其他研究人员和开发人员更好地理解ML算法对我们社会的影响,并为将来开发更负责任和更公平的机器学习系统提供信息。

代码:

https://github.com/google/ml-fairness-gym/

原文:

https://github.com/google/ml-fairness-gym/blob/master/papers/acm_fat_2020_fairness_is_not_static.pdf

其他爆款论文

最新研究帮助我们找到受损的社交媒体帐户:

https://arxiv.org/abs/1804.07247v2

如何准确识别一个表情包?

https://arxiv.org/abs/2002.01462v1

一个能够为不完整的菜谱推荐配料的推荐算法:

https://arxiv.org/abs/1907.12380v2

一个能够检测物联网中睡眠状态节点的框架:

https://arxiv.org/abs/1910.01092v2

基于单眼模型3D跟踪的一种新组合技术:

https://arxiv.org/abs/2002.01379v1

AI大事件

个性化的AI聊天机器人正在减缓冠状病毒的传播:

https://www.wfmz.com/news/pr_newswire/pr_newswire_technology/bespoke-s-ai-chatbot-provides-assistance-during-current-coronavirus-pandemic/article_205bbfca-784c-5e8d-9d3d-1ab0fb97342a.html

一组研究人员正在努力构建具有精通社交技能的AI代理:

https://www.zdnet.com/article/defense-researchers-developing-software-agents-that-can-read-peoples-thoughts/

Twitter:如果deepfake对我们有害,我们就会扼杀它:

https://www.zdnet.com/article/twitter-well-kill-deepfakes-but-only-if-theyre-harmful/

AI在Google maps中的应用:

https://www.zdnet.com/article/how-ai-has-helped-improve-google-maps/

相关文章
|
1月前
|
机器学习/深度学习 人工智能 安全
探索AI的未来:从机器学习到深度学习
【10月更文挑战第28天】本文将带你走进AI的世界,从机器学习的基本概念到深度学习的复杂应用,我们将一起探索AI的未来。你将了解到AI如何改变我们的生活,以及它在未来可能带来的影响。无论你是AI专家还是初学者,这篇文章都将为你提供新的视角和思考。让我们一起探索AI的奥秘,看看它将如何塑造我们的未来。
74 3
|
9天前
|
机器学习/深度学习 人工智能 自然语言处理
【NeurIPS'24】阿里云 PAI 团队论文被收录为 Spotlight,并完成主题演讲分享
12月10日,NeurIPS 2024在温哥华开幕,阿里云PAI团队论文《PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations》入选Spotlight,PAI团队还进行了“可信AI的技术解读与最佳实践”主题演讲,展示AI工程化平台产品能力。
|
16天前
|
机器学习/深度学习 人工智能 编译器
【AI系统】死代码消除
死代码消除是一种编译器优化技术,旨在移除程序中不会被执行的代码,提升程序效率和资源利用。通过分析控制流图,识别并删除不可达操作和无用操作,减少不必要的计算。在传统编译器中,主要通过深度优先搜索和条件分支优化实现;而在AI编译器中,则通过对计算图的分析,删除无用或不可达的计算节点,优化模型性能。
29 3
|
17天前
|
存储 人工智能 JavaScript
【AI系统】公共表达式消除原理
公共子表达式消除(CSE)是编译器优化技术,旨在通过识别并消除重复计算的表达式,减少计算量,提升程序执行效率。CSE分为局部和全局两种,局部CSE仅在单个基本块内操作,而全局CSE跨越多个基本块。技术手段包括局部值编号和缓式代码移动等,广泛应用于传统编译器及AI编译器中,有效简化计算图,降低计算成本。
40 4
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
机器学习之解释性AI与可解释性机器学习
随着人工智能技术的广泛应用,机器学习模型越来越多地被用于决策过程。然而,这些模型,尤其是深度学习模型,通常被视为“黑箱”,难以理解其背后的决策逻辑。解释性AI(Explainable AI, XAI)和可解释性机器学习(Interpretable Machine Learning, IML)旨在解决这个问题,使模型的决策过程透明、可信。
52 2
|
1月前
|
机器学习/深度学习 数据采集 人工智能
揭秘AI:机器学习的魔法与代码
【10月更文挑战第33天】本文将带你走进AI的世界,了解机器学习的原理和应用。我们将通过Python代码示例,展示如何实现一个简单的线性回归模型。无论你是AI新手还是有经验的开发者,这篇文章都会给你带来新的启示。让我们一起探索AI的奥秘吧!
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI的奥秘:机器学习入门指南
【10月更文挑战第30天】本篇文章是一份初学者友好的机器学习入门指南,旨在帮助读者理解并开始实践机器学习。我们将介绍机器学习的基本概念,包括监督学习、无监督学习和强化学习等。我们还将提供一些实用的代码示例,以帮助读者更好地理解和应用这些概念。无论你是编程新手,还是有一定经验的开发者,这篇文章都将为你提供一个清晰的机器学习入门路径。
39 2
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
【EMNLP2024】阿里云人工智能平台 PAI 多篇论文入选 EMNLP2024
阿里云人工智能平台 PAI 的多篇论文在 EMNLP2024 上入选。论文成果是阿里云与华南理工大学金连文教授团队、复旦大学王鹏教授团队共同研发。EMNLP 是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究,尤其重视自然语言处理的实证研究。该会议曾推动了预训练语言模型、文本挖掘、对话系统、机器翻译等自然语言处理领域的核心创新,在学术和工业界都有巨大的影响力。此次入选标志着阿里云人工智能平台 PAI 在自然语言处理和多模态算法能力方面研究获得了学术界认可。
|
1月前
|
机器学习/深度学习 数据采集 人工智能
揭秘AI的魔法:机器学习如何改变我们的世界
【10月更文挑战第22天】在这篇文章中,我们将深入探讨机器学习的奥秘,揭示它是如何在我们的日常生活中扮演着越来越重要的角色。从简单的数据分类到复杂的预测模型,机器学习的应用已经渗透到各个领域。我们将通过实例和代码示例,展示机器学习的基本概念、工作原理以及它如何改变我们的生活。无论你是科技爱好者还是对AI充满好奇的初学者,这篇文章都将为你打开一扇通往未来的大门。
|
29天前
|
机器学习/深度学习 人工智能 自动驾驶
揭秘AI:机器学习如何改变我们的世界
在这篇文章中,我们将深入探讨机器学习如何改变我们的世界。从自动驾驶汽车到智能医疗诊断,机器学习正在逐步渗透到我们生活的每一个角落。我们将通过实例和代码示例,揭示机器学习的工作原理,以及它如何影响我们的生活。无论你是科技爱好者,还是对人工智能充满好奇的普通读者,这篇文章都将为你打开一扇新的大门,带你走进机器学习的世界。
28 0

热门文章

最新文章

下一篇
DataWorks