一周AI最火论文 | 比男朋友更会聊天的机器人指日可待？谷歌AI发布新款Chatbot-阿里云开发者社区

一周AI最火论文 | 比男朋友更会聊天的机器人指日可待？谷歌AI发布新款Chatbot

2021-10-22 638

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 一周AI最火论文 | 比男朋友更会聊天的机器人指日可待？谷歌AI发布新款Chatbot

本周关键词：chatbot、数据流分析、边缘计算

本周最佳学术研究

Google AI Meena：可以聊天聊地聊一切的机器人

Google Research Brain Team推出了一款基于AI的聊天机器人，名叫Meena。与此前最新的聊天机器人相比，它可以进行更合理、更具体的对话。

Meena有26亿个参数，并接受了341 GB文本的训练，这些文本从公共领域的社交媒体对话中被筛选出来。与现有最新的生成模型OpenAI GPT-2相比，Meena具有1.7倍的模型容量，并接受了8.5倍的数据进行训练。为了改进性能，研究人员应用了他们针对开放域聊天机器人提出的一种新的人类评估指标，称为“敏感度和特异性平均值（SSA）”，它捕获了人类对话中基础却重要的属性。

长期以来，研究人员一直在寻找一种自动评估指标，该指标能够与更准确的人工评估相关联、从而更快地开发对话模型，但这一直是充满挑战的。出乎意料的是，他们在训练Meena模型时发现了一种可以用于任何神经seq2seq模型的自动指标——困惑值，该值与人类评估（例如SSA值）具有很强的相关性。

Meena的困惑值为10.2，转换成SSA值就是72％.与其他聊天机器人获得的SSA值相比，SSA 值72％与普通人类达到的SSA值 86％相差不远。完整版Meena具有过滤机制和可调谐解码功能，可将SSA值进一步提高到79％。

有了如此引人入胜的结果，像人与人之间对话那样与现代机器人对话似乎离我们越来越近了。Meena无疑是一项惹人注目的研究成果，它可能带来人机交互中许多有趣且强大的应用。

原文：

https://arxiv.org/abs/2001.09977

数据科学的团队协作模式用于数据流批量分析的Stream-learn的Python包

弗罗茨瓦夫科技大学的研究人员介绍了名为Stream-learn的Python包，用以进行漂移和不平衡的数据流分析。该软件包与Scikit-learn兼容，其主要组件是一个流生成器，允许合成数据流的生成。该合成数据流可以在其循环或非循环版本中结合三种主要的概念漂移类型（即突然漂移、渐进漂移和增量漂移）中的每一个。

Python包允许按照既定的评估方法（Test-Then-Train和Prequential）进行实验。此外，研究人员已经实现了适用于数据流分类的估计器，包括简单分类器、最新的基于块的分类器和在线分类器的集合。为了提高计算效率，该包将其自带的预测指标实现方式用于不平衡的二进制分类任务。

Stream-learn Python包是一个方便使用的开源库，用于困难的数据流分类。它可以根据不同的特征生成流，这些特征由各种类型的概念漂移和类不平衡水平组成，其中包括先前类概率中可能出现的漂移。

附加模块允许使用大众熟知的估算方法实现分类器和分类器集合，从而对数据流进行实验。它的主要想法是使得用户即刻熟悉数据流分类任务。该软件包已经在多篇科学论文的研究过程中得到了测试。对于那些偏好简单的处理过程、容易的操作方法、并与Scikit-learn机器学习库集成使用的用户而言，这是一个理想的工具。

原文：

https://arxiv.org/abs/2001.11077v1

一种衡量品牌重要性和品牌定位的创新型工具

在本文中，研究人员描述了SBS品牌智能应用程序（SBS BI）的功能，该功能旨在评估品牌重要性并通过文本数据分析提供品牌分析。为了更好地描述SBS BI的功能，他们提供了一个针对2020年美国民主总统初选的案例研究。

研究人员从Event Registry数据库下载了5万篇在线文章，其中包括从全球收集的主流新闻和博客新闻。这些在线新闻文章被转换为共现单词网络，并与社交网络分析和文本挖掘中的方法和工具相结合进行分析。

通过全面分析人们（包括新闻记者、评论员、选民等在内）对网上候选人的评论，这项工作中描述的方法在补充传统的民意调查上展现出了巨大的潜力。本文所提出的方法基于对大量文本数据的自动挖掘，这可以帮助抵消所谓的“民意调查疲劳”（在这种情况下，选民开始避免接听民意测验者的电话，从而影响了样本的代表性）。

本文提议的SBS工具中的组件可以被完全转换为品牌经理和数字营销专家可以使用的报告。SBS的预测能力及其三个维度（即流行性、多样性和连通性）已在包括旅游管理和政治预测在内的各种环境中得到了证明。

原文：

https://arxiv.org/abs/2001.11479v1