CCAI 2017 | 小数据学习对人工智能究竟有着怎样的影响?

简介: 中国人工智能大会(CCAI),由中国人工智能学会发起,目前已成功举办两届,是中国国内级别最高、规模最大的人工智能大会。秉承前两届大会宗旨,由中国人工智能学会、阿里巴巴集团 & 蚂蚁金服主办,CSDN、中国科学院自动化研究所承办,云栖社区作为独家直播合作伙伴的第三届中国人工智能大会(CCAI 2017)将于 7 月 22-23 日在杭州召开。
近几年来,得益于大数据的积累、计算能力的提升,深度学习从学术到工程领域均取得了非常显著的发展与突破,尤其是诸如图像识别、语音识别等实际场景应用。但是,依赖于海量的训练数据、灵活的模型、足够的运算能力以及足以对抗维度灾难的先验经验,从很大程度上来讲妨碍了深度学习技术更为广泛的运用。为此,在全球范围内,众多人工智能领域的学术大师及业界专家上下求索,也由此催生了小数据学习(Learning from limited information),通过更少的数据以及更确定的方法让 AI 学习更加高效。

然而什么是小数据?机器怎样从小数据中学习?小数据学习将从哪些方面改变人工智能的研究与应用?在即将于 7 月 22 - 23 日举行的中国人工智能大会(CCAI 2017)上,特别邀请到日本理化学研究所先进智能研究中心主任 Masashi Sugiyama,现场为所有参会者一解小数据学习之惑,并分享其团队在监督弱化分类方面的最新研究进展。在会前,记者特别采访了 Masashi Sugiyama 教授,接下来,让我们一起先睹为快。
3fe1f176ca64057b98bb90922e89778a9101cc48
Masashi Sugiyama 是日本理化学研究所先进智能项目组主任( Director of RIKEN Advanced Intelligence Project)。RIKEN 成立于 1917 年,是日本最大的综合研究机构,其中,由 Masashi Sugiyama 领导的先进智能项目组成立于 2016 年,主要着眼于研发下一代 AI 技术,如小数据学习、因果推理(Causal inference)、不确定性学习(Learning with uncertainty)以及假设检验等,同时,还有加速医学、材料科学、制造业的科研进程,解决基础设施管理、社会抗灾能力、老年医疗保健等社会问题。而 Masashi Sugiyama 教授本人的研究领域则包括机器学习的理论和算法(如协变量适应、密度比预估和强化学习等),及其在实际问题中的应用。

记者:什么是小数据学习?为什么要使用小数据学习?如何实现?

Masashi Sugiyama:虽然现在大数据学习仍是主流,但在很多应用领域,收集到足够机器用来学习的庞大的数据是非常昂贵的。在这种情况下,使用小数据进行学习是一个理想的解决方式。但也有它的弊端,因为当进行小数据学习时,我们需要目标领域中强大的先验知识作为支撑,过多先验知识的介入意味着牺牲掉机器学习的灵活性。所以使用有限信息进行学习的精髓在于,使用领域知识之外的相对便宜的数据进行学习。

记者:若小数据学习能够成功,将对哪些 AI 领域造成改变,进而对哪些行业产生影响?

Masashi Sugiyama:利用小数据进行学习是大数据学习的母集,所以说它一方面可以解决大数据学习不能解决的问题,另一方面在大数据学习已经得以应用的领域也能有所发挥,因为使用小数据学习能够在避免使用昂贵数据的同时达到更优的效果。

记者:您和您的团队在小数据学习方面已经取得了哪些进展?

Masashi Sugiyama:多样性对于小数据学习至关重要,因为对于不同的应用场景,收集数据的局限性是不同的。我们正在研发一种通用的算法使其解决机器学习过程中的不同问题,例如将很多不同种类的未标注数据集进行分类、将标注与未标注数据进行分类、半监督学习中的分类问题、充分标注的数据的分类问题等。

记者:日本的科研机构更倾向于哪些 AI 技术及应用的研究?哪些 AI 应用在日本已经落地?

Masashi Sugiyama:日本的机器学习研究人员更多地关注基础研究,当然,同时也会有一些人在科学及工程领域从事应用科学相关的研究工作。在基础研究与应用之间存在很大的鸿沟,如何搭建鸿沟上的桥梁至关重要。所幸,这些建桥的工作在一些领域已经逐渐展开,例如对癌症及老年痴呆的研究、再生医学、制造业、基础设施管理以及抗灾能力提升的研究等方面。

记者:您认为当前 AI 技术发展的瓶颈在哪儿?并请展望 AI 未来的发展方向。

Masashi Sugiyama:私密性、安全性、以及伦理问题会成为人工智能系统发展的瓶颈。在 AI 技术发展之外,如何分析及管理 AI 可能带来的社会问题也是需要重视的方面。

记者:在本届 CCAI 现场,您将带来的演讲主要关于哪些方面?希望观众从中收获怎样的启发?

Masashi Sugiyama:我的演讲题目是《弱监督学习的最新研究进展》,在演讲中我将介绍我们对于弱监督学习下的分类问题的研究成果,包括将两种类别的无标签数据进行分类、将有标签与无标签数据进行分类、一个对于半监督分类问题的通用方法、以及对于有标签数据的分类。最后,我将简单介绍日本理化学研究所先进智能项目组(RIKEN AIP)。

关于 CCAI
中国人工智能大会(CCAI),由中国人工智能学会发起,目前已成功举办两届,是中国国内级别最高、规模最大的人工智能大会。秉承前两届大会宗旨,由中国人工智能学会、阿里巴巴集团 & 蚂蚁金服主办,CSDN、中国科学院自动化研究所承办,云栖社区作为独家直播合作伙伴的第三届中国人工智能大会(CCAI 2017)将于 7 月 22-23 日在杭州召开。

作为中国国内高规格、规模空前的人工智能大会,本次大会由中国科学院院士、中国人工智能学会副理事长谭铁牛,阿里巴巴技术委员会主席王坚,香港科技大学计算机系主任、AAAI Fellow 杨强,蚂蚁金服副总裁、首席数据科学家漆远,南京大学教授、AAAI Fellow 周志华共同甄选出在人工智能领域本年度海内外最值得关注的学术与研发进展,汇聚了超过 40 位顶级人工智能专家,带来 9 场权威主题报告,以及“语言智能与应用论坛”、“智能金融论坛”、“人工智能科学与艺术论坛”、“人工智能青年论坛”4 大专题论坛,届时将有超过 2000 位人工智能专业人士参与。

目前,大会 8 折优惠门票正在火热发售中,点击链接火速抢票: http://ccai.caai.cn/

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
16天前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI产品使用合集之机器学习PAI的学习方法不知道如何解决
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
【AI 生成式】如何利用生成式人工智能进行机器学习的数据增强?
【5月更文挑战第4天】【AI 生成式】如何利用生成式人工智能进行机器学习的数据增强?
|
12天前
|
机器学习/深度学习 人工智能
【AI 初识】什么是迁移学习,它在人工智能中有什么用?
【5月更文挑战第2天】【AI 初识】什么是迁移学习,它在人工智能中有什么用?
|
14天前
|
机器学习/深度学习 人工智能 算法
构建未来:人工智能在持续学习系统中的应用
【4月更文挑战第30天】 随着机器学习技术的不断进步,人工智能(AI)已经从静态的知识库演变为能够进行自我更新和优化的动态系统。本文探讨了AI在持续学习系统中的关键应用,分析了其如何通过实时数据分析、模式识别以及自适应算法来增强系统的学习能力和决策效率。我们还将讨论这些技术如何推动个性化服务的发展,并在不断变化的环境中维持系统的相关性和准确性。
|
15天前
|
人工智能 测试技术
测试数据不再难,人工智能批量生成给你用!
本文介绍了如何利用ChatGPT生成测试数据。测试数据是验证功能和触发异常场景的关键,设计时需全面考虑等价类、边界值和正交法。实践中,先明确数据类型、格式和需求,然后向ChatGPT提供相关信息。例如,对于只能输入中国手机号的输入框,初始提示可能只包含正常手机号,但应进一步补充异常场景,如非数字、长度错误、非中国号码、特殊字符、空输入等。此外,可通过指定yaml格式来满足代码使用需求。总结来说,生成测试数据需清晰定义需求,拆分任务,并系统测试各种变化。
21 2
|
16天前
|
机器学习/深度学习 SQL 人工智能
人工智能平台PAI产品使用合集之如何通过机器学习PAI 的Alink实现大量数据两两计算相关性
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
16天前
|
机器学习/深度学习 人工智能 运维
人工智能平台PAI 操作报错合集之请问Alink的算法中的序列异常检测组件,是对数据进行分组后分别在每个组中执行异常检测,而不是将数据看作时序数据进行异常检测吧
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
16天前
|
机器学习/深度学习 人工智能 API
人工智能平台PAI 操作报错合集之DSSM负采样时,输入数据不同,被哈希到同一个桶里,导致生成的embedding相同如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
16天前
|
机器学习/深度学习 SQL 人工智能
人工智能平台PAI 操作报错合集之机器学习PAI缺失值补充报错,从odps读取数据正常 进行下一步时,补充缺失值报错如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
ElasticON AI 2023大会回顾:深入探索 Elasticsearch 与人工智能的融合之路
ElasticON AI 2023大会回顾:深入探索 Elasticsearch 与人工智能的融合之路
21 0