【2018杭州云栖】机器学习专场:为AI的旅程加速

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
智能开放搜索 OpenSearch向量检索版,4核32GB 1个月
OpenSearch LLM智能问答版免费试用套餐,存储1GB首月+计算资源100CU
简介: 被互联网从业者称为“朝圣大会”的云栖大会,于2018年9月19日至22日在美丽的杭州云栖小镇举办。今年会议的主题是“驱动数字中国”,来自全球6个大洲81个国家及地区共12万人次现场参加。

被互联网从业者称为“朝圣大会”的云栖大会,于2018年9月19日至22日在美丽的杭州云栖小镇举办。今年会议的主题是“驱动数字中国”,来自全球6个大洲81个国家及地区共12万人次现场参加。

9月19日,杭州气温高达32度。与杭州热度一样高的,还有在云栖大会当天机器学习专场。机器学习专场以“为AI的旅程加速”,由阿里巴巴机器学习PAI平台5位技术专家以及2位行业专家,为与会者分享了机器学习最前沿的技术,助力AI应用发展与落地。 整个场次座与虚席,门外还挤了很多热情的观众。在现场工作人员的协调下,又开了一个分会场,通过直播的方式满足众多机器学习爱好者的需求。

image.png

机器学习平台PAI (Platformof Artificial Intelligence)是阿里巴巴集团的机器学习算法平台,该平台为用户提供了一站式数据处理、算法模型训练、离线在线预测的服务。该平台不仅服务阿里巴巴集团内部,同旳也已商业化对外提供服务。在本次云栖大会上,PAI的专家团队向与会者介绍了在深度学习、在线预测、流式算法、增强学习等领域的技术创新。

image.png

图为阿里巴巴高级算法专家孙敏敏

在开场,阿里巴巴高级算法专家孙敏敏以《深度学习深度优化》为主题为大家介绍了PAI在深度学习方面的优化技术。在深度学习优化方面,孙敏敏结合模型与系统联合视角,介绍深度学习模型在具体场景应用时的性能调优的经验与方法。他介绍在调优方面忽略底层系统特点的模型调优或忽略上层模型特点的底层调优,都会出现局部视角的瓶颈,影响到训练及在线布署的效率,复杂系统leaky abstraction的性质决定了没有性能银弹。只有结合底层系统特点进行上层模型层面的调优,可以更充分发挥系统计算性能。比如照顾到硬件特性的模型压缩工作以及训练优化工作。同时结合上层模型特点进行底层系统层面的调优,可以获得更广阔的系统优化空间,比如照顾到模型特点的计算图优化和深度学习编译优化。

image.png

图为阿里巴巴资深算法专家杨旭

在流式算法处理方面,PAI 基于 Flink/Blink 提供了流式算法平台。阿里巴巴资源算法专家杨旭以《Alink:流式算法平台》为主题介绍了流式算法平台Alink的架构与功能。Alink 是 PAI 算法平台的一部分,是基于 Flink/Blink 的流式算法平台。该平台希望通过提供丰富的算法库及便捷的编辑运行环境,帮助数据分析和应用开发人员快速高效的实现各种流式数据的分析和处理。Alink算法平台上有丰富的数据分析算法,具体包含常用统计分析、机器学习、文本处理、推荐、异常检测等多个领域的算法;Alink平台封装了多种常用的数据源,包括MaxCompute表、Datahub流式数据、CSV数据、随机生成数据等数据源,这使得数据处理及分析链路更加通畅;Alink平台支持流式数据的可视化,能够实时的显示流式数据的分析结果;Alink平台提供了多种在线学习算法,及常用的迁移学习算法。Alink平台上,数据分析和应用开发人员能够从数据探索、模型训练、实时预测、可视化展示,端到端地完成整个流程。

image.png

图为阿里巴巴高级算法专家李文鹏

在线预测是模型主要应用,PAI 集成了在线预测服务。阿里巴巴高级算法专家李文鹏以《PAI在线服务框架》为主题向大家介绍了PAI上的在线预测服务架构与特点。PAI 在线预测服务充分利用了集群的弹性扩缩、负载均衡等分布式技术,达到了非常高吞吐,在高并发的在线预测提供技术支撑。PAI在线预测服务基于ECS/EGS构建,使得该服务可以灵活地在不同的region提供服务,从而大大提升资源利用率,降低成本。目前PAI在线服务已在上海,北京,新加坡和美国提供服务。

image.png

图为阿里巴巴高级算法专家黄俊

增强学习也是PAI 团队的主要研发方向。阿里巴巴高级算法专家黄俊以《A3gent:增强学习框架》为主题,为大家分享了PAI上的强化学习平台。PAI 的强化学习平台A3gent是基于Tensorflow开发的面向工业级应用的深度增强学习平台;针对增强学习特有的功能做了抽象化(模块化)设计,包括replay buffer、exploration、action distribution等;根据不同算法类型(on/off policy)设计了不同的交互模式,支持离线、在线数据源;整合了目前最流行的分布式强化学习架构,如GA3C,IMPALA,Ape-x等,在不同场景下可选择不同的分布式架构以获得最佳性能;封装了目前state-of-the-art的强化学习算法组件,用户可通过简单拖拽组件并配置参数的方式使用这些算法;目前A3gent已经在集团内部多个核心业务成功上线。

image.png

图为阿里巴巴高级算法专家杨强鹏

自然场景文字检测对于许多计算机视觉领域的应用都有很大的帮助,例如在图像信息检索、自动翻译、自动驾驶等领域都需要用到文字检测技术。为了更好的解决这个问题,PAI团队提出了IncepText算法,该算法能有效的解决文字大小,角度变化较大的问题。该算法在ICDAR 2015 Incidental Scene Text检测任务中以90.47%的Hmean排名世界第一。同时IncepText论文也被IJCAI 2018接收。来自于PAI团队的高级算法专家杨强鹏为大家揭密了《IncepText 文字检测算法》及OCR文字识别产品。OCR文字识别产品是PAI上提供的上层应用,该服务提供了身份证、驾驶证、银行卡等证件类识别的API。

在机器学习专场的论坛上,来自于厦门美柚的算法专家也介绍了基于PAI的OCR预估算法优化,来自浪潮的人工智能架构师也介绍了AI计算效率的优化方法及实践案例分析。

更多精彩内容,欢迎扫描关注上方二维码查询

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
18天前
|
机器学习/深度学习 人工智能 安全
探索AI的未来:从机器学习到深度学习
【10月更文挑战第28天】本文将带你走进AI的世界,从机器学习的基本概念到深度学习的复杂应用,我们将一起探索AI的未来。你将了解到AI如何改变我们的生活,以及它在未来可能带来的影响。无论你是AI专家还是初学者,这篇文章都将为你提供新的视角和思考。让我们一起探索AI的奥秘,看看它将如何塑造我们的未来。
54 3
|
19天前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
|
18天前
|
人工智能 运维 关系型数据库
云栖大会|数据库与AI全面融合,迈入数据智能新纪元
2024年云栖大会「数据库与AI融合」专场,来自NVIDIA、宇视科技、合思信息、杭州光云科技、MiniMax等企业的代表与阿里云瑶池数据库团队,共同分享了Data+AI全面融合的最新技术进展。阿里云发布了DMS的跨云统一开放元数据OneMeta和智能开发OneOps,推出《云数据库运维》技术图书,并介绍了PolarDB、AnalyticDB、Lindorm和Tair等产品的最新能力,展示了AI在数据库领域的广泛应用和创新。
|
13天前
|
机器学习/深度学习 人工智能 自然语言处理
机器学习之解释性AI与可解释性机器学习
随着人工智能技术的广泛应用,机器学习模型越来越多地被用于决策过程。然而,这些模型,尤其是深度学习模型,通常被视为“黑箱”,难以理解其背后的决策逻辑。解释性AI(Explainable AI, XAI)和可解释性机器学习(Interpretable Machine Learning, IML)旨在解决这个问题,使模型的决策过程透明、可信。
29 2
|
13天前
|
机器学习/深度学习 数据采集 人工智能
揭秘AI:机器学习的魔法与代码
【10月更文挑战第33天】本文将带你走进AI的世界,了解机器学习的原理和应用。我们将通过Python代码示例,展示如何实现一个简单的线性回归模型。无论你是AI新手还是有经验的开发者,这篇文章都会给你带来新的启示。让我们一起探索AI的奥秘吧!
|
18天前
|
人工智能 运维 NoSQL
云栖大会|多模+一体化,构建更高效的AI应用
在2024年云栖大会「NoSQL数据库」专场,多位知名企业和阿里云瑶池数据库团队的技术专家,共同分享了阿里云Lindorm、Tair、MongoDB和MyBase的最新进展与实践。Tair推出Serverless KV服务,解决性能瓶颈和运维难题;Lindorm助力AI和具身智能时代的多模数据处理;MongoDB云原生化提升开发效率;MyBase One打破云边界,提供云边端一体化服务。这些技术进展和最佳实践,展示了阿里云在NoSQL数据库领域的创新能力和广泛应用前景。
|
16天前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI的奥秘:机器学习入门指南
【10月更文挑战第30天】本篇文章是一份初学者友好的机器学习入门指南,旨在帮助读者理解并开始实践机器学习。我们将介绍机器学习的基本概念,包括监督学习、无监督学习和强化学习等。我们还将提供一些实用的代码示例,以帮助读者更好地理解和应用这些概念。无论你是编程新手,还是有一定经验的开发者,这篇文章都将为你提供一个清晰的机器学习入门路径。
32 2
|
18天前
|
关系型数据库 分布式数据库 数据库
云栖大会|从数据到决策:AI时代数据库如何实现高效数据管理?
在2024云栖大会「海量数据的高效存储与管理」专场,阿里云瑶池讲师团携手AMD、FunPlus、太美医疗科技、中石化、平安科技以及小赢科技、迅雷集团的资深技术专家深入分享了阿里云在OLTP方向的最新技术进展和行业最佳实践。
|
24天前
|
机器学习/深度学习 数据采集 人工智能
揭秘AI的魔法:机器学习如何改变我们的世界
【10月更文挑战第22天】在这篇文章中,我们将深入探讨机器学习的奥秘,揭示它是如何在我们的日常生活中扮演着越来越重要的角色。从简单的数据分类到复杂的预测模型,机器学习的应用已经渗透到各个领域。我们将通过实例和代码示例,展示机器学习的基本概念、工作原理以及它如何改变我们的生活。无论你是科技爱好者还是对AI充满好奇的初学者,这篇文章都将为你打开一扇通往未来的大门。
|
1月前
|
机器学习/深度学习 存储 人工智能
揭秘机器学习背后的神秘力量:如何高效收集数据,让AI更懂你?
【10月更文挑战第12天】在数据驱动的时代,机器学习广泛应用,从智能推荐到自动驾驶。本文以电商平台个性化推荐系统为例,探讨数据收集方法,包括明确数据需求、选择数据来源、编写代码自动化收集、数据清洗与预处理及特征工程,最终完成数据的训练集和测试集划分,为模型训练奠定基础。
46 3