大咖对话-AI架构师成长计划(四) -林伟对话 Intel 戴金权|学习笔记

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 快速学习大咖对话-AI架构师成长计划(四) -林伟对话 Intel 戴金权。

开发者学堂课程【PAL 平台学习路线:机器学习入门到应用:大咖对话-AI架构师成长计划(四) -林伟对话 Intel 戴金权】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/855/detail/14135


大咖对话-AI架构师成长计划(四) -林伟对话 Intel 戴金权

 

一、问答

问:在 PAI 平台上对推荐系统做离线和在线统一,可以做到分钟级模型更新,在现实生活中或在一般应用当中,可以每天晚上训练模型,更新模型,再推到线上使用,不会做到在线、离线统一的架构,第一,为了做到在线离线架构,对整个下面平台,不管特征提取也好或模型训练也好,有什么挑战?第二,挑战价值在哪里?最终对用户业务场景,不管电商还是非电商?

答:从价值来说,因为新零售有很特殊地方,在任何地方都有大促,变化很快,也有涉及到兴趣发生很快变化,例如做大促,有轮转活动,模型、兴趣、购买也在短时间有密集性变化,当时希望模型能够跟上兴趣变化,不反复推。如何响应这样变化,在该场景中,online learning 对于客户满意度提高以及客户流程或激发购买行为有很大帮助,也得到了很大的业务回报,对于工程上较为麻烦,麻烦主要体现在首先需要实时做数据处理,不可能堆在一起,做批量结果,做了结果做特种工程,再做模型训练再上线,在该过程中,需要源源不断处理数据,处理数据后,要做实时learning,推新模型,模型该如何上线,中间模型稳定性也要保证,需要和服务发布流程串联起来,例如要分桶,如何滚动服务,除此以外, feature 也在变化,为了能够支持训练,模型没有停下来,不可能把原来30天数据重新再训练一遍,由于模型很大,重新训练30天数据,会花大量时间,否则新模型就推不上了,有周期性从头训练,因为实时训练会有 overfit,也要需要平衡,但不可能回到30天以前,从 fransquat 做训练,原来的 feature 对于现在模型不关键了,如何注重现在的新 feature 权重,降低老 feature 权重,现有框架不太支持,动态 enbedding 功能,使得在训练的时候,能够淘汰 feature,降低 feature 重要性,提升新 feature,大数据和框架联动也需要流式计算,还有如果有脏数据怎么处理,脏数据如何控制,如何回滚,需要保存许多 version,当发现了问题的时候,有工程平台验证,把某数据切回到某点,重新 online learning,所以在大数据模型下工程很复杂,许多客户在搜广推中,对实时性有兴趣,在几个例子中用到实时性,都能够给用户带来业务成长,至于业务成长,从阿里角度来说,结果可观。

问:在 AI 平台上通常几类不同应用都有不同,有必要都做不同平台产品吗?还是可以认为80%相同,20%要定制?

答:各种产品有各自特点,也有许多贡献,从平台角度来说,不同客户看中东西,在平台层面上,会有不一样,因为大数据有复杂数据处理,复杂数据清洗,许多情况下,需要有很复杂的数据加工流程,而加工流程需要管理,数据处理实验会很复杂,有各 种 JOY,各种各样的中间自定义数据、加工过程,此时还需要给用户优势方案选择,加工完后要做统计类规定,再灌到深度学习方面,所以在在 PAI 产品轴中,称为 studio,对于这类客户很需求,这类客户在开发情况下面,不像 CV 类,CV 类可以在单机时看模型效果,在大数据中,本机没有足够数据,也没有足够时长能够把所有数据,灌一灌,在大数据中更多的是分布式循环,和 CV 类不太一样,但也有许多共性,首先都有引擎需求,特别现在,搜广推也在用深度学习模式,需要有深度学习引擎,深度学习引擎共用优化技术,虽然训练方式可能不同,例如,搜广推更多异步训练,CV 类更多同步训练,但共性也有,例如算子高效性,并且现在趋势是搜广推也在考虑如何用同步训练提高更高点,但同步训练要求更高,因为稀疏化,所以同步有可能浪费许多计算资源,因为稀疏,热点并不均匀。异步在搜广推中最终收敛,也比原来收敛效果好。但也有人在尝试,用同步方式训练搜广推,此时训练方式也可能雷同,引擎上有许多有共性地方。大规模训练也开始做更多模型训练,搜广推一开始就是模型训练,所以二者在引擎上有更多共性。在平台上,在图像类对弹性要求更高。大数据就要时刻训练。在研发阶段,是在单机环境模式下训练完了之后,做数据变形。在那边开发环境更多在数据如何处理,复杂流程如何工作,一开始就要用分布式训练,单机训练基本上可能帮助并不大,使用平台组合不一样,在服务客户中发现搜广推较为喜欢用 PAI-Studio 模式,对于 CV 类,会觉得不灵活,不能够提供较好容器,没有更灵活版本,会用云原生的产品提醒。

问:例如推荐、视觉等等,除了这些目前较为主流的深度学习或应用场景,现在也有许多新的机器学习方法来解决新问题,包括小样本中的学习或自监督学习,包括图像神经网络或正向学习等等,还没有大规模被应用,但已经是有前途方向,这些新方向会对现有平台带着怎样挑战?

答:在工程平台,确实要对算法发展方向,要有一定敏感度,看是什么样方向变化,有的方向变化,可能对于引擎和平台带来很不一样事情,例如 GNN,GNN 时候就不像只有 NN 时候,需要考虑如何做计算,如何做迭代,如何收敛模型,但 graph 本身存储结构很特殊,IO 这一层的性能,该如何和后面NN匹配上,如何做采样,这一方面对于系统、IO、存储、引擎会带来许多挑战,这两个引擎如何配合也是一个课题。有许多种迁移学习的方式,在 meta-learning中有很多想法,每个想法都不太一样,如何把想法提纯成为好的工具库,也在做尝试。随着 BERT 产生,有个大基础模型训练不动,就希望用迁移学习的方式 learning 或小样本个学习,学习方法有许多种,如何把学习方法沉淀出来,如何组合好 API,使得能够在抽象上快速组合自己迁移学习方案,对于架构师的考验更多在对于抽象理解以及应对方法提出了更高要求。架构师每天都要学习,但先要保持对于算法方向的理解,与算法工程师交流,算法工程师从算法上考虑问题,架构师从应用性上考虑问题,双方多交流,有更多新想法,可以加速整个 AI 工程快速迭代。

问:不同应用场景,是否有一种解决方案,能够解决所有问题?从某种意义上来说,需要用不同软硬件产品,不管CPU 还是加速器还 GPU 等等,包括上乘了不同软件,可能需要不同产品来解决,针对不同场景来做不同问题,平台能够较好的将不同软件整合在一起,针对不同场景支持。

答:课程取代不了一线上得到的感知,自己必须 heads on,因为架构许多情况下是平衡问题,如何找到平衡点,与整个职业过程有关,在领域中有分布式、大规模、大数据,许多情况下,二八原则点在何处需要通过自己的经验学习。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
11天前
|
人工智能 Cloud Native Java
新趋势、新开源、新实践|云栖大会 AI 原生应用架构专场邀您参会
新趋势、新开源、新实践|云栖大会 AI 原生应用架构专场邀您参会
|
23天前
|
机器学习/深度学习 人工智能 自然语言处理
AI人工智能大模型的架构演进
随着深度学习的发展,AI大模型(Large Language Models, LLMs)在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进,包括从Transformer的提出到GPT、BERT、T5等模型的历史演变,并探讨这些模型的技术细节及其在现代人工智能中的核心作用。
65 9
|
5月前
|
存储 人工智能 缓存
AI 提示词模板相关的架构设计
现在很多企业纷纷研发大语言模型以解决业务问题。提示词在与模型交互中起到关键作用。为优化提示词模板的修改、提高渲染效率及确保安全性,架构设计注重可修改性、安全性、可靠性和性能。设计包括:将提示词存储在OSS以方便修改和版本控制;使用本地缓存提升读取性能;模板引擎增强灵活性;秘钥安全存储在加密系统中;并通过配置中心动态调整。此设计旨在提供高效、安全且可靠的AI交互体验等。
686 78
AI 提示词模板相关的架构设计
|
3月前
|
人工智能 自然语言处理 Cloud Native
阿里云 AI 原生应用架构开放日上线 CommunityOverCode Asia 2024
诚挚邀请您参加阿帕奇软件基金会亚洲大会——CommunityOverCode Asia 2024。本次活动将汇聚来自世界各地的开发者和科技爱好者,共同探索开源技术的最新进展和未来趋势。我们将在大会期间举办《阿里云 AI 原生应用架构开放日》,欢迎您来现场和我们交流。
290 11
|
3月前
|
人工智能 Cloud Native 开发者
开发者们,AI 原生应用架构专场 ·上海站来啦
云原生开源开发者沙龙 AI 原生应用架构专场,邀您一起交流,探索 AI 原生应用的工程化落地!
360 12
|
4月前
|
人工智能 Cloud Native Java
从云原生视角看 AI 原生应用架构的实践
本文核心观点: • 基于大模型的 AI 原生应用将越来越多,容器和微服务为代表的云原生技术将加速渗透传统业务。 • API 是 AI 原生应用的一等公民,并引入了更多流量,催生企业新的生命力和想象空间。 • AI 原生应用对网关的需求超越了传统的路由和负载均衡功能,承载了更大的 AI 工程化使命。 • AI Infra 的一致性架构至关重要,API 网关、消息队列、可观测是 AI Infra 的重要组成。
50813 20
|
3月前
|
开发框架 人工智能
AI问题之Chains架构如何固化推理过程
AI问题之Chains架构如何固化推理过程
|
4月前
|
人工智能 容器 运维
活动回顾丨AI 原生应用架构专场·北京站 PPT 下载
5 月 24 日,飞天技术沙龙首个 AI 原生应用架构专场在北京举办。
443 14
|
3月前
|
人工智能 领域建模
应用工程化架构问题之AI计算机中的大模型评估体系发生变化如何解决
应用工程化架构问题之AI计算机中的大模型评估体系发生变化如何解决
|
5月前
|
人工智能 自然语言处理 算法
GPT-4o:重塑AI语音对话的边界与机遇
最近技术圈又出了新的“爆炸”新闻,因为OpenAI再次掀起技术浪潮,发布了最新旗舰模型GPT-4o,通过官方的消息显示这款全新的模型凭借超高速的语音响应能力和多模态交互革新,不仅让AI语音对话的交互体验更加流畅自然,还以免费使用的形式,给用户和行业带来了前所未有的震撼。那么GPT-4o相比前代有哪些显著的技术提升?它的发布又为国内大模型行业带来了哪些机会呢?本文就来简单聊一聊,欢迎大家在评论区留言交流。
98 2
GPT-4o:重塑AI语音对话的边界与机遇
下一篇
无影云桌面