AI公开课:19.05.29 浣军-百度大数据实验室主任《AutoDL 自动化深度学习建模的算法和应用》课堂笔记以及个人感悟

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: AI公开课:19.05.29 浣军-百度大数据实验室主任《AutoDL 自动化深度学习建模的算法和应用》课堂笔记以及个人感悟

浣军博士,汉族,1975年出生于江苏苏州,华人科学家,教授,博士生导师,国际著名人工智能专家。历任美国堪萨斯大学电子工程和计算机系终身讲席正教授、博士生导师、美国国家科学基金委大数据学科主任、葛兰素制药高级访问科学家。现任百度大数据实验室主任。

      2006年在北卡来罗纳大学计算机系获得博士学位后加入堪萨斯大学,历任助理教授、副教授、正教授、讲席正教授。

浣军博士担任堪萨斯大学生物信息学和计算生命科学实验室主任,国家分子探针研究中心化学信息学部主任等职。

      2015-2018年 任美国国家科学基金委,计算和信息学部,担任大数据学科主任,主管大数据项目规划和审批。

      2018年1月18日,加入百度研究院,担任百度大数据实验室主任 。浣军教授在百度提出开放普惠AI理念,主持开发了Baidu AutoDL: Automated Deep Learning,让广大中小初创企业个人无需特殊软硬件设备和工程团队也能享受到百度开发的先进AI技术。

      研究领域:浣军博士长期从事AI、大数据、数据挖掘和机器学习的理论、算法和应用的研究,研究领域涉及深度学习、大数据、生物信息学等。



问答环节


小编正在使劲整理中……

雷鸣教授:模型的训练,类似启发式搜索。初始的模型是什么?

浣军教授:按照不同模式需要进行因地制宜,比如Resnet,大体机构要是知道的,搜出来的是一个cell,比如七个节点的模块,在这个模板上进行优化,然后将多个cell结合起来。第三个是,比如从Resnet开始,进行局部修改,split,把一层或者改为两层,通过这样得到优化的结果。

雷鸣教授:第一个是有一个大体上框架,然后往里面填框架。第二个是模块化的替换,相当于换个发动机或者什么的,比如火车,有可替换性,然后根据不同组合进行作业;第三个,局部分析修改。下一个问题,对于数据量有什么要求么?

浣军教授:训练一次几个小时,如果比如训练需要3天。整个训练比较大,可以理解为,利用AutoDL,找组件,利用人类的某种组合进行优化。

雷鸣教授:有点类似金融数据分析,先找这些特征,然后综合这些特征,然后通过二级市场操作,会得到有效利用。能不能讲一讲在其他推荐、大数据处理领域上,如何应用?

浣军教授:应该说,视觉领域需求比较强烈,但是NLP上也有很多应用,比如设计RNN或者优化LSTM算法。比如迁移学习,利用Bert训练模型,然后迁移到某个具体场景上。关于推荐系统上,其实,模型不见得很深,尤其对于FE处理,这一块特别重要。

雷鸣教授:在应用上,比如根据迁移学习或者模型压缩,AutoDL有很多有意思的应用,比如还有其他的那些应用?

浣军教授:在分类上,除了图像分类。图像分割领域,比如最近百度语音合作做的,城管的项目,通过摄像头进行识别,识别垃圾不应该出现在不该出现的地方。语义分割领域,工业质检找到产品缺陷,困境是都是小样本、弱监督。弱标签并不是不标记,而是简化标记。安全领域,如何防止别人攻击,如何模拟攻击。风格迁移领域,去燥、超分辨率等,做特征分层,优化k层的识别。

雷鸣教授:放眼未来,未来会有哪些潜在的技术以及如何影响产业?

浣军教授:理论上,神经网络的结构和功能之间的关系,如何通过理论进行刻画,从而用来指导神经网络的设计。对样本的选择,如何优化网络,比如数据的选择、优化器的选择。比如要识别某种动物、识别某种疾病,这对于人类来说,是用的一套系统进行的识别,如何在任务不确定的情况下,也有比较好的模型。这个方向若有扩展,能够有更大的范围,更能优化模型。

雷鸣教授:探讨所谓深度学习的人才,哈哈,其实就是调整各模型,如果调参被AutoDL抢走,那么我们未来的人才应走向何方?

浣军教授:虽然现在的学生只会调参,哈哈,比如我们可以建立一个车床,让学生的加工精度进行提高,使大家自我能力提升。

雷鸣教授:还要理解网络的结构,尝试改一下网络的结构。AutoDL有没有可能会用于一些先验知识?

浣军教授:比如做气象,天气预测,它是有一个很强的物理机制的,如果单纯去学习,它需要的数据量要很大的。可以考虑混合建模。除了模型嵌入,还有知识嵌入,比如要预测斑马,原先不知道斑马,实际上做预测的时候,就不需要大量的斑马图像。能够有效的降低对数据集的依赖。很多的知识,比如夸模态,既有图像又有语言。

雷鸣教授:最近何何凯明的大作,随机的网络还不错?精心设计和随机搜索到底哪个好?有什么建议?总结,随机在一些相对新的、未知的领域,会更好一点。

浣军教授:学术界,要有对认识的认识,要经常反思。如果对问题的理解,调参是基本技能,如果对问题深入理解,随机搜索也不失为一种好的方式,空间定下来,随机搜索可以在固定的时间内给一个不错的结果。多目标搜索,要考虑能耗、响应时间、准确度,此时若主要考虑实时,根据不同的搜索策略。何凯明的大作,说明了随机搜索效果还算不错,其实,这种反思永远是对的,人工智能真的是需要很大的算力、很好的设计才会得到最好的结果吗?

雷鸣教授:AutoDL能干很多东西,那人类还要学什么呢?还需要投向人工智能领域吗?

浣军教授:人工智能处于初级阶段,目前还是需要人工,网络结构对数据的敏感性还是不够。如果12年有博士在做深度学习,那么,他17年才会毕业,其实12年那时候真正做深度学习的人很少很少,所以还是需要的。

雷鸣教授:对有志于人工智能,这只是一个工具,在一些新领域,还是需要继续学习,还有很多很多领域,我们处于非常早期的阶段,AutoDL也是一个非常重要的方向。如何看待神经生物学和人工智能数学科学?会有哪些预期的突破?

浣军教授:比如目标检测,人做目标检测的时候,是基于多通道的,然后注意力集中后进一步检测,其实卷积神经网络矩形感受视野,而人类的感受视野不会一直是矩形的。人类证明了存在这样一个网络,那么,我们能不能设计一个系统完成多个任务。是建立在数学基础上与视觉科学又有不同。

雷鸣教授:人类的脑结构,比如神经科学,最早的神经网络其实就是依据而来。算力的增长,量变到质变的图片。如果层数不多的话,8~10层,最初的层,根据光栅的原理在找边框,随着网络加深依次检测更具体的东西。毕竟,人脑是靠生物学,而神经网络是基于数学的,是否需要完全理解大脑才能做出一个人造的超级大脑,本着科学的精神,结果在没有出来以前,我们都不能否定。比如飞机,现在的飞机的并不是扇动飞行的,所以我们不能完全照抄,但是也是要有模仿的部分。

浣军教授:人工智能的阶段,现在是最有意思的阶段。神经网络是生物学启发的,比如Hinton在用类比的方式,并没有纯数学去建立,NLP领域,必须要理解语言的结构,大家都在小数据上总结出来的类似的结构,这需要大家自己去探索,要保持一个开放的心态、快速学习的能力、探索的能力,认知一件事要有多种可能性。



个评:很多事情需要大家自己去探索,但要保持一个开放的心态、快速学习的能力、探索的能力,认知一件事要有多种可能性。何凯明的大作,说明了随机搜索效果还算不错,其实,这种反思永远是对的,人工智能真的是需要很大的算力、很好的设计才会得到最好的结果吗?保持疑问,带着反思前进!

备注:以上对话环节的文本编辑,为博主总结,与原文稍微有异,请以原文录音为准。时间紧迫,如有错误,欢迎网友留言指出、探讨。


 


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
机器学习/深度学习 算法 测试技术
深度学习环境搭建笔记(二):mmdetection-CPU安装和训练
本文是关于如何搭建深度学习环境,特别是使用mmdetection进行CPU安装和训练的详细指南。包括安装Anaconda、创建虚拟环境、安装PyTorch、mmcv-full和mmdetection,以及测试环境和训练目标检测模型的步骤。还提供了数据集准备、检查和网络训练的详细说明。
126 5
深度学习环境搭建笔记(二):mmdetection-CPU安装和训练
|
8天前
|
存储 人工智能 自然语言处理
ChatMCP:基于 MCP 协议开发的 AI 聊天客户端,支持多语言和自动化安装 MCP 服务器
ChatMCP 是一款基于模型上下文协议(MCP)的 AI 聊天客户端,支持多语言和自动化安装。它能够与多种大型语言模型(LLM)如 OpenAI、Claude 和 OLLama 等进行交互,具备自动化安装 MCP 服务器、SSE 传输支持、自动选择服务器、聊天记录管理等功能。
72 15
ChatMCP:基于 MCP 协议开发的 AI 聊天客户端,支持多语言和自动化安装 MCP 服务器
|
18天前
|
人工智能 自然语言处理 JavaScript
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
Agent-E 是一个基于 AutoGen 代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。它能够执行多种复杂任务,如填写表单、搜索和排序电商产品、定位网页内容等,从而提高在线效率,减少重复劳动。本文将详细介绍 Agent-E 的功能、技术原理以及如何运行该系统。
66 5
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
|
22天前
|
人工智能 编解码 BI
LEOPARD:腾讯AI Lab西雅图实验室推出的视觉语言模型
LEOPARD是由腾讯AI Lab西雅图实验室推出的视觉语言模型,专为处理含有大量文本的多图像任务设计。该模型通过自适应高分辨率多图像编码模块和大规模多模态指令调优数据集,在多个基准测试中表现卓越,适用于自动化文档理解、教育和学术研究、商业智能和数据分析等多个应用场景。
37 2
LEOPARD:腾讯AI Lab西雅图实验室推出的视觉语言模型
|
18天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI与大数据在IT运维中的应用探索####
本文旨在探讨人工智能(AI)与大数据分析技术如何革新传统IT运维模式,提升运维效率与服务质量。通过具体案例分析,揭示AI算法在故障预测、异常检测及自动化修复等方面的实际应用成效,同时阐述大数据如何助力实现精准运维管理,降低运营成本,提升用户体验。文章还将简要讨论实施智能化运维面临的挑战与未来发展趋势,为IT管理者提供决策参考。 ####
|
1月前
|
存储 人工智能 安全
从梦想到现实:十年见证AI自动化漏洞修复的演变
2014年,我怀揣着利用科技创造更安全数字世界的梦想,提出了通过云平台自动化修复第三方网站漏洞的构想。十年后的2024年,随着AI技术的崛起,这一梦想已成为现实。如今,用户只需简单注册并安装插件,AI系统就能自动检测、修复漏洞,整个过程高效、智能。AI不仅提升了系统的可靠性和效率,还具备自我学习能力,使安全防护更加主动。未来,我将继续用AI探索更多可能,推动技术的发展,不断完善这个充满智慧与安全的数字世界。
61 3
从梦想到现实:十年见证AI自动化漏洞修复的演变
|
24天前
|
机器学习/深度学习 人工智能 自然语言处理
智能化软件测试:AI驱动的自动化测试策略与实践####
本文深入探讨了人工智能(AI)在软件测试领域的创新应用,通过分析AI技术如何优化测试流程、提升测试效率及质量,阐述了智能化软件测试的核心价值。文章首先概述了传统软件测试面临的挑战,随后详细介绍了AI驱动的自动化测试工具与框架,包括自然语言处理(NLP)、机器学习(ML)算法在缺陷预测、测试用例生成及自动化回归测试中的应用实例。最后,文章展望了智能化软件测试的未来发展趋势,强调了持续学习与适应能力对于保持测试策略有效性的重要性。 ####
|
25天前
|
人工智能 架构师 大数据
广西广电X阿里云:共同成立全媒体AI实验室!
广西广电X阿里云:共同成立全媒体AI实验室!
34 5
|
1月前
|
存储 人工智能 分布式计算
大数据& AI 产品月刊【2024年10月】
大数据& AI 产品技术月刊【2024年10月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
15天前
|
人工智能 分布式计算 DataWorks
大数据& AI 产品月刊【2024年11月】
大数据& AI 产品技术月刊【2024年11月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
下一篇
DataWorks