多模态大一统、AI智能体将如何引领未来?阿里妈妈与人大高瓴学者探讨大模型趋势

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 多模态大一统、AI智能体将如何引领未来?阿里妈妈与人大高瓴学者探讨大模型趋势

今年科技领域什么最热?无疑是以大模型和 AIGC 为代表的新一波人工智能技术浪潮。

在这波浪潮中,大家有一个明显的感受:在下游任务中能 work 的技术概念令人目不暇接,而且在很短的时间内就会被广泛采用。以文生图为例,问世还不到一年的 Stable Diffusion 让扩散模型席卷这一领域,Midjourney 更是将其商业价值彻底引爆。类似的概念不止模型,还有一些方法、技巧,比如思维链、RLHF……

与此同时,一些新的技术趋势也在悄悄酝酿,包括多模态、多任务的大一统以及 AI 智能体的崛起。前者的代表性模型包括 Meta 用图像对齐所有模态的 ImageBind、用一个模型分割所有图像的 Segment Anything Model(SAM)等;后者则包括能自动分解任务的 AutoGPT,以及斯坦福、谷歌等打造的多个智能体组成的「虚拟小镇」等。前段时间,特斯拉前 AI 总监、今年年初回归 OpenAI 的 Andrej Karpathy 在一次开发者活动上透露,OpenAI 也对 AI 智能体的发展产生了极大兴趣并寄予了厚望,每当有新的 AI 智能体论文出现时,OpenAI 内部就会非常感兴趣,并认真地进行讨论。

对于普通研究者、从业者来说,能够跟紧这些技术概念、趋势的应用和演变是推进手头工作的重要前提,也是一种寻找新灵感的方式。为此,7 月 25 日下午 14:00,阿里妈妈博见社将联合中国人民大学高瓴人工智能学院举办一场阿里妈妈 & 闲鱼技术节重磅活动,邀请包括窦志成、赵鑫、卢志武、徐君、祁琦、林衍凯、陈旭、李崇轩、黄文炳等在内的人大高瓴人工智能学院众多学者们,一起聊聊关于大模型的那些事。看看当下有哪些值得我们特别关注的技术点,大模型未来将如何发展,又将如何影响数智商业技术。

活动日程


嘉宾介绍

窦志成:中国人民大学高瓴人工智能学院副院长、教授、博士生导师,北京智源人工智能研究院 “智能信息检索与挖掘” 方向项目经理,中国计算机学会大数据专家委员会副秘书长,中国中文信息学会信息检索专委会副主任。2008 至 2014 年在微软亚洲研究院工作,2014 年开始在中国人民大学任教。主要研究方向为智能信息检索、自然语言处理、大数据分析。已在国际知名学术会议和期刊上(如 SIGIR、WWW、CIKM、WSDM、ACL、EMNLP、TKDE 等)发表论文 100 余篇,主持国家自然科学基金项目 3 项,科技部重点研发课题 2 项,企业合作课题 10 余项。获教育部自然科学奖一等奖,SIGIR 2013 最佳论文提名奖,AIRS 2012 最佳论文奖,CCIR 2021 最佳论文奖等奖项。曾担任信息检索领域顶级会议 SIGIR 的程序委员会主席(2019 短文),亚洲信息检索学术会议 AIRS 大会主席 (2016)、全国信息检索学术会议 CCIR 程序委员会主席 (2020)、大会主席(2023)等。任多个国际学术会议的(资深)程序委员会委员。

郑波:阿里妈妈及闲鱼 CTO,阿里妈妈首席科学家,CCF 计算经济学专业组执行委员,负责阿里妈妈广告技术事业部以及闲鱼的包括算法、机器学习、工程架构在内的整体技术工作。毕业于清华大学计算机系,2017 年加入阿里巴巴之前,在谷歌工作了 11 年,领导谷歌的展示广告算法团队以及中国地图团队。研究兴趣:主要研究方向为深度学习、展示和搜索广告算法、多模态以及引擎优化等领域。

赵鑫:现为中国人民大学高瓴人工智能学院教授。2014 年 7 月于北京大学获得博士学位,随后进入中国人民大学工作至今。研究领域为信息检索与自然语言处理,尤其是基于大语言模型的基础技术与应用研究,共计发表论文 100 余篇,谷歌学术引用 1 万余次,曾主导研发了伯乐(推荐系统库 RecBole)、妙笔(文本生成库 TextBox)等开源工具。荣获 2020 年吴文俊人工智能优秀青年奖、ECIR 2021 时间检验奖(Test of Time Award)、RecSys 2022 最佳学生论文提名(Best student paper runner-up)、CIKM 2022 最佳资源论文提名(Best resource paper runnerup)等,入选中国科协青年人才托举工程、北京智源青年科学家、CCF-IEEE CS 青年科学家。

卢志武:卢志武博士,中国人民大学高瓴人工智能学院教授,博士生导师。2005 年毕业于北京大学数学科学学院信息科学系,获理学硕士学位;2011 年毕业于香港城市大学计算机系,获 PhD 学位。主要研究方向包括机器学习、计算机视觉等。设计首个公开的中文通用图文预训练模型文澜 BriVL。以主要作者身份发表学术论文 90 余篇,其中在 Nat Commun、TPAMI、IJCV 等国际期刊和 ICML、ICLR、NeurIPS、CVPR、ICCV 等国际会议上发表论文 50 余篇。指导的学生获得 2021 年 CCF 优博、2021 年百度奖学金。担任 CCF 生物信息学专委会委员。担任 NeurIPS、ICML、ICLR、ICCV、CVPR、AAAI、IJCAI 等国际顶级会议的(资深)程序委员。

林衍凯:于 2014 年和 2019 年获得清华大学学士和博士学位。博士毕业后曾在腾讯微信担任高级研究员,于 2022 年加入中国人民大学,任助理教授。其主要研究方向为预训练模型、自然语言处理。曾在 ACL、EMNLP、NAACL、AAAI、IJCAI、NeurIPS 等自然语言处理和人工智能顶级国际会议上发表论文 40 余篇,Google Scholar 统计被引用次数达到 9000 余次,H-index 为 27。其知识指导的自然语言处理研究成果总结为《结构化知识表示学习方法》中的其中三项代表性工作并获评教育部自然科学一等奖,同时成果开源工具包 OpenKE、OpenNRE 在世界影响力最大的开源平台 Github 上获 6400 多个星标,成为国际上知识驱动的自然语言处理的主流工具。曾担任 EMNLP、ACL ARR 等会议的领域主席。

李崇轩:中国人民大学高瓴人工智能学院准聘助理教授,博士生导师。研究方向为概率机器学习。他的代表性工作有:一致性理论下最优的半监督 GAN 方法 Triple-GAN;扩散概率模型在最大似然意义下的最优反向方差估计 Analytic-DPM。李崇轩获机器学习领域重要国际会议 ICLR 2022 年杰出论文奖,2021 年吴文俊人工智能自然科学奖一等奖,2019 年中国计算机学会优秀博士论文和 2017 年微软学者。李崇轩入选 2021 年北京市科技新星,2019 年中国博士后创新人才支持计划,主持国家自然科学基金面上项目。

徐君:中国人民大学高瓴人工智能学院教授(长聘副教授)、中国人民大学杰出学者特聘教授、北京智源人工智能研究院智源学者。曾就职于微软亚洲研究院、华为诺亚方舟实验室(香港)和中国科学院计算技术研究所,于 2018 年 9 月加入中国人民大学工作至今。研究领域包括互联网搜索与推荐模型和系统,发表论文 100 余篇、专著 2 本、授权专利 10 余个,部分研究成果多次被欧美学者收录于信息检索教科书、应用于微软和华为的搜索和推荐产品。获 ACM SIGIR 2019 Test of Time Award Honorable Mention、CIKM 2017 Best Full Paper Runner-up、CCIR 2022、AIRS 2010 和 ICMLC 2005 最佳论文奖,获北京市自然科学奖二等奖(排名第 2)。主持国家重点研发和国家自然科学基金面上项目。

祁琦:中国人民大学高瓴人工智能学院长聘副教授,博导,国家海外高层次青年人才,CCF 中国计算机学会计算经济学专业组秘书长。博士毕业于美国斯坦福大学,导师叶荫宇教授。曾任香港科技大学助理教授、博导。主要研究方向为算法博弈论、机制设计、优化和多智能体系统。曾在国际一流计算机、人工智能、管理学期刊和会议上发表一作 / 通讯论文 40 余篇,包括 OR、MOR、GEB、TR-B 等著名期刊和 STOC、WINE、CCC、IJCAI、NeurIPS 等计算机顶级会议。主持国家高层次人才计划及多项香港科学基金研究项目。任多个国际人工智能、互联网和博弈领域会议的资深程序委员及会议联合主席。同时长期担任 10 多个国际一流期刊评审。科研成果也具备很强的应用价值,在互联网广告上的研究和应用成果获得了两项美国专利。

陈旭:博士毕业于清华大学,于 2020 年加入中国人民大学,任准聘助理教授。研究方向为推荐系统,强化学习,因果推断等。曾在 TheWebConf、AIJ、TKDE、SIGIR、WSDM、TOIS 等著名国际会议 / 期刊发表论文 60 余篇,Google Scholar 引用 4000 余次。他的研究在一定意义上推动了可解释用户行为分析的发展,研究成果曾获得 CCF A 类会议 TheWebConf 2018 优秀论文提名奖、CCF B 类会议 CIKM 2022 最佳资源论文 Runner Up 奖、亚洲著名信息检索会议 AIRS 2017 最佳论文奖等。同时,他也曾获 CCF 自然科学二等奖(排名第二),ACM - 北京新星奖(北京市三人),北京市优秀毕业生等。研究成果在多家企业落地,相关成果荣获华为 “创新先锋” 总裁奖。他主持 / 参与多项国家自然科学基金以及企业合作项目。

黄文炳:中国人民大学高瓴人工智能学院助理教授、博导。曾在清华大学智能产业研究院担任助理研究员,腾讯 AI Lab 担任高级研究员。研究方向包括几何机器学习理论方法,及其在智能药物发现、物理场景理解与模拟、智能体感知与决策等跨领域任务上的应用。代表性工作包括:训练深度图神经网络的方法 DropEdge;面向大规模图的图神经网络高效训练方法 AS-GCN;针对抗体生成的多通道等变注意力网络 MEAN。在人工智能领域顶级会议或期刊(NeurIPS、ICLR、TPAMI 等)发表论文 40 余篇,谷歌学术引用 6000 多次,单篇引用最高 900 多次。申请发明专利 10 余项,授权 5 项。曾获 ICLR 2023 杰出论文提名奖,腾讯犀牛鸟专项研究卓越奖、NeurIPS 2022 Open Catalyst 比赛冠军、IROS 2020 OCRTOC 机器人挑战赛季军、NeurIPS Outstanding Reviewer 等奖项。

相关文章
|
1天前
|
人工智能 移动开发 前端开发
WeaveFox:蚂蚁集团推出 AI 前端智能研发平台,能够根据设计图直接生成源代码,支持多种客户端和技术栈
蚂蚁团队推出的AI前端研发平台WeaveFox,能够根据设计图直接生成前端源代码,支持多种应用类型和技术栈,提升开发效率和质量。本文将详细介绍WeaveFox的功能、技术原理及应用场景。
103 66
WeaveFox:蚂蚁集团推出 AI 前端智能研发平台,能够根据设计图直接生成源代码,支持多种客户端和技术栈
|
11天前
|
人工智能 安全 数据安全/隐私保护
文档智能 & RAG让AI大模型更懂业务测评
文档智能 & RAG让AI大模型更懂业务
133 73
|
12天前
|
机器学习/深度学习 人工智能 UED
OOTDiffusion:开源AI虚拟试衣工具,智能适配性别和体型自动调整衣物
OOTDiffusion是一款开源的AI虚拟试衣工具,能够智能适配不同性别和体型,自动调整衣物尺寸和形状,生成自然贴合的试穿效果。该工具支持半身和全身试穿模式,操作简单,适合服装电商、时尚行业从业者及AI试穿技术爱好者使用。
98 27
OOTDiffusion:开源AI虚拟试衣工具,智能适配性别和体型自动调整衣物
|
1天前
|
人工智能
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。
30 16
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
谷歌最新推出的Gemini 2.0是一款原生多模态输入输出的AI模型,以Agent技术为核心,支持多种数据类型的输入与输出,具备强大的性能和多语言音频输出能力。本文将详细介绍Gemini 2.0的主要功能、技术原理及其在多个领域的应用场景。
111 20
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
|
10天前
|
人工智能 API 语音技术
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。
93 15
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
|
6天前
|
人工智能 数据库 自然语言处理
拥抱Data+AI|DMS+AnalyticDB助力钉钉AI助理,轻松玩转智能问数
「拥抱Data+AI」系列文章由阿里云瑶池数据库推出,基于真实客户案例,展示Data+AI行业解决方案。本文通过钉钉AI助理的实际应用,探讨如何利用阿里云Data+AI解决方案实现智能问数服务,使每个人都能拥有专属数据分析师,显著提升数据查询和分析效率。点击阅读详情。
拥抱Data+AI|DMS+AnalyticDB助力钉钉AI助理,轻松玩转智能问数
|
11天前
|
人工智能 自然语言处理 前端开发
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。
74 9
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
|
11天前
|
人工智能 安全 测试技术
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
EXAONE 3.5 是 LG AI 研究院推出的开源 AI 模型,擅长长文本处理,能够有效降低模型幻觉问题。该模型提供 24 亿、78 亿和 320 亿参数的三个版本,支持多步推理和检索增强生成技术,适用于多种应用场景。
62 9
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
|
7天前
|
机器学习/深度学习 人工智能 算法
Meta Motivo:Meta 推出能够控制数字智能体动作的 AI 模型,提升元宇宙互动体验的真实性
Meta Motivo 是 Meta 公司推出的 AI 模型,旨在控制数字智能体的全身动作,提升元宇宙体验的真实性。该模型通过无监督强化学习算法,能够实现零样本学习、行为模仿与生成、多任务泛化等功能,适用于机器人控制、虚拟助手、游戏角色动画等多个应用场景。
35 4
Meta Motivo:Meta 推出能够控制数字智能体动作的 AI 模型,提升元宇宙互动体验的真实性
下一篇
DataWorks