大讲堂 | 可扩展的端到端谱聚类 (Oral Paper, Wu et al, KDD 2018)

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 在本次公开课中,我将分享其关于我们开发可扩展的端到端的谱聚类新方法的最新研究工作。我们提出的方法可以同时加速数据到图的构建和大矩阵特征分解,使得传统的谱聚类可以

雷锋网(公众号:雷锋网)AI研习社讯:谱聚类是数据聚类研究领域里最有效的方法之一,从90年底被提出至今,二十年来一直受到学术界的广泛关注。谱聚类有着非常广泛的实际应用,是最基本的数据分析工具之一。但是谱聚类一直以来最大的缺点在于对大数据的可扩展性,使得其很难适应今天大数据的时代。在本次公开课中,我将分享其关于我们开发可扩展的端到端的谱聚类新方法的最新研究工作。我们提出的方法可以同时加速数据到图的构建和大矩阵特征分解,使得传统的谱聚类可以重新得力。在对大数据的处理上,我们的新提出谱聚类的方法的效果和效率上都比其他类似方法更优。

分享主题

可扩展的端到端谱聚类 (Oral Paper, Wu et al, KDD 2018)

分享嘉宾

吴凌飞,IBM全球研究院总部(IBM T.J. Watson Research Center) 研究员 , 威廉玛丽大学计算机系博士,主要研究方向为机器学习,深度学习,表征学习,自然语言处理,大数据。吴博士已经发表20几篇顶尖杂志和会议,包含但不局限于KDD, ICDM, AISTATS, EMNLP, AAAI, ICASSP, SC, SIAM Journal on Scientific Computing, IEEE Transaction on Big Data, and Journal of Computational Physics。吴博士同时也是13项美国专利的发明人。

分享提纲

1、谱聚类的应用,挑战,和当前的方法利弊比较。

2、重点介绍我们新提出方法SC_RB的两个重点模块,Random Binning核近似技术 (Wu et al., KDD 2016),和目前最好的大矩阵特征分解软件 PRIMME (Wu et al., SISC 2015,Wu et al., SISC 2017)。

3、介绍基于Random Binning 和 PRIMME的SC_RB (Wu et al, KDD 2018),最新的端到端的谱聚类方法。

分享时间

(北京时间 )  10 月 22 日(星期一)  10:00

错过直播不要紧,回放视频上传后也能继续看哦~

直播链接

http://www.mooc.ai/open/course/579

TB19YCvjHvpK1RjSZPiXXbmwXXa.jpg

想了解更多雷锋网 AI 研习社直播?

欢迎移步雷锋网 AI 研习社社区~

雷锋网版权文章,未经授权禁止转载。详情见转载须知。

TB1rswzixTpK1RjSZFKXXa2wXXa.jpg
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
4月前
|
机器学习/深度学习 自然语言处理 算法
ICML 2024 Oral:DPO是否比PPO更适合LLM,清华吴翼团队最新揭秘
【8月更文挑战第13天】在自然语言处理领域,大型语言模型的对齐日益重要。直接偏好优化(DPO)作为无需奖励模型的新方法,虽在学术界受关注,但在实践中,如ChatGPT等应用仍青睐近端策略优化(PPO)。清华大学吴翼团队通过理论分析与实证研究发现DPO潜在局限性,并揭示PPO在LLM微调中取得优异性能的关键因素,如优势归一化、大批量大小及指数移动平均更新等。实验表明,PPO在多个任务中超越DPO,特别是在代码生成任务中取得领先成果。然而,这些发现需更多研究验证。论文详情见: https://arxiv.org/pdf/2404.10719
173 60
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
【CVPR2024】阿里云人工智能平台PAI图像编辑算法论文入选CVPR2024
近期,阿里云人工智能平台PAI发表的图像编辑算法论文在CVPR-2024上正式亮相发表。论文成果是阿里云与华南理工大学贾奎教授领衔的团队共同研发。此次入选标志着阿里云人工智能平台PAI自主研发的图像编辑算法达到了先进水平,赢得了国际学术界的认可。在阿里云人工智能平台PAI算法团队和华南理工大学的老师学生们一同的坚持和热情下,将阿里云在图像生成与编辑领域的先进理念得以通过学术论文和会议的形式,向业界传递和展现。
|
7月前
|
机器学习/深度学习 人工智能 算法
AI+组合优化 |机器学习顶会ICLR/ICML/NeurIPS'23最新进展-MIP求解篇(附原文源码)
本文梳理了ICLR 2023、ICML 2023、NeurIPS 2023有关机器学习+混合整数规划问题求解加速求解加速的研究成果,总共包含8篇文章。
802 0
|
机器学习/深度学习 自然语言处理 数据可视化
CVPR 2022 Oral | 视频文本预训练新SOTA!港大、腾讯ARC Lab推出基于多项选择题的借口任务(2)
CVPR 2022 Oral | 视频文本预训练新SOTA!港大、腾讯ARC Lab推出基于多项选择题的借口任务
134 0
|
机器学习/深度学习 自然语言处理 算法
ICLR 2023 Spotlight | Yoshua Bengio团队新作,生成拓展流网络
ICLR 2023 Spotlight | Yoshua Bengio团队新作,生成拓展流网络
139 0
|
机器学习/深度学习 自然语言处理 算法
CVPR2022 oral | MetaFormer才是探索Transformer的源泉,衍生PoolFormer速度喜人(一)
CVPR2022 oral | MetaFormer才是探索Transformer的源泉,衍生PoolFormer速度喜人(一)
138 0
|
机器学习/深度学习 人工智能 PyTorch
CVPR2022 oral | MetaFormer才是探索Transformer的源泉,衍生PoolFormer速度喜人(二)
CVPR2022 oral | MetaFormer才是探索Transformer的源泉,衍生PoolFormer速度喜人(二)
115 0
|
自然语言处理 计算机视觉
CVPR 2022 Oral | 视频文本预训练新SOTA!港大、腾讯ARC Lab推出基于多项选择题的借口任务(1)
CVPR 2022 Oral | 视频文本预训练新SOTA!港大、腾讯ARC Lab推出基于多项选择题的借口任务
|
机器学习/深度学习 算法 网络架构
特拉维夫大学把StyleGAN进行了大汇总,全面了解SOTA方法、架构新进展
特拉维夫大学把StyleGAN进行了大汇总,全面了解SOTA方法、架构新进展
151 0
|
机器学习/深度学习 人工智能 算法
AAAI,ICML,CVPR,NeurIPS...31篇国际七大AI顶会2021年度Best Papers 一文回顾(3)
AAAI,ICML,CVPR,NeurIPS...31篇国际七大AI顶会2021年度Best Papers 一文回顾
227 0