阿里云开发者社区 x 达摩院 x计算平台事业部 大数据 + AI向量检索专场Meetup回顾(内含讲师PPT领取)

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 阿里云开发者社区 x 达摩院 x计算平台事业部 大数据 + AI向量检索专场。来自,阿里巴巴、爱奇艺、Zilliz、搜狐、Jina.AI等公司的九位重量级讲师在现场分享了他们前沿的向量检索技术思考与实践沉淀总结,快来领取讲师精彩ppt!

BigData+AI_Meetup_S04_KV 1920_1080@2x.png

​数据形态的衍生和数据规模的磅礴增长,
让向量检索成为了 AI 技术链路中重要一环;
数据本身是没有意义的,
唯有发现、检索、匹配与运用
才能赋予它们生机。
2021年3月20日,
达摩院领航,
阿里云开发者社区及阿里云计算平台事业部支持的
大数据+AI meetup 向量检索专场
在北京重磅启航,
开启了2021年开发者之间的技术交流旅程。

聚焦于向量检索技术的发展,来自阿里巴巴、爱奇艺、Zilliz、搜狐、Jina.AI、AI四小龙之一某公司的九位重量级讲师在现场分享了他们前沿的向量检索技术思考与实践沉淀总结,为线下到场和线上的观众深刻解读了向量检索的发展及未来,以及落地在广告搜索推荐、图片搜索、视频推荐、文本处理等业务场景的解决方案新思考。在现场,讲师们优质的分享内容与生动的案例讲解更是引发了现场观众的积极互动。

本次会议线上回看地址:https://developer.aliyun.com/live/246509


###现场掠影

导师合影.JPG

现场讲师合影

瑞德演讲.JPG
现场观众.JPG

现场听众倾听讲师讲解


讨论.JPG

茶歇间隙围绕讲师热烈讨论


议题回顾

图片 1.png

会议出品人开场——《向量检索的过去,现在,和未来》

  • 议题简介:

浅谈向量检索的技术背景和应用,揭秘向量检索的核心挑战和未来发展趋势

  • 出品人简介:

王绍翾,达摩院机器智能实验室资深技术专家。

阿里花名"大沙",毕业于北京大学,在加州大学获得计算机工程博士学位。毕业后曾在 Facebook 开发分布式图关系数据库TAO。2015 年加入阿里巴巴集团,先后就职于搜索事业部,计算平台事业部,目前是达摩院机器智能系统AI实验室的负责人,主要负责达摩院的AI Engineering的体系建设,包括高性能训练,推理,向量检索等等核心引擎的研发,以及视觉,NLP,决策等算法能力的开放平台建设和商业化落地。在搜索和计算平台事业部,王绍翾主要负责阿里新一代实时计算平台Blink/Flink的研发工作,他是国内最早期的Apache Flink的committer和PMC。

图片 2.png

2、《爱奇艺在推荐领域的向量检索技术实践》

  • 议题简介:

在推荐算法领域,召回-粗排-精排是成熟稳定的系统方案。而传统过滤/模式匹配的召回算法在个性化、实时、智能推荐的需求上力不从心,对快速增加的各种非数值类特性和海量数据的处理无能为力,同时在线的推理过程对性能又提出了严苛的要求。我们结合 Youtube DNN 等多种向量召回模型与重排序的需求,探索了数种向量检索的服务的技术与产品,结合这些技术 和 Tensorflow Serving,完成广告、搜索、视频推荐等业务在爱奇艺的召回基础服务。

  • 嘉宾简介:

张吉,爱奇艺深度学习云研发工程师。

图片 3.png

3、《Milvus——开源向量搜索引擎》

  • 议题简介:

随着深度学习技术的成熟,人们尝试利用AI技术挖掘非结构化数据(图片,视频,自然语言文本等)中潜藏的价值。由此,人们对特征向量数据的分析处理需求大幅增长。然而通过现有的数据库组件和大数据技术来支撑这样的新型应用场景,却面临开发困难、运行成本高昂的挑战。
为了帮助克服现有技术的局限性,我们发起了 Milvus 开源向量数据库项目。作为一个开源AI基础组件,Milvus 加快了企业开发AI应用的速度、大幅降了AI应用的部署成本。

  • 嘉宾简介:

顾钧,Zilliz高级架构师&合伙人
北大毕业16年以来始终专注于数据库、大数据技术,尤其对OLTP平台与场景有着丰富的经验。顾钧现后任职于工商银行,IBM,摩根士丹利,华为等企业。加入Zilliz以后,顾钧的工作重心在于开源社区的构建与推广。同时,顾钧代表Zilliz出席LF AI & Data基金会中的技术咨询委员会。

图片 4.png

4、《MIND - 基于动态路由的用户多向量召回》

  • 议题简介:

手淘首页的推荐面临着两个极具挑战性的问题。一是业务数据量巨大, 包括十亿级的用户和商品; 二是首页开屏即现, 对算法的响应时间有严格要求。在实际实践中, 我们将推荐系统拆分为召回与排序两个子系统。其中, 召回系统从海量的候选商品中挑选出与用户兴趣相关的商品集合, 排序系统对该商品集合中的每一个商品依据业务目标进行打分, 打分较高的商品作为推荐结果展示给用户。推荐算法的效果同时受到两个子系统的影响, 召回作为算法的前置环节, 更是决定了整个系统的效果上限。本次分享中, 我们将分享 MIND 召回算法及其系统架构设计。

  • 嘉宾简介:

睿德,淘系技术部高级算法专家。从事推荐技术召回, 排序算法的开发。

图片 5.png


5、《Jina:云原生开源神经搜索框架》

  • 议题简介:

随着信息规模的爆炸式增长和数据类型的日益丰富,基于符号的传统搜索逐渐无法满足用户的需求。得益于深度学习技术的发展,神经搜索系统应运而生。但是,在搭建和维护神经搜索系统的过程中,工程团队不仅需要具备分布式架构的经验,更需要熟悉多个软件框架和理解不同AI算法。针对这个痛点,Jina提供覆盖搜索全链路的一站式云原生开源解决方案。在本次报告中,我们将分享Jina的设计思想和主要特点,并展示如何使用Jina搭建神经搜索系统。

  • 嘉宾简介:

王楠,博士,Jina AI联合创始人兼CTO。
专注于机器学习和深度学习算法在NLP和搜索领域的实际应用。作为开源神经搜索框架jina的核心贡献者,热衷于开源软件和云原生技术。

图片 6.png
6、《高性能高维向量计算》

  • 议题简介:

在深度学习流行的当下,向量计算已经成为 AI 工程的基石,无论是人脸比对、图像搜索、推荐、智能问答都涉及到海量高维向量的计算。检索和聚类是其中两个典型的计算场景,面向海量向量的检索通常采用 ANN 一簇算法解决,无监督聚类算法也正在蓬勃发展;除开算法,工程架构上的挑战也是巨大的,比如怎样适配端侧设备、国产芯片等异构计算环境。本次演讲,我们会分享云从在大规模人脸比对领域上的实践心得,探讨向量计算未来的发展方向。

  • 嘉宾简介:

杨杰,国内某AI四小龙之一数据研究院技术总监。
在云从主要负责 KaaS 平台(向量计算、知识图谱、搜索等技术方向)研发,在AI工程化方面有深厚的积累。互联网行业历练技术十余年,有丰富的搜索、推荐系统研发经验。

图片 7.png
7、《达摩院 Proxima 向量检索技术揭秘》

  • 议题简介:

淘宝搜索推荐、蚂蚁人脸支付背后的检索技术,达摩院向量检索引擎 Proxima 揭秘。Proxima 是阿里巴巴达摩院系统 AI 实验室自研的向量检索内核,广泛应用于阿里巴巴和蚂蚁集团内,为淘宝搜索和推荐、蚂蚁人脸支付、优酷视频搜索、阿里妈妈广告检索等核心业务提供核心检索能力。并深度集成在阿里云 Hologres、搜索引擎 Elastic Search 和 ZSearch、离线引擎 MaxCompute (ODPS) 等大数据和数据库产品中

  • 嘉宾简介:

肖允锋(鹤冲),达摩院机器智能实验室资深技术专家。
毕业于中山大学物理系,曾就职于电信研究院和腾讯科技,从事大数据搜索技术相关研究和应用十余载,是阿里巴巴达摩院 Proxima AI 检索引擎的总设计者和技术带头人。目前,Proxima 相关技术广泛应用于阿里巴巴和蚂蚁金服各大业务,算法和工程在业内具有一定的领先性。

图片 8.png
8、《基于语义向量的内容召回和短文本分类的文本标注-搜狐的 Mlivus 实战》

  • 议题简介:

得益于 Mlivus 向量搜索工具的高效部署,在处理海量数据时准确快速,本次演讲中,我们将分享利用 Milvus 向量搜索工具解决语义向量召回时的向量搜索问题和短新闻文本分类时文本的标注问题。

  • 嘉宾简介:

王婷婷,搜狐自然语言处理工程师。
在搜狐主要从事基于内容的语义向量召回,文本分类,文本摘要,新闻聚类,新闻关键词提取等相关工作。

图片 9.png
9、《云上个性化推荐—— 基于 PAI 和 Hologres 的个性化推荐最佳实践》

  • 议题简介:

常见的个性化推荐系统包括日志收集,数据加工,召回,排序,离在线效果评估等诸多环节,对于中小客户存在技术门槛高,搭建周期长等问题。计算平台基于 PAI,Hologres,MaxCompute,DataWorks 平台产品,可以帮助客户快速搭建个性化推荐解决方案。本次分享,主要从计算平台的推荐系统整体解决方案出发,重点介绍基于PAI的向量召回算法和 Hologres 向量检索的整体架构,以及该架构在某社交 APP 的落地案例和效果分享。

  • 嘉宾简介:

天邑,阿里云计算平台高级算法工程师
主要从事基于PAI平台的召回和排序算法研发,及基于云产品的推荐系统解决方案研发,赋能客户个性化推荐解决方案落地。


福利时间

扫描下方二维码关注“AI检索技术博客“公众号,

回复“320”即可领取本次meetup讲师全部PPT!

qrcode_for_gh_e1b0e5dea42d_430.jpg

本站meetup落下帷幕,
但开发者们对于技术的热爱与探讨仍将延续;
向量检索技术的热度仍未休减,
将持续融入更多业务生态中,
助力产业创新的发展。
在今后,
达摩院将邀请 AI 检索领域更多的开发者
定期举办具有学习价值的Meetup活动。

扫描上方二维码
关注“AI检索技术博客”公众号,第一时间获取相关Meetup资讯以及精彩技术文章!

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
26天前
|
人工智能 Cloud Native 数据管理
媒体声音|重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
在2024云栖大会上,阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户高效提取和分析元数据,提升业务决策效率10倍。DMS已服务超10万企业客户,降低数据管理成本高达90%。
104 19
|
22天前
|
存储 人工智能 分布式计算
大数据& AI 产品月刊【2024年10月】
大数据& AI 产品技术月刊【2024年10月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
2月前
|
机器学习/深度学习 人工智能 运维
智能运维:大数据与AI的融合之道###
【10月更文挑战第20天】 运维领域正经历一场静悄悄的变革,大数据与人工智能的深度融合正重塑着传统的运维模式。本文探讨了智能运维如何借助大数据分析和机器学习算法,实现从被动响应到主动预防的转变,提升系统稳定性和效率的同时,降低了运维成本。通过实例解析,揭示智能运维在现代IT架构中的核心价值,为读者提供一份关于未来运维趋势的深刻洞察。 ###
87 10
|
28天前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
3月前
|
人工智能 Cloud Native Serverless
2024云栖大会资料精选,《云原生+AI核心技术&最佳实践》PPT全量放送!
关注阿里云云原生公众号,后台回复:2024 云栖大会,即可免费下载云原生云栖大会核心资料合集。
1229 35
|
2月前
|
人工智能 分布式计算 大数据
大数据&AI产品月刊【2024年9月】
大数据& AI 产品技术月刊【2024年9月】,涵盖本月技术速递、2024云栖大会实录、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
3月前
|
人工智能 分布式计算 DataWorks
连续四年!阿里云领跑中国公有云大数据平台
近日,国际数据公司(IDC)发布《中国大数据平台市场份额,2023:数智融合时代的真正到来》报告——2023年中国大数据平台公有云服务市场规模达72.2亿元人民币,其中阿里巴巴市场份额保持领先,占比达40.2%,连续四年排名第一。
227 12
|
3月前
|
SQL 人工智能 大数据
阿里云牵头起草!首个大数据批流融合国家标准发布
近日,国家市场监督管理总局、国家标准化管理委员会正式发布大数据领域首个批流融合国家标准GB/T 44216-2024《信息技术 大数据 批流融合计算技术要求》,该标准由阿里云牵头起草,并将于2025年2月1日起正式实施。
90 7
|
3月前
|
SQL 人工智能 大数据
首个大数据批流融合国家标准正式发布,阿里云为牵头起草单位!
近日,国家市场监督管理总局、国家标准化管理委员会正式发布大数据领域首个批流融合国家标准 GB/T 44216-2024《信息技术 大数据 批流融合计算技术要求》,该标准由阿里云牵头起草,并将于2025年2月1日起正式实施。
|
7月前
|
Shell Android开发
Android系统 adb shell push/pull 禁止特定文件
Android系统 adb shell push/pull 禁止特定文件
562 1