如何拥抱大模型时代?向量数据库公司 Zilliz 从挖掘海量数据规律谈起

简介: 极客公园创新大会 2024 在北京闭幕。百度李彦宏、美国国家工程院院士张宏江、Google DeepMind 卢一峰、百川智能王小川、小鹏汽车何小鹏、向量数据库公司 Zilliz 栾小凡、钉钉叶军等 16 位创新者先后登台。

近期,极客公园创新大会 2024 在北京闭幕。百度李彦宏、美国国家工程院院士张宏江、Google DeepMind 卢一峰、百川智能王小川、小鹏汽车何小鹏、向量数据库公司 Zilliz 栾小凡、钉钉叶军等 16 位创新者先后登台。

现场,嘉宾们分享了在大模型时代,AI 技术还将向哪些方向发展,产品和应用如何寻求转型,什么样的创业者和产品经理才能在新的 AI 时代成功,以及 AI 将对人类自身带来哪些深远影响。

其中,Zilliz 合伙人兼技术总监栾小凡表示,数据代表秩序,无论是搜索还是生成,本质都是利用大模型挖掘数据背后的规律。

栾小凡现场做了这样的一个比喻:数字宇宙是一片无边无际的数据和信息海洋,它的广阔仿佛无垠的星空。在这个充满混沌的环境里,工程师和科学家们一直在寻找导航、搜索、压缩和生成有意义内容的方法。这项任务的难度,就如同在浩瀚的宇宙中寻找一颗特定的星球。

毫无疑问,Zilliz 的工程师正是在人工智能系统中通过【概率】去创造混沌中的秩序,而概率是信息检索的基石。早期的信息检索系统主要依赖关键词匹配,但这种方法无法处理近义词和多义词,也难以处理不完整的查询,更不用说理解用户查询背后的真正意图了。近年来,随着概率模型和神经网络的引入,信息检索系统的质量和用户体验都得到了显著提升。人工智能增强搜索可以帮助人们在数字宇宙的混沌中找到秩序,从海量非结构化的数据中检索到价值信息。

提及产品转型,栾小凡以 Zilliz 团队为例,讲述了团队重做产品架构的故事。重做架构的原因有 5 点:首先,如何将产品与云基础设施结合?其次,很重要的点就是随着数据量的增大,原有的系统架构已经无法承载用户的数据,分布式系统就显得尤为重要。再者,如何与公共云结合。2021年,K8S 已经非常成熟的一个系统了,所以团队就一直在思考怎么能用 K8S 更好的去跑一个无状态的数据库。此外,对 AIGC 的使用场景中,Serverless 是非常重要的一个点。因为绝大多数的大模型都是 API 的 service,所以对于广大的开发者来讲,他们不希望自己去维护底层的基础设施。最后,情怀。抛开商业因素,Zilliz 希望做一款顶尖的数据库产品,希望可以做成一款分布式的向量数据库,结果也确实做出来了。

最后,栾小凡提到,如果将辽阔的非结构化数据视为浩瀚的星空,那么 Zilliz 就像一艘穿梭在星际的飞船,概率就是指引我们在这片星空中洞悉数据背后价值的罗盘。大模型之大,不仅在于模型参数增加带来的拟合能力变强,更在于训练数据增加使得模型对于数据的概率分布理解变得更加精准。



http://www.cnaifm.com/rgzn/jqr/2024-01-05/12032.html

http://www.cnaifm.com/news/2024-01-05/12030.html

http://www.cnaifm.com/zhinengjiaju/2024-01-05/12029.html

http://www.cnaifm.com/itsm/2024-01-05/12028.html

http://www.cnaifm.com/rgzn/wrj/2024-01-05/12027.html

http://www.cnaifm.com/ckj/2024-01-05/12024.html

http://www.cnaifm.com/rgzn/wrj/2024-01-05/12023.html

http://www.cnaifm.com/jpdg/2024-01-05/12021.html

相关实践学习
使用CLup和iSCSI共享盘快速体验PolarDB for PostgtreSQL
在Clup云管控平台中快速体验创建与管理在iSCSI共享盘上的PolarDB for PostgtreSQL。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
2天前
|
机器学习/深度学习 自然语言处理 API
大模型应用框架-LangChain(一)
LangChain由 Harrison Chase 创建于2022年10月,它是围绕LLMs(大语言模型)建立的一个框架,LLMs使用机器学习算法和海量数据来分析和理解自然语言,GPT3.5、GPT4是LLMs最先进的代表,国内百度的文心一言、阿里的通义千问也属于LLMs。LangChain自身并不开发LLMs,它的核心理念是为各种LLMs实现通用的接口,把LLMs相关的组件“链接”在一起,简化LLMs应用的开发难度,方便开发者快速地开发复杂的LLMs应用。 LangChain目前有两个语言的实现:python、nodejs。
|
1月前
|
存储 机器学习/深度学习 人工智能
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
|
26天前
|
Java 程序员 API
全民上手大模型--ollama+langchain+通义千问零费用java+python跑通本机大模型
全民上手大模型--ollama+langchain+通义千问零费用java+python跑通本机大模型
317 0
|
1月前
|
自然语言处理 API 开发工具
基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手(检索增强生成(RAG)大模型)
基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手(检索增强生成(RAG)大模型)
基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手(检索增强生成(RAG)大模型)
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
【LangChain系列】第五篇:大语言模型中的提示词,模型及输出简介及实践
【5月更文挑战第19天】LangChain是一个Python库,简化了与大型语言模型(LLM)如GPT-3.5-turbo的交互。通过ChatOpenAI类,开发者可以创建确定性输出的应用。提示词是指导LLM执行任务的关键,ChatPromptTemplate允许创建可重用的提示模板。输出解析器如StructuredOutputParser将模型的响应转化为结构化数据,便于应用处理。LangChain提供可重用性、一致性、可扩展性,并有一系列预建功能。它使得利用LLM构建复杂、直观的应用变得更加容易。
109 0
|
1月前
|
算法 数据库 Docker
大模型必备向量数据库-Milvus的安装过程
大模型必备向量数据库-Milvus的安装过程
78 0
|
1月前
|
存储 人工智能 数据库
【AI大模型应用开发】以LangChain为例:从短期记忆实战,到如何让AI应用保持长期记忆的探索
【AI大模型应用开发】以LangChain为例:从短期记忆实战,到如何让AI应用保持长期记忆的探索
251 0
|
1月前
|
人工智能 API
【AI大模型应用开发】【LangChain系列】实战案例6:利用大模型进行文本总结的方法探索,文本Token超限怎么办?
【AI大模型应用开发】【LangChain系列】实战案例6:利用大模型进行文本总结的方法探索,文本Token超限怎么办?
123 0
|
1月前
|
存储 人工智能 数据库
【AI大模型应用开发】【LangChain系列】10. 实用技巧:如何使用已经存在的向量数据库作为 Retriever?
【AI大模型应用开发】【LangChain系列】10. 实用技巧:如何使用已经存在的向量数据库作为 Retriever?
103 0
|
1月前
|
人工智能
【AI大模型应用开发】【LangChain系列】实战案例5:用LangChain实现灵活的Agents+RAG,该查时查,不该查时就别查
【AI大模型应用开发】【LangChain系列】实战案例5:用LangChain实现灵活的Agents+RAG,该查时查,不该查时就别查
104 0

热门文章

最新文章