langchain 入门指南 - 文本分片及向量化

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
简介: langchain 入门指南 - 文本分片及向量化

前面的内容中关于数据或者上下文的传递我们都是通过 Prompt 来完成的,而这样我们会面临以下挑战:

  1. Prompt 的内容大小限制:成本,处理耗时
  2. 使用大量数据的成本
  3. 并非所有数据都会用于解决当前问题

解决大量数据/文本的设想 - 分治

分割成数据块 -> 选取相关数据块(多次) -> 发送至大模型

如何根据用户的问题选择相关的数据块?

有一种办法就是:使用语义检索。(不同于关键词检索,关键词检索是要严格匹配上关键词才能检索,但语义检索可以检索到相关的文本)

语义检索是一种基于文本内容和意义的信息检索方法,它试图理解查询和文档的语义,

以便更准确地找到与查询相关地文档。

向量化(embedding) 是将文本数据转换为数值向量的过程。向量化后的文本可以用于计算文本之间的相似性,

如余弦相似度、欧几里得距离等度量。这使得语义检索能够根据查询和文档之间的语义相似性来对文档进行排序和检索,从而提高检索的准确性和效率。

embedding 示例 - 计算相似性

下面的例子中,我们会看到 np.dot(embedding1, embedding3) 的值是最大的,这说明 sentence1sentence3 的相似性最高。

from langchain_openai import OpenAIEmbeddings
import os
os.environ['OPENAI_API_KEY'] = "your key"
os.environ['OPENAI_BASE_URL'] = "https://api.openai-hk.com/v1"
embedding = OpenAIEmbeddings()
sentence1 = "我是一名软件工程师"
sentence2 = "小张从事法律工作"
sentence3 = "我是一名程序员"
embedding1 = embedding.embed_query(sentence1)
embedding2 = embedding.embed_query(sentence2)
embedding3 = embedding.embed_query(sentence3)
import numpy as np
print(np.dot(embedding1, embedding2))
print(np.dot(embedding1, embedding3))
print(np.dot(embedding2, embedding3))

输出:

0.7987314936103257
0.9586440032651322
0.7990728512968016

numpy.dot 方法用于在机器学习中衡量两个向量的相似度。点积越大,两个向量越相似。

处理大文本

我们可以使用如下函数对我们的文本进行切割:

def split_file_into_chunks(file_path, chunk_size):
    chunks = []
    with open(file_path, 'r', encoding='utf-8') as file:
        while True:
            chunk = file.read(chunk_size)
            if not chunk:
                break
            chunks.append(chunk)
    return chunks
print(split_file_into_chunks('service_design.txt', 100))

向量化

然后,我们可以对每个文本块进行向量化:

from langchain_openai import OpenAIEmbeddings
def embed(chunks):
    embedding = OpenAIEmbeddings()
    return [embedding.embed_query(chunk) for chunk in chunks]
embeddings = embed(split_file_into_chunks('service_design.txt', 100))

向量检索

最后,我们可以使用向量检索来找到与查询最相关的文本块:

def find_k_largest_indices(input_list, k):
    """
    input_list: 点积列表
    k: 返回前 k 个最大值的索引
    """
    sorted_indices = sorted(range(len(input_list)), key=lambda i: input_list[i], reverse=True)
    print(input_list)
    print(sorted_indices)
    return sorted_indices[:k]
def search(chunks, embeddings, top_k, txt):
    import numpy as np
    embedding = OpenAIEmbeddings(chunk_size=1)
    embedded_text = embedding.embed_query(txt)
    # 计算输入文本与每个分块的相似度
    distances = [np.dot(embedded_text, emb) for emb in embeddings]
    # 返回前 k 个最相似的分块的索引
    ret_idx = find_k_largest_indices(distances, top_k)
    return [chunks[i] for i in ret_idx]
print(search(split_file_into_chunks('service_design.txt', 100), embeddings, 3, "字段长度"))

使用向量检索到的块来作为 prompt

上面通过向量检索拿到相关的文本块之后,我们可以将这一小部分文本块作为上下文传递给大模型。

然后就可以大模型就可以根据这些文本块来回答用户的问题。

这个时候,你就可以针对你的文档内容提问题了。

from openai import OpenAI
client = OpenAI(
  api_key="your key",
  base_url="https://api.openai-hk.com/v1"
)
def answer_question_with_doc(question, chunks, embeddeds):
    relevent_chunks = search(chunks, embeddeds, 2, question)
    prompt = """
    仅通过总结以下的文字片段回答用户问题,注意保持回答的语义通顺(字数在 30 字以内)
    ---
    """
    for chunks in relevent_chunks:
        prompt = prompt + "\n'" + chunks + "'"
    response = client.chat.completions.create(
        model="gpt-3.5-turbo",
        messages=[
            {"role": "system", "content": prompt},
            {"role": "user", "content": question}
        ],
        temperature=0.9,
        max_tokens=200
    )
    return response.choices[0].message.content
print(answer_question_with_doc("如何做字段取舍", split_chunks, embeddings))

输出:

尽可能减少字段暴露,考虑敏感信息如客户地址、手机号等,斟酌是否必要暴露,若必需则考虑脱敏和加解密。

总结

在本文中,我们讨论了如何通过对文本进行切割,然后对这些文本块进行向量化处理,

最后,再对这些文本块做向量化搜索,以找到与查询最相关的文本块。

在搜索到相关的文本块之后,我们可以将这些文本块作为上下文传递给大模型,以回答用户的问题。

优点:

  1. 不用传递大量的文本作为上下文给大模型。节省成本的同时也减少了大模型的处理时间。


相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
目录
相关文章
|
3月前
|
前端开发 机器人 API
前端大模型入门(一):用 js+langchain 构建基于 LLM 的应用
本文介绍了大语言模型(LLM)的HTTP API流式调用机制及其在前端的实现方法。通过流式调用,服务器可以逐步发送生成的文本内容,前端则实时处理并展示这些数据块,从而提升用户体验和实时性。文章详细讲解了如何使用`fetch`发起流式请求、处理响应流数据、逐步更新界面、处理中断和错误,以及优化用户交互。流式调用特别适用于聊天机器人、搜索建议等应用场景,能够显著减少用户的等待时间,增强交互性。
848 2
|
3月前
|
人工智能 前端开发 JavaScript
前端大模型入门(二):掌握langchain的核心Runnable接口
Langchain.js 是 Langchain 框架的 JavaScript 版本,专为前端和后端 JavaScript 环境设计。最新 v0.3 版本引入了强大的 Runnable 接口,支持灵活的执行方式和异步操作,方便与不同模型和逻辑集成。本文将详细介绍 Runnable 接口,并通过实现自定义 Runnable 来帮助前端人员快速上手。
|
3月前
|
JSON 数据格式
LangChain-20 Document Loader 文件加载 加载MD DOCX EXCEL PPT PDF HTML JSON 等多种文件格式 后续可通过FAISS向量化 增强检索
LangChain-20 Document Loader 文件加载 加载MD DOCX EXCEL PPT PDF HTML JSON 等多种文件格式 后续可通过FAISS向量化 增强检索
232 2
|
3月前
|
存储 人工智能 安全
LangChain-23 Vector stores 向量化存储 并附带一个实际案例 通过Loader加载 Embedding后持久化 LangChain ChatOpenAI ChatGLM3对话
LangChain-23 Vector stores 向量化存储 并附带一个实际案例 通过Loader加载 Embedding后持久化 LangChain ChatOpenAI ChatGLM3对话
136 0
|
3月前
|
机器学习/深度学习 存储 自然语言处理
LangChain-22 Text Embedding 续接21节 文本切分后 对文本进行embedding向量化处理 后续可保存到向量数据库后进行检索 从而扩展大模型的能力
LangChain-22 Text Embedding 续接21节 文本切分后 对文本进行embedding向量化处理 后续可保存到向量数据库后进行检索 从而扩展大模型的能力
82 0
|
5月前
|
存储 机器学习/深度学习 传感器
langchain 入门指南 - 实现一个多模态 chatbot
langchain 入门指南 - 实现一个多模态 chatbot
155 0
|
5月前
|
前端开发 人机交互
langchain 入门指南 - ReAct 模式
langchain 入门指南 - ReAct 模式
141 1
|
5月前
|
JSON Go 数据格式
langchain 入门指南 - 让 LLM 自动选择不同的 Prompt
langchain 入门指南 - 让 LLM 自动选择不同的 Prompt
142 0
|
5月前
|
JSON Go 网络架构
langchain 入门指南 - 自动选择不同的大模型
langchain 入门指南 - 自动选择不同的大模型
195 0
|
5月前
|
机器学习/深度学习 存储 测试技术
langchain 入门指南 - 如何做好 Prompt
langchain 入门指南 - 如何做好 Prompt
66 0