【AI大模型应用开发】【LangChain系列】实战案例2:通过URL加载网页内容 - LangChain对爬虫功能的封装

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
简介: 【AI大模型应用开发】【LangChain系列】实战案例2:通过URL加载网页内容 - LangChain对爬虫功能的封装
  • 大家好,我是同学小张,日常分享AI知识和实战案例
  • 欢迎 点赞 + 关注 👏,持续学习持续干货输出
  • +v: jasper_8017 一起交流💬,一起进步💪。
  • 微信公众号也可搜【同学小张】 🙏

本站文章一览:


Web检索是AI大模型应用的一个热门应用方向。其涉及的主要步骤如下:

参考:https://python.langchain.com/docs/use_cases/web_scraping

(1)用户提问,联网检索

(2)通过URLs记载网页HTML数据

(3)加载到的数据通过转换,获取关注的内容,形成文本

(4)对文本进行分块、向量化、存储

(5)调用大模型进行总结、答案生成

其实就是RAG的基本流程,只不过知识库不再局限在你自己的知识库,而是利用在线检索,搜罗互联网上的数据作为相关知识。

搜罗数据的过程,可以有两种方法,一种是调用检索的API,例如GoogleSearch的API,直接获取检索结果。另一种方法,就是靠爬虫,将网页数据抓取下来,存入向量数据库使用。

本文我们探讨一下爬虫的相关的使用方法。

0. LangChain接口

LangChain中,将爬虫功能分成了两个模块,LoadingTransforming

  • Loading模块的功能是将 URL 加载转换成 HTML 内容。封装的类包括:AsyncHtmlLoader类、AsyncChromiumLoader类等。
  • Transforming模块的功能是将 HMTL 内容转换成需要的文本。封装的类包括:HTML2Text类、Beautiful Soup类等。

0.1 Loading模块简介

  • AsyncHtmlLoader: 使用aiohttp库生成异步HTTP请求,适用于更简单、轻量级的抓取。
  • AsyncChromiumLoader:使用Playwright启动Chromium实例,该实例可以处理JavaScript渲染和更复杂的web交互。Chromium是Playwright支持的浏览器之一,Playwright是一个用于控制浏览器自动化的库。

0.2 Transforming模块简介

  • HTML2Text:将HTML内容直接转换为纯文本,而无需任何特定的标记操作。它最适合于目标是提取人类可读文本而不需要操作特定HTML元素的场景。
  • Beautiful Soup:对HTML内容提供了更细粒度的控制,支持特定的标记提取、删除和内容清理。它适用于需要提取特定信息并根据需要清理HTML内容的情况。

1. 快速上手 - Quick Start

1.1 Demo代码

urls = ["https://mp.weixin.qq.com/s/Zklc3p5uosXZ7XMHD1k2QA"]
from langchain_community.document_loaders import AsyncChromiumLoader
from langchain_community.document_transformers import BeautifulSoupTransformer
# Load HTML
loader = AsyncChromiumLoader(urls)
html = loader.load()
print("============= html =====================")
print(html)
# Transform
bs_transformer = BeautifulSoupTransformer()
docs_transformed = bs_transformer.transform_documents(html, tags_to_extract=["span"])
print("================= doc_transformed ===============")
print(docs_transformed)

1.2 代码解释

(1)该程序使用了 AsyncChromiumLoader 类来加载URL为HTML内容。

注意:AsyncChromiumLoader 接收的参数是一个URL数组,这意味着它可以同时加载多个URL。

(2)使用了 BeautifulSoupTransformer 类作为transform来将HTML内容转换成文本内容

注意:transform_documents 函数中的 tags_to_extract 参数,指定了将 HTML 中的什么 tag 内的内容提取成文本。

1.3 运行效果

  • URL转HTML内容结果如下:

抓出来的其实是HTML脚本语言,程序代码。并不是我们想要的文本信息。所以后面有个Transform步骤。

  • Transform步骤后的结果:

可以看到经过 Transform 步骤后,出现了我们需要的文本信息。

原网页内容如下:经过对比,发现提取的文本丢失了很多内容。主要的原因是tags_to_extract 参数设置的问题。

1.4 效果改善

HTML脚本语言的常用的文本标签 tags 大体有 <h>, <p>, <li>, <div> 和 <a> :

  • <h1> 到 <h6>:标题标签,用于定义标题的级别,<h1> 是最高级别的标题,依次递减。
  • <p>:段落标签,用于定义段落。
  • <a>:链接标签,用于创建超链接,通过href属性指定链接目标。
  • <span>:内联容器标签,用于包裹一小段文本或行内元素。
  • <div>:块级容器标签,用于组合和布局其他元素。
  • <strong>:强调文本标签,使文本加粗显示。
  • <em>:强调文本标签,使文本以斜体显示。
  • <br>:换行标签,用于插入一个换行符。

要改善上面的提取结果,使其能提取出更多的文本,我们可以修改提取的 tags 参数,如下,提取出<span>, <p> 和 <code> 的内容:

docs_transformed = bs_transformer.transform_documents(html, tags_to_extract=["span", "code", "p"])

修改后运行效果如下:已经将里面的文字和代码全部提取出来了(虽然还有些特殊符号,不过没关系,后面可以再过滤一层去掉):

1.5 怎么确认 tags_to_extract 的参数

那上面我是怎么确认要提取 "span", "code", "p" 这三个tag内的文本的呢?

(1)打开你要爬取的网页,按 F12 打开网页调试工具

(2)找到 “元素” 选项卡,然后点击左上角的这个图标(如图)

(3)将鼠标悬浮在你想提取的文字上面,它就会自动展示当前文字所在的标签 tag 是什么。如下面图片:

(4)将这些tag全部填到参数里,就OK了。

2. 高级方法 - 使用大模型的Function Calling提取所需文本

该方法是在以上方法的基础上,在得到文本后,再利用大模型,从文本中二次提取出所关注的文本内容。

这种方法的好处在于,对于网页内容和结构变化时,我们不需要再去频繁的调整提取tag等参数,而是最后利用大模型统一提取关心内容即可。

2.1 Demo代码

def scraping_with_extraction():
    from langchain_openai import ChatOpenAI
    llm = ChatOpenAI(temperature=0, model="gpt-3.5-turbo-0613")
    
    from langchain.chains import create_extraction_chain
    schema = {
        "properties": {
            "article_title": {"type": "string"},
            "article_content": {"type": "string"},
            "article_example_python_code": {"type": "string"},
        },
        "required": ["article_title", "article_content", "article_example_python_code"],
    }
    def extract(content: str, schema: dict):
        return create_extraction_chain(schema=schema, llm=llm).run(content)
    
    import pprint
    from langchain.text_splitter import RecursiveCharacterTextSplitter
    def scrape_with_playwright(urls, schema):
        from langchain_community.document_loaders import AsyncChromiumLoader
        from langchain_community.document_transformers import BeautifulSoupTransformer
        loader = AsyncChromiumLoader(urls)
        docs = loader.load()
        bs_transformer = BeautifulSoupTransformer()
        docs_transformed = bs_transformer.transform_documents(
            docs, tags_to_extract=["span", "code", "p"]
        )
        print("Extracting content with LLM")
        # Grab the first 1000 tokens of the site
        splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
            chunk_size=1000, chunk_overlap=0
        )
        splits = splitter.split_documents(docs_transformed)
        # Process the first split
        extracted_content = extract(schema=schema, content=splits[0].page_content)
        pprint.pprint(extracted_content)
        return extracted_content
    extracted_content = scrape_with_playwright(urls, schema=schema)
    
scraping_with_extraction()

2.2 代码解释

(1)schema定义

定义一个模式来指定要提取的数据类型。在这里,key的名称很重要,因为这是告诉LLM我们想要什么样的信息。所以,尽可能详细。

(2)正常走上面的流程,获取网页数据 docs_transformed

(3)代码中还做了 split,将全部文本分块了,可能是为了避免超出 LLM 的Token长度限制?

(4)最重要、最灵魂的几句,将文本内容,和模式传入 create_extraction_chain 来获取输出:

def extract(content: str, schema: dict):
       return create_extraction_chain(schema=schema, llm=llm).run(content)
extracted_content = extract(schema=schema, content=splits[0].page_content)

2.3 运行效果

输出的结果不是很好。

2.4 create_extraction_chain 源码解析

该函数源码如下:

其做的事儿,也比较简单,就是通过 _get_extraction_function 函数将上面我们定义的 schema 转换成了 function calling 中的 function 的结构。

然后创建了一个 LLMChain 链。

看下它内置的Prompt,让大模型提取出在 information_extraction 函数中定义的 properties相关信息 :

_EXTRACTION_TEMPLATE = """Extract and save the relevant entities mentioned \
in the following passage together with their properties.
Only extract the properties mentioned in the 'information_extraction' function.
If a property is not present and is not required in the function parameters, do not include it in the output.
Passage:
{input}
"""

很明显,这个 Prompt 比较简单,要想大模型提取的结果好,information_extraction 函数中定义的 properties必须要尽可能详细。怎么提供详细的说明呢?看下我之前的Function calling的文章,可以看到参数下面可以加一个描述来详细描述该参数的含义。

仿照这个方法,我们可以优化schema:

schema = {
    "properties": {
        "文章标题": {"type": "string", "description": "文章题目"},
        "文章正文全部内容": {"type": "string", "description": "文章的正文内容,不要包含Python代码,只输出文字"},
        "文章中的示例Python代码": {"type": "string", "description": "文章中的Python代码,只输出代码,用markdonw格式输出,可能存在多段代码,多段代码之间分开"},
    },
    "required": ["文章标题", "文章正文全部内容", "文章中的示例Python代码"],
}

还有一种方法,create_extraction_chain 函数的参数接收一个额外的 Prompt,我们也可以通过此参数来调优提取结果。

然而最终结果并没有多少改善… 待继续研究怎么优化。

该方法有点过于依赖大模型的能力,并且会大量消耗Token,目前还没看到有实际的落地效果,处于探索阶段。

如果觉得本文对你有帮助,麻烦点个赞和关注呗 ~~~


  • 大家好,我是同学小张,日常分享AI知识和实战案例
  • 欢迎 点赞 + 关注 👏,持续学习持续干货输出
  • +v: jasper_8017 一起交流💬,一起进步💪。
  • 微信公众号也可搜【同学小张】 🙏

本站文章一览:

相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
18天前
|
数据采集 JavaScript C#
C#图像爬虫实战:从Walmart网站下载图片
C#图像爬虫实战:从Walmart网站下载图片
|
2月前
|
数据采集 存储 C#
C# 爬虫技术:京东视频内容抓取的实战案例分析
C# 爬虫技术:京东视频内容抓取的实战案例分析
|
1天前
|
数据采集 存储 数据挖掘
深入探索 Python 爬虫:高级技术与实战应用
本文介绍了Python爬虫的高级技术,涵盖并发处理、反爬虫策略(如验证码识别与模拟登录)及数据存储与处理方法。通过asyncio库实现异步爬虫,提升效率;利用tesseract和requests库应对反爬措施;借助SQLAlchemy和pandas进行数据存储与分析。实战部分展示了如何爬取电商网站的商品信息及新闻网站的文章内容。提醒读者在实际应用中需遵守法律法规。
103 66
|
18天前
|
数据采集 API 开发者
🚀告别网络爬虫小白!urllib与requests联手,Python网络请求实战全攻略
在网络的广阔世界里,Python凭借其简洁的语法和强大的库支持,成为开发网络爬虫的首选语言。本文将通过实战案例,带你探索urllib和requests两大神器的魅力。urllib作为Python内置库,虽API稍显繁琐,但有助于理解HTTP请求本质;requests则简化了请求流程,使开发者更专注于业务逻辑。从基本的网页内容抓取到处理Cookies与Session,我们将逐一剖析,助你从爬虫新手成长为高手。
41 1
|
1月前
|
数据采集 存储 前端开发
Java爬虫开发:Jsoup库在图片URL提取中的实战应用
Java爬虫开发:Jsoup库在图片URL提取中的实战应用
|
1月前
|
数据采集 JavaScript 前端开发
构建简易Python爬虫:抓取网页数据入门指南
【8月更文挑战第31天】在数字信息的时代,数据抓取成为获取网络资源的重要手段。本文将引导你通过Python编写一个简单的网页爬虫,从零基础到实现数据抓取的全过程。我们将一起探索如何利用Python的requests库进行网络请求,使用BeautifulSoup库解析HTML文档,并最终提取出有价值的数据。无论你是编程新手还是有一定基础的开发者,这篇文章都将为你打开数据抓取的大门。
|
2月前
|
数据采集 存储 XML
Python 爬虫实战:从入门到精通
【8月更文挑战第28天】本文将带你进入Python爬虫的世界,从基础概念到实战操作,一步步教你如何用Python编写一个高效的网络爬虫。你将学习到如何解析网页、提取数据、存储数据以及应对反爬策略等技能。无论你是初学者还是有一定经验的开发者,都能在这篇文章中找到有价值的信息和技巧。让我们一起探索Python爬虫的奥秘吧!
|
2月前
|
数据采集 存储 前端开发
豆瓣评分9.0!Python3网络爬虫开发实战,堪称教学典范!
今天我们所处的时代是信息化时代,是数据驱动的人工智能时代。在人工智能、物联网时代,万物互联和物理世界的全面数字化使得人工智能可以基于这些数据产生优质的决策,从而对人类的生产生活产生巨大价值。 在这个以数据驱动为特征的时代,数据是最基础的。数据既可以通过研发产品获得,也可以通过爬虫采集公开数据获得,因此爬虫技术在这个快速发展的时代就显得尤为重要,高端爬虫人才的收人也在逐年提高。
|
2月前
|
自然语言处理
LangChain 构建问题之实例化一个聊天模型如何解决
LangChain 构建问题之实例化一个聊天模型如何解决
14 1
|
2月前
|
数据采集 数据挖掘 数据处理
Python爬虫开发:爬取简单的网页数据
本文详细介绍了如何使用Python爬取简单的网页数据,以掘金为例,展示了从发送HTTP请求、解析HTML文档到提取和保存数据的完整过程。通过这个示例,你可以掌握基本的网页爬取技巧,为后续的数据分析打下基础。希望本文对你有所帮助。
下一篇
无影云桌面