【AIGC】通过人工智能总结PDF文档摘要服务的构建

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 【5月更文挑战第9天】使用Python和预训练的AI模型,结合Gradio前端框架,创建了一个文本及PDF摘要聊天机器人。通过加载"FalconsAI/text_summarization"模型,实现文本和PDF的预处理,包括PDF合并与文本提取。聊天机器人接收用户输入,判断是文本还是PDF,然后进行相应的摘要生成。用户可以通过运行`app.py`启动机器人,访问`localhost:7860`与之交互,快速获取内容摘要。这个工具旨在帮助忙碌的人们高效获取信息。

[toc]


我们生活在一个快速发展的社会中,每个人都在奔跑!我们似乎总是没有时间阅读、了解自己和享受一些高质量的内容。在这种氛围中,我们只能希望有什么东西能帮上忙,而这个东西可以是人工智能。

构建聊天界面以汇总文本和 PDF,我们可以快速利用我们的 python 知识来实现和部署文本摘要聊天机器人,使用预训练的 AI 模型和前端框架 gradio。

1.实现模型加载

首先,我们在 python 脚本中导入pipeline,负责加载和调用 AI 模型:

from transformers import pipeline

model_checkpoint = "FalconsAI/text_summarization"
summarizer = pipeline("summarization", model=model_checkpoint)

我们选择了一个相对较小的模型。

2.定义预处理函数

如果它们被批量上传,则合并 pdf......

def merge_pdfs(pdfs: list):
    merger = PdfMerger()
    for pdf in pdfs:
        merger.append(pdf)
    merger.write(f"{pdfs[-1].split('.')[0]}_results.pdf")
    merger.close()
    return f"{pdfs[-1].split('.')[0]}_results.pdf"

将合并的 pdf 转换为大小合适的文本字符串:

def pdf2string(pdfpath):
    loader = PyPDFLoader(pdfpath)
    documents = loader.load()

    ### Split the documents into smaller chunks for processing
    text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
    texts = text_splitter.split_documents(documents)
    fulltext = ""
    for text in texts:
        fulltext += text.page_content+"\n\n\n"
    return fulltext

现在我们已经实现了预处理功能,让我们用 Gradio 设计我们的聊天机器人。

3.构建对话机器人

我们想要一个管理聊天记录的函数,将文本消息与pdf文档分开,代码如下:

def add_message(history, message):
    if len(message["files"]) > 0:
        history.append((message["files"], None))
    if message["text"] is not None and message["text"] != "":
       history.append((message["text"], None))
    return history, gr.MultimodalTextbox(value=None, interactive=False)

返回history包含如下内容:

  • 上传文件的路径元组(如下所示:“/path/to/file1.pdf”、“path/to/file2.pdf...”))和 None(表示来自聊天机器人的消息,尚未写入)
  • 包含我们消息的文本字符串(例如:“In this article, we will see why cats are so overwhelmingly cute...”)和None(代表来自聊天机器人的消息,尚未编写)

让我们看看如何使用历史记录来生成文本:

def bot(history):
    global histr
    if not history is None:
        if type(history[-1][0]) != tuple:
            text = history[-1][0]
            response = summarizer(text, max_length=int(len(text.split(" "))*0.5), min_length=int(len(text.split(" "))*0.05), do_sample=False)[0]
            response = response["summary_text"]
            history[-1][1] = ""
            for character in response:
                history[-1][1] += character
                time.sleep(0.05)
                yield history
        if type(history[-1][0]) == tuple:
            filelist = []
            for i in history[-1][0]:
                filelist.append(i)
            finalpdf = merge_pdfs(filelist)
            text = pdf2string(finalpdf)
            response = summarizer(text, max_length=int(len(text.split(" "))*0.5), min_length=int(len(text.split(" "))*0.05), do_sample=False)[0]
            response = response["summary_text"]
            history[-1][1] = ""
            for character in response:
                history[-1][1] += character
                time.sleep(0.05)
                yield history
    else:
        history = histr
        bot(history)

正如你所看到的,我们检查历史中最后一个元组的第一个元素(history[-1][0])是否是一个元组:

  • 如果它是一个元组,我们将所有 pdf 合并到其中,将它们转换为字符串,并将文本通过管道传递到摘要器,作为输出,返回一个文本,其中包含原始文档中少于 50% 但超过 5% 的单词
  • 如果是文本字符串,我们直接汇总该字符串。

我们将输出摘要流式传输为聊天机器人响应

现在构建多模态聊天机器人:

with gr.Blocks() as demo:
    chatbot = gr.Chatbot(
        [[None, "Hi, I'm **ai-summarizer**, your personal summarization assistant"]],
        label="ai-summarizer",
        elem_id="chatbot",
        bubble_full_width=False,
    )

    chat_input = gr.MultimodalTextbox(interactive=True, file_types=["pdf"], placeholder="Enter message or upload file...", show_label=False)

    chat_msg = chat_input.submit(add_message, [chatbot, chat_input], [chatbot, chat_input])
    bot_msg = chat_msg.then(bot, chatbot, chatbot, api_name="bot_response")
    bot_msg.then(lambda: gr.MultimodalTextbox(interactive=True), None, [chat_input])

启动函数

demo.queue()

if __name__ == "__main__":
    demo.launch(server_name="0.0.0.0", share=False)

执行app.py

python3 app.py

模型加载完毕之后,在 localhost:7860 上能够看到聊天机器人,现在我们的摘要助手正在工作了,我们可以通过它来总结我们的文档了!

小结

本节我们学习了基于AI对PDF文件学习汇总,希望对初学者有所帮助。

小编是一名热爱人工智能的专栏作者,致力于分享人工智能领域的最新知识、技术和趋势。这里,你将能够了解到人工智能的最新应用和创新,探讨人工智能对未来社会的影响,以及探索人工智能背后的科学原理和技术实现。欢迎大家点赞,评论,收藏,让我们一起探索人工智能的奥秘,共同见证科技的进步!

目录
相关文章
|
2月前
|
数据挖掘 程序员 数据安全/隐私保护
解锁PDF潜力:9个Python库让你的文档处理更高效
程序员晚枫分享了Python处理PDF的9个第三方库,包括PyPDF2、pdfrw、ReportLab、pikepdf、pdfplumber、pdfminer.six、PyMuPDF、popdf和borb,各具优缺点。选择时需考虑应用场景、功能需求、库的维护状态和开源协议。例如,pdfplumber擅长内容提取,而ReportLab和PyMuPDF适用于创建和修改内容。
191 7
|
25天前
|
人工智能 数据库 Docker
探索人工智能的世界:构建智能问答系统之环境篇
【6月更文挑战第7天】在本教程中,作者指导读者如何搭建项目环境,包括安装Python 3.10、Docker Desktop和Visual Studio Code。安装Python时可按默认设置进行,Docker Desktop用于管理数据库容器,提供更好的开发和测试环境。Visual Studio Code是一个推荐的源代码编辑器。虽然尝试使用cursor开发时遇到问题,但最终选择了使用VS Code。但建议本地开发。配置文件部分,提供了`docker-compose.yaml`、`Dockerfile`和`pyproject.toml`的示例,用于构建和管理项目容器。
探索人工智能的世界:构建智能问答系统之环境篇
|
2天前
|
JavaScript 数据库
文本,在线浏览PDF,一个最简单的文档标准样式,文档预览非常简单的样式,文档管理样式设计,标准,好的设计
文本,在线浏览PDF,一个最简单的文档标准样式,文档预览非常简单的样式,文档管理样式设计,标准,好的设计
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
什么是AIGC(人工智能生成内容)
AIGC是一种新的人工智能技术,它的全称是Artificial Intelligence Generative Content,即人工智能生成内容。它是一种基于机器学习和自然语言处理的技术,能够自动产生文本、图像、音频等多种类型的内容。这些内容可以是新闻文章、小说、图片、音乐,甚至可以是软件代码。AIGC系统通过分析大量的数据和文本,学会了模仿人类的创造力,生成高质量的内容。AIGC涵盖了从简单的自动化文本生成到复杂的视觉艺术创作等广泛的应用。
17 4
|
12天前
|
机器学习/深度学习 数据采集 人工智能
人工智能:构建自定义机器学习模型的步骤与技巧
【6月更文挑战第25天】构建自定义机器学习模型涉及明确问题、数据收集预处理、特征工程、模型选择训练、评估优化及部署监控。关键技巧包括选择适配的算法、重视数据预处理、精巧的特征工程、有效评估优化和适时的模型更新。通过这些步骤和技巧,可提升模型性能与泛化能力。
|
17天前
|
人工智能 自然语言处理 机器人
【AIGC】大型语言模型在人工智能规划领域模型生成中的探索
【AIGC】大型语言模型在人工智能规划领域模型生成中的探索
43 6
|
17天前
|
机器学习/深度学习 人工智能 自然语言处理
生成式人工智能(AIGC,Generative AI)
生成式人工智能(AIGC,Generative AI)
43 3
|
19天前
|
机器学习/深度学习 人工智能 算法
人工智能伦理与责任:构建未来技术的指南针
【6月更文挑战第17天】随着人工智能技术的快速发展,其带来的伦理问题和社会责任也逐渐成为公众关注的焦点。本文将深入探讨AI的伦理挑战,包括隐私保护、偏见消除、自动化失业问题等,并提出相应的解决策略。通过分析当前AI技术的应用现状,文章旨在为技术开发者、政策制定者和社会各界提供指导,共同推动一个负责任和可持续的人工智能未来。
14 3
|
24天前
|
人工智能 自然语言处理 数据库
探索人工智能的世界:构建智能问答系统之实战篇
【6月更文挑战第8天】本文档介绍了如何使用Python进行Milvus数据库操作,包括环境安装、基本操作如连接数据库、创建集合、插入和查询向量数据、创建索引、删除数据等。此外,还展示了使用LangChain库与HuggingFaceEmbeddings集成,简化操作。最后,演示了如何结合openai模型定制交互式问答系统。整个过程旨在帮助读者理解如何将预训练模型与数据库集成以实现特定任务。
|
1月前
|
Java 数据安全/隐私保护
Java使用PDFBox开发包实现对PDF文档内容编辑与保存
Java使用PDFBox开发包实现对PDF文档内容编辑与保存
53 7