PaSa:字节跳动开源学术论文检索智能体,自动调用搜索引擎、浏览相关论文并追踪引文网络

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介: PaSa 是字节跳动推出的基于强化学习的学术论文检索智能体,能够自动调用搜索引擎、阅读论文并追踪引文网络,帮助用户快速获取精准的学术文献。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:PaSa 能够自动调用搜索引擎、阅读论文并追踪引文网络,提供精准的学术文献检索。
  2. 技术:基于强化学习和大语言模型,PaSa 通过 Crawler 和 Selector 两个核心组件实现高效文献检索。
  3. 性能:在 Recall@20 和 Recall@50 指标上,PaSa 比 Google Scholar 分别提升了 37.78% 和 39.90%。

正文(附运行示例)

PaSa 是什么

pasa

PaSa 是字节跳动研究团队推出的基于强化学习的学术论文检索智能体。它能够模仿人类研究者的行为,自动调用搜索引擎、浏览相关论文并追踪引文网络,为用户提供精准、全面的学术论文检索结果。

PaSa 的核心在于其能够处理复杂的学术查询,并通过强化学习优化检索效率。它能够在两分钟内完成一次详尽的学术调研,显著提升了文献检索的速度和准确性。

PaSa 的主要功能

  • 自主调用搜索工具:PaSa 能自动调用搜索引擎,根据用户输入的学术问题生成多样化的搜索关键词,并执行多次搜索,确保全面覆盖相关文献。
  • 阅读和分析论文内容:通过 Crawler 和 Selector 两个核心组件,PaSa 能够高效地收集和筛选相关论文,确保检索结果的精确性。
  • 选择相关参考文献:PaSa 能从海量文献中筛选出与用户查询最相关的参考文献,提供全面且准确的搜索结果。
  • 支持复杂学术查询:PaSa 专为处理复杂的学术问题设计,能够理解并处理细粒度的学术查询,例如涉及特定算法或研究方法的问题。

PaSa 的技术原理

  • 核心组件:PaSa 的核心包括两个主要的 LLM 智能体:Crawler 和 Selector。Crawler 负责通过搜索引擎收集与用户查询相关的学术论文,而 Selector 则负责精读每一篇论文,评估其是否符合用户需求。
  • 强化学习优化:PaSa 使用强化学习(RL)和近端策略优化(PPO)算法进行训练,通过合成数据集 AutoScholarQuery 和真实世界查询基准 RealScholarQuery 来提升搜索效率和准确性。

如何运行 PaSa

在线使用

您可以准备一份详细的学术搜索需求描述,并在 https://pasa-agent.ai 上搜索论文。

本地部署

1. 数据准备

首先,从 pasa-dataset 下载数据集并保存到 data 文件夹中。

pasa/data
├── AutoScholarQuery
│   ├── dev.jsonl
│   ├── test.jsonl
│   └── train.jsonl
├── paper_database
│   ├── cs_paper_2nd.zip
│   └── id2paper.json
├── RealScholarQuery
│   └── test.jsonl
├── sft_crawler
│   └── train.jsonl
└── sft_selector
    ├── test.jsonl
    └── train.jsonl

2. 模型准备

pasa-7b-crawlerpasa-7b-selector 下载模型检查点并保存到 checkpoints 文件夹中。

pasa/checkpoints
├── pasa-7b-crawler
└── pasa-7b-selector

3. 运行 PaSa

克隆并安装必要的依赖项,然后运行 PaSa。

git clone git@github.com:hyc2026/transformers.git
cd transformers
pip3 install -e .
cd ..
pip install -r requirements.txt

utils.py 中替换 Google Search API 密钥,然后运行以下命令:

python run_paper_agent.py

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
23天前
|
SQL 缓存 Cloud Native
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
111 63
|
15天前
|
前端开发 Java 关系型数据库
基于ssm的网络直播带货管理系统,附源码+数据库+论文
该项目为网络直播带货网站,包含管理员和用户两个角色。管理员可进行主页、个人中心、用户管理、商品分类与信息管理、系统及订单管理;用户可浏览主页、管理个人中心、收藏和订单。系统基于Java开发,采用B/S架构,前端使用Vue、JSP等技术,后端为SSM框架,数据库为MySQL。项目运行环境为Windows,支持JDK8、Tomcat8.5。提供演示视频和详细文档截图。
47 10
|
23天前
|
canal 编解码 运维
SIGCOMM 2024 | 洛神云网络学术活动与论文分享
SIGCOMM 2024 | 洛神云网络学术活动与论文分享
|
25天前
|
SQL 缓存 Cloud Native
NSDI'24 | 云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI'24 | 云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
|
2月前
|
SQL Cloud Native API
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI‘24于4月16-18日在美国加州圣塔克拉拉市举办,汇聚全球网络系统领域的专家。阿里云飞天洛神云网络的两篇论文入选,标志着其创新能力获广泛认可。其中,《Poseidon: A Consolidated Virtual Network Controller that Manages Millions of Tenants via Config Tree》介绍了波塞冬平台,该平台通过统一控制器架构、高性能配置计算引擎等技术,实现了对超大规模租户和设备的高效管理,显著提升了云网络性能与弹性。实验结果显示,波塞冬在启用EIP时的完成时间比Top 5厂商分别快1.8至55倍和2.6至4.8倍。
225 47
|
2月前
|
数据采集 人工智能 自然语言处理
FireCrawl:开源 AI 网络爬虫工具,自动爬取网站及子页面内容,预处理为结构化数据
FireCrawl 是一款开源的 AI 网络爬虫工具,专为处理动态网页内容、自动爬取网站及子页面而设计,支持多种数据提取和输出格式。
652 19
FireCrawl:开源 AI 网络爬虫工具,自动爬取网站及子页面内容,预处理为结构化数据
|
23天前
|
负载均衡 数据中心 芯片
NSDI'24 | 阿里云飞天洛神云网络论文解读——《LuoShen》揭秘新型融合网关 洛神云网关
NSDI'24 | 阿里云飞天洛神云网络论文解读——《LuoShen》揭秘新型融合网关 洛神云网关
|
2月前
|
负载均衡 芯片 异构计算
NSDI'24 | 阿里云飞天洛神云网络论文解读——《LuoShen》揭秘新型融合网关 洛神云网关
NSDI‘24于4月16-18日在美国圣塔克拉拉市举办,阿里云飞天洛神云网络首次中稿NSDI,两篇论文入选。其中《LuoShen: A Hyper-Converged Programmable Gateway for Multi-Tenant Multi-Service Edge Clouds》提出超融合网关LuoShen,基于Tofino、FPGA和CPU的新型硬件形态,将公有云VPC设施部署到边缘机柜中,实现小型化、低成本和高性能。该方案使成本降低75%,空间占用减少87%,并提供1.2Tbps吞吐量,展示了强大的技术竞争力。
|
3月前
|
人工智能 搜索推荐 决策智能
不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA
近期研究通过调整网络智能体的观察和动作空间,使其与大型语言模型(LLM)的能力对齐,显著提升了基于LLM的网络智能体性能。AgentOccam智能体在WebArena基准上超越了先前方法,成功率提升26.6个点(+161%)。该研究强调了与LLM训练目标一致的重要性,为网络任务自动化提供了新思路,但也指出其性能受限于LLM能力及任务复杂度。论文链接:https://arxiv.org/abs/2410.13825。
89 12

热门文章

最新文章