CHRONOS:阿里通义联合上海交大推出时间线摘要生成框架,适用于大规模新闻数据的时间线生成任务

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介: CHRONOS 是由阿里通义实验室与上海交大联合推出的时间线摘要生成框架,支持开放域与封闭域,通过迭代自问自答机制生成连贯的时间线摘要,适用于新闻、金融、教育等多个领域。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:CHRONOS 支持开放域与封闭域的时间线摘要生成,适用于新闻、金融、教育等多个领域。
  2. 技术:基于迭代自问自答机制,结合大型语言模型(LLMs)和问题重写技术,生成连贯的时间线摘要。
  3. 应用:广泛应用于新闻报道整理、金融事件追踪、政策分析等场景,帮助用户快速理解事件发展脉络。

正文(附运行示例)

CHRONOS 是什么

chronos-overview

CHRONOS 是由上海交通大学计算机科学与工程系、阿里巴巴集团通义实验室等机构联合推出的时间线摘要生成框架。该框架基于迭代自问自答的方式,利用大型语言模型(LLMs)构建开放域和封闭域的时间线。CHRONOS 通过生成与新闻主题相关的 5W1H 问题,检索相关信息,逐步扩展新闻数据库,最终生成连贯的事件摘要。

CHRONOS 在实验中表现出色,能够有效处理信息过载和数据噪声问题,适用于大规模新闻数据的时间线生成任务。其核心优势在于能够通过问题重写机制提高搜索精度,并采用分而治之的策略生成并合并时间线。

CHRONOS 的主要功能

  • 新闻时间线生成:从大量新闻文档中提取关键事件,按照时间顺序生成连贯的时间线摘要。
  • 开放域和封闭域支持:支持从互联网直接检索新闻生成时间线,也支持在预定义的新闻集中构建时间线。
  • 迭代自问自答:通过不断提出与新闻主题相关的问题,逐步扩展和丰富时间线内容,确保信息的全面性和准确性。
  • 问题重写与优化:将复杂问题分解为更具体的查询,提高搜索的精确性和效率,获取更相关的信息。
  • 数据集支持:引入 Open-TLS 数据集,提供丰富的新闻时间线样本,用于训练和评估模型性能。

CHRONOS 的技术原理

  • 基于检索的生成:通过检索外部知识源(如互联网或预定义的新闻集)增强语言模型的生成能力,解决信息过载和数据噪声问题。
  • 迭代自问自答机制:模拟人类信息检索过程,生成 5W1H 问题,逐步深入挖掘与新闻主题相关的事件信息,构建事件之间的因果关系图。
  • 问题重写技术:利用 LLMs 对复杂问题进行分解和重写,生成更具体、更易于检索的查询,提高检索结果的相关性和准确性。
  • 分而治之的策略:将时间线生成任务分解为多个子任务,分别从每一轮检索中生成单独的时间线,通过合并和冲突解决等步骤,生成最终的连贯时间线摘要。
  • 大型语言模型(LLMs):作为核心工具,用于理解文本、生成高质量的摘要和问题,并进行有效的信息检索和整合。

如何运行 CHRONOS

1. 安装依赖

首先,确保你已经安装了所有必要的依赖项。可以通过以下命令安装:

pip install -r requirements.txt

2. 生成示例问题

接下来,生成与主题相关的问题示例。运行以下命令:

python question_exampler.py

你也可以使用我们提供的 data/question_examples.json 文件,其中包含了针对 crisis, T17 和 Open-TLS 数据集的示例问题。

3. 运行 CHRONOS

运行 CHRONOS 框架,生成时间线摘要。具体命令如下:

python chronos.py

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
8月前
|
人工智能 自然语言处理 API
【活动】开源与闭源大模型:探索未来趋势的双轨道路
在人工智能领域,大模型(Large Language Models, LLMs)凭借其强大的语言理解和生成能力,正逐步成为推动技术革新和社会进步的关键力量。随着GPT-3、BERT、Turing-NLG等知名模型的面世,大模型的开放与封闭策略也成为行业内外热议的话题。本文旨在探讨开源与闭源大模型各自的优劣,并基于当前技术发展、市场趋势及社会需求,分析两者在未来的发展前景。
113 2
|
4月前
|
自然语言处理 数据管理 大数据
发布!首个月球专业大模型来了
在2024数博会上,中国科学院地球化学研究所与阿里云联合发布国际首个“月球科学多模态专业大模型”(简称“月球专业大模型”)。
92 9
|
8月前
|
人工智能 Rust Apache
社区供稿 | 更长、更强、更开放,零一万物 Yi-1.5 系列开源模型发布一周广受好评
5 月 13 日,零一万物 Yi 系列开源模型全新升级为 Yi-1.5。相较于去年 11 月的开源版本,这次的 Yi-1.5 在保持原 Yi 系列模型优秀的通用语言能力的前提下,通过增量训练 500B 高质量 token,大幅提高了数学逻辑、代码能力。
|
8月前
|
人工智能 自然语言处理 文字识别
社区供稿 | 元象首个多模态大模型XVERSE-V开源,刷新权威大模型榜单,支持任意宽高比输入
元象公司发布了开源多模态大模型XVERSE-V,该模型在图像输入的宽高比方面具有灵活性,并在多项评测中展现出优越性能,超越了包括谷歌在内的多个知名模型。XVERSE-V采用创新方法结合全局和局部图像信息,适用于高清全景图识别、文字检测等任务,且已在Hugging Face、ModelScope和GitHub上开放下载。此外,模型在视障场景、内容创作、教育解题、百科问答和代码生成等领域有广泛应用,并在VizWiz等测试集中表现出色。元象致力于推动AI技术的普惠,支持中小企业、研究者和开发者进行研发和应用创新。
|
8月前
|
机器学习/深度学习 算法
开启“数据混合”新视界:第二届 Data-Juicer 大模型数据挑战赛
在数据的调味中探寻秘密,再次点燃 LLM 美食节的激情!欢迎踏入第二届 Data-Juicer 数智大赛:“BetterMixture - 大模型数据混合挑战赛”。
|
存储 人工智能 运维
阿里云存储受邀参加北京站「源创会」,解析智能存储基于大模型的产品能力提升
8 月 26 日,以 “AI 大模型与底层技术探索” 为主题的源创会北京站在北京中关村创业大街圆满举办。会上,阿里云智能高级技术专家马俊凯发表了《智能存储基于大模型的产品能力提升》主题演讲,详解了大语言模型对于智能存储的影响。
742 0
|
人工智能 算法 安全
理想自研认知大模型、无图城市NOA信息曝光,纯电MEGA定价50万以上
理想自研认知大模型、无图城市NOA信息曝光,纯电MEGA定价50万以上
238 0
|
机器学习/深度学习 数据采集 移动开发
覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集Tenrec(1)
覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集Tenrec
340 0
|
数据采集 机器学习/深度学习 搜索推荐
覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集Tenrec(2)
覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集Tenrec
215 0
|
数据采集 机器学习/深度学习 设计模式
卷麻了! nnUNet 研究团队重磅新作 | MedNeXt: 新一代分割架构之王,刷新多项榜单记录!
卷麻了! nnUNet 研究团队重磅新作 | MedNeXt: 新一代分割架构之王,刷新多项榜单记录!
1107 0

热门文章

最新文章