PodAgent:港中文、微软、小红书联合推出的播客生成框架

简介: PodAgent 是由香港中文大学、微软和小红书联合推出的播客生成框架,基于多智能体协作系统,自动生成高质量对话内容,支持声音角色匹配和语音合成,适用于媒体、教育、企业推广等多个场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎧 “播客创作新革命!港中文、微软、小红书联手推出PodAgent,AI自动生成高质量对话内容”

大家好,我是蚝油菜花。你是否也遇到过——

  • 👉 播客创作耗时耗力,脚本撰写、声音匹配、后期制作让人头疼
  • 👉 想要快速生成高质量播客内容,却苦于缺乏专业工具
  • 👉 希望播客内容更具表现力和情感,但技术门槛太高...

今天揭秘的 PodAgent,用AI彻底颠覆播客创作方式!这个由香港中文大学、微软和小红书联合推出的播客生成框架,基于多智能体协作系统,自动生成丰富且结构化的对话内容,支持声音角色匹配和语音合成,让你的播客创作效率提升10倍!无论是媒体、教育还是企业推广,PodAgent 都能为你提供一站式解决方案——准备好迎接播客创作的新时代了吗?

🚀 快速阅读

PodAgent 是一个基于多智能体协作系统的播客生成框架,能够自动生成高质量对话内容。

  1. 核心功能:支持声音角色匹配、语音合成与表现力增强,生成完整的播客结构。
  2. 技术原理:基于大语言模型(LLM)的语音合成技术,结合多智能体协作系统,确保内容的专业性和多样性。

PodAgent 是什么

PodAgent

PodAgent 是香港中文大学、微软和小红书联合推出的播客生成框架。基于模拟真实的脱口秀场景,用多智能体协作系统(包括主持人、嘉宾和编剧)自动生成丰富且结构化的对话内容。

PodAgent 构建了多样化的声音库,用于精准匹配角色与声音,确保音频的自然度和沉浸感。通过引入基于大语言模型(LLM)的语音合成技术,PodAgent 能够生成富有表现力和情感的语音,让播客更具吸引力。

PodAgent 的主要功能

  • 生成高质量对话内容:自动生成丰富、多样化的对话脚本,涵盖各种主题。
  • 声音角色匹配:根据角色的性格和内容背景,动态匹配最适合的声音。
  • 语音合成与表现力增强:根据对话内容的情绪和语境调整语音的语调、节奏和情感,让播客更加生动。
  • 生成完整的播客结构:支持添加合适的音效和背景音乐,生成完整的播客结构。支持多语言生成,适应不同场景和听众的需求。
  • 评估与优化:提供全面的评估指标,衡量生成播客的质量,包括对话内容的丰富度、声音匹配的准确性及语音的表现力。

PodAgent 的技术原理

  • 多智能体协作系统
    • 主持人:负责制定对话大纲,引导话题讨论。
    • 嘉宾:根据角色设定提供专业见解和观点。
    • 编剧:整合对话内容,优化脚本的连贯性和多样性。
  • 声音特征分析与匹配:构建声音库,分析声音的特征(如音色、语调、情感等),为每个角色匹配最适合的声音。用开源数据集(如 LibriTTS 和 AISHELL-3)提取声音样本,基于去重和筛选生成多样化的声音库。
  • LLM 引导的语音合成:用基于大语言模型(LLM)的语音合成技术,将文本内容转化为自然、富有表现力的语音。将 LLM 预测的说话风格作为指令,指导语音合成模型(如 CosyVoice)生成与内容情绪相匹配的语音。
  • 综合评估指标:推出一套评估指标,用于衡量生成播客的质量。指标包括对话内容的词汇多样性、语义丰富度、信息密度,及声音匹配的准确性和语音的表现力。基于 LLM 作为评估工具,对生成内容进行比较和打分。

如何运行 PodAgent

1. 下载代码

git clone https://github.com/yujxx/PodAgent.git

2. 下载 CosyVoice

cd PodAgent
mkdir TTS
cd TTS
git clone https://github.com/FunAudioLLM/CosyVoice.git
cd CosyVoice
git submodule update --init --recursive
cd ../..

3. 环境配置

bash ./scripts/EnvsSetup.sh

或者逐步配置环境:

conda create -n podcast -y python=3.10
conda activate podcast
conda install -y -c conda-forge pynini==2.1.5
pip install -r TTS/CosyVoice/requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
pip install -U git+https://git@github.com/facebookresearch/audiocraft@c5157b5bf14bf83449c17ea1eeb66c19fb4bc7f0#egg=audiocraft
pip install pip==23.2.1
pip install -r requirements.txt

4. 下载模型

python scripts/download_models.py

5. 启动服务

bash scripts/start_services.sh

6. 使用 PodAgent

python podagent.py --topic "What are the primary factors that influence consumer behavior?" --guest-number "2" --session-id "test"

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
汇编(五)栈、CPU提供的栈机制、push、pop指令
汇编、栈、CPU提供的栈机制、push、pop指令、编程、汇编语言
32564 2
|
11月前
|
人工智能 自然语言处理 vr&ar
通义首个音频生成模型 ThinkSound 开源,你的专业音效师
通义实验室推出首个音频生成模型ThinkSound,突破传统视频到音频生成技术局限,首次将思维链(CoT)应用于音频生成领域,实现高保真、强同步的空间音频生成。基于自研AudioCoT数据集,结合多模态大语言模型与统一音频生成模型,支持交互式编辑,显著提升音画匹配度与时序一致性。代码已开源,助力游戏、VR、AR等场景创新应用。
2431 4
|
10月前
|
数据采集 JSON 监控
巧用快手电商 API,精准分析快手商品销售趋势
快手电商API助力商家精准分析销售趋势,通过实时数据获取、趋势识别与模型构建,优化营销策略,提升市场竞争力。
|
NoSQL Linux 开发工具
Linux环境基础开发工具的使用(yum、vim、gcc、g++、gdb、make/Makefile)
本文介绍了yum 包管理工具、Vim 编辑器、gcc/g++ 编译器、gdb 调试器、编译原理及 Makefile 的使用,同时还配备了如何使用,以及图解。旨在帮助读者更好地理解和应用这些工具与技术。
598 0
|
人工智能 自然语言处理 搜索推荐
全网首发 | PAI Model Gallery一键部署阶跃星辰Step-Video-T2V、Step-Audio-Chat模型
Step-Video-T2V 是一个最先进的 (SoTA) 文本转视频预训练模型,具有 300 亿个参数,能够生成高达 204 帧的视频;Step-Audio 则是行业内首个产品级的开源语音交互模型,通过结合 130B 参数的大语言模型,语音识别模型与语音合成模型,实现了端到端的文本、语音对话生成,能和用户自然地进行高质量对话。PAI Model Gallery 已支持阶跃星辰最新发布的 Step-Video-T2V 文生视频模型与 Step-Audio-Chat 大语言模型的一键部署,本文将详细介绍具体操作步骤。
|
机器学习/深度学习 人工智能 芯片
【AI系统】谷歌 TPU v3 POD 形态
TPU v3 是 TPU v2 的增强版,主要改进包括:MXU 数量翻倍至 4 个,时钟频率提升 30%,内存带宽扩大 30%,容量翻倍,芯片间带宽增加 30%,可连接节点数增至 4 倍。TPU v3 通过采用水冷系统,不仅提高了功率,还优化了温度管理,显著提升了计算能力和能效。TPU v3 Pod 由 1024 个 TPU v3 组成,算力达 100 PFLOPS,适用于大规模神经网络训练。
1277 2
|
存储 数据挖掘 语音技术
让你的Notebook飞起来!开发体验再上新台阶
魔搭社区ModelScope最近针对大家积极反馈的Notebook功能进行了多方面的体验升级!这次的升级加入了许多令人兴奋的新特性,在很大程度上提升了Notebook的开发效率和体验。一起来看看这些新功能吧!
|
存储 Kubernetes 安全
Kubernetes 中的对象是如何删除的:Finalizers 字段介绍
Kubernetes 中的对象删除并不像表面上看起来那么简单,删除对象涉及一系列过程,例如对象的级联和非级联删除,在删除之前检查以确定是否可以安全删除对象等等。这些都是通过称为 `Finalizers`(终结器)的 API 对象实现的。
1557 0
Kubernetes 中的对象是如何删除的:Finalizers 字段介绍
|
BI Linux API
掌握 SkiaSharp 轻松实现 .NET 跨平台绘图
.NET 框架的发展,我们越来越多地寻求能够在多个平台上无缝运行的应用解决方案。
2536 2
|
存储 缓存 网络协议
/proc文件系统 【ChatGPT】
/proc文件系统 【ChatGPT】

热门文章

最新文章