利用D-ID让你的照片能说话,制作口播视频

简介: 利用D-ID让你的照片能说话,制作口播视频

💡大家好,我是可夫小子,《小白玩转ChatGPT》专栏作者,关注AIGC、读书和自媒体。

在前面的文章中,我们介绍了生成自己专属卡通形象照,这张照片不仅能作头像,还可以让照片说话,作为我们的数字人,能进行口播短视频制作。做自媒体的都知道,一旦跑通了几个流程,就可以为我们源源不断创作短视频,这里面的想象很大。
老规矩,先看一下最终效果。

主要步骤

  1. 用ChatGPT生成AI图像的提示词
  2. 用提示词,在Midjourney里面生成自己满意的形象照
  3. 用ChatGPT生成文案
  4. 通过D-ID生成口播视频
    其中第1、2步在我的公号「可夫小子」上一篇文章提到,本文主要介绍第3、4步

用ChatGPT生成方案

这个是ChatGPT最基础的用户,你可以用ChatGPT生成小说解读、口播方案,热点评论。在我之前一系列的课程中都有介绍,具体可以去搜「可夫小子」的「ChatGPT知识库」命令,这里面不赘述。

💡你现在是一名叫Lily的数字人,是一个时尚女孩的形象,请用简单地介绍一下自己,大家100字左右

用D-ID生成视频

第一步,注册D-ID账户

  • 打开网址:https://studio.d-id.com/
  • 在网页左下角点击sign up
  • 填写自己用户名,邮箱和密码,点击sign up
  • 然后查收邮件,验证,就完成注册

第二步,生成视频

在上一步完成注册登陆,就可以创建视频了。

  • 进入工作区:https://studio.d-id.com/editor
  • 上传自己的形象照

  • 在右侧输入ChatGPT生成的文案

  • 点击生成GENERATE VIDEO,稍等片刻,就可以制作文章开头的视频图片了。

总结

无论是ChatGPT、Midjourney还是D-ID,都是AIGC(人工智能生成功能)的应用工具,这些生产力的工具,只有跟我的实际需求相结合,才能发挥强大的生产力作用。但这些的前提,就是你要知道有这些工具,并且能大致有使用经验,最后才能解决你的实际需求。

📎解锁更多ChatGPT、AI绘画玩法。

相关文章
|
人工智能 编解码 数据可视化
|
存储 搜索推荐
小红书InstantID来了, 一张照片几秒钟就能生成个性化图片
【2月更文挑战第24天】小红书InstantID来了, 一张照片几秒钟就能生成个性化图片
384 2
小红书InstantID来了, 一张照片几秒钟就能生成个性化图片
|
SQL 监控 关系型数据库
【MYSQL高级】Mysql找出执行慢的SQL【慢查询日志使用与分析】
【MYSQL高级】Mysql找出执行慢的SQL【慢查询日志使用与分析】
4712 0
|
6月前
|
中间件 Go
Golang | Gin:net/http与Gin启动web服务的简单比较
总的来说,`net/http`和 `Gin`都是优秀的库,它们各有优缺点。你应该根据你的需求和经验来选择最适合你的工具。希望这个比较可以帮助你做出决策。
217 35
|
机器学习/深度学习 人工智能 算法
别emo,EMO来了!你的照片也能开口讲相声、飙情歌
阿里云推出AI面部驱动工具EMO,可在通义APP的【全民舞台】体验。用户上传图片,选择模板即可生成动态说话效果。目前模板丰富,包括《野狼Disco》等,但因体验者众多,生成时间约10分钟。EMO由阿里集团智能计算研究院研发,能根据音频生成逼真的表情和头部动作视频,保持人物身份一致,支持跨语言和风格。技术原理涉及深度学习和面部识别,有望应用于影视、教育等领域,但也面临隐私和伦理挑战。官方尚未开源模型和源码,期待未来改进和社区发展。
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
JoyGen:用音频生成3D说话人脸视频,快速生成逼真的唇部同步视频
JoyGen 是京东和香港大学联合推出的音频驱动的3D说话人脸视频生成框架,支持多语言、高质量视觉效果和精确的唇部与音频同步。
328 14
JoyGen:用音频生成3D说话人脸视频,快速生成逼真的唇部同步视频
|
9月前
|
人工智能
EDTalk:只需上传图片、音频和视频,就能使图片中的人物说话,情感表情与音频情绪高度统一
EDTalk 是上海交通大学与网易联合研发的高效解耦情感说话头像合成模型,能够独立控制嘴型、头部姿态和情感表情,适用于多种应用场景。
384 26
EDTalk:只需上传图片、音频和视频,就能使图片中的人物说话,情感表情与音频情绪高度统一
|
11月前
|
人工智能 Ubuntu 语音技术
ebook2audiobookXTTS:开源电子书转有声书 AI 工具,支持 16 种语言
ebook2audiobookXTTS 是一款开源的 AI 工具,能够将电子书转换为有声书,支持多种电子书格式和 16 种语言。该工具利用 Coqui XTTS 技术实现高质量的文本到语音转换,并提供命令行、Web 界面和 Docker 容器等多种使用方式。
1196 3
ebook2audiobookXTTS:开源电子书转有声书 AI 工具,支持 16 种语言
|
11月前
|
JavaScript 计算机视觉
FLUX.1 Tools 全家桶开源!文末附一键ComfyUI启动链接
Black Forest Labs 发布了 FLUX.1 Tools,一套增强 FLUX.1 文本转图像模型的工具集,包括 FLUX.1 Fill、FLUX.1 Depth、FLUX.1 Canny 和 FLUX.1 Redux,分别用于图像修复、深度引导、边缘检测和图像重组。提供详细的安装指南和模型下载链接,支持用户快速上手并优化图像处理流程。
3829 4
FLUX.1 Tools 全家桶开源!文末附一键ComfyUI启动链接
|
11月前
|
人工智能 自然语言处理 物联网
llama factory 从数据集起步 跑通 qwen系列开源生成式大模型 微调
`dataset_info.json` 文件用于管理 llama factory 中的所有数据集,支持 `alpaca` 和 `sharegpt` 格式。通过配置此文件,可以轻松添加自定义数据集。数据集的相关参数包括数据源地址、数据集格式、样本数量等,支持 Hugging Face 和 ModelScope 两个平台的数据集仓库。针对不同格式的数据集,提供了详细的配置示例,如 `alpaca` 格式的指令监督微调数据集、偏好数据集等,以及 `sharegpt` 格式的多模态数据集等。今天我们通过自定义数据集的方式来进行qwen2.5_14B_instruct模型进行微调
4266 7