批量提取某音文案

简介: 本文介绍了批量提取文案的思路, 以及操作过程中的问题的处理方法, 并给了详细的参考代码, 以及对应的文档.

牙叔教程 简单易懂

我想学习某个人的文案, 怎么把它的文案全下载下来?

  1. 批量下载视频和音频
  2. 批量音频转文字

下载视频和音频

我在github找到的是这个仓库

https://github.com/Johnserf-Seed/TikTokDownload

经过实际测试, 可以使用, 只是失败的频率略高.

获取用户信息的时候, 尝试了5次才正确获取到用户信息,

只有获取到用户信息, 才能下载到视频;

虽然失败的概率有点高, 但是也仅是要多按几下 ↑ 和 回车键, 也不费啥事.

如果, 填写了cookie, 那么成功率大大提高, 不懂的话就看仓库的 issue.

这是下载好的视频和音频, 可以看到mp4和mp3的后缀名,

音频是直接下载下来的, 不是后期提取的.

文件 conf.ini 默认是不下载音频的, 所以要改一下.

music后面默认是no, 改成yes

[music]

# 视频原声保存(yes|no)

music = yes

其他的就照着README.md做就可以了


语音转文字

一共三种方案

  • 某讯
  • 微软
  • 有道

某讯

我看了一下某讯的价格, 70块30个小时,


微软

微软也有语音转文字的服务, 就是要绑卡, 绑卡的话, 某宝是几十块左右;


网易

网易, 他是2块钱一个小时, 这个就很人性化,

某讯开始就是30个小时, 我又用不了那么多, 至少我现在用不了.

批量自动化的时候, 你才需要买它, 你单独转的话, 可以直接使用

网易见外 https://jianwai.youdao.com/index/0

网易见外不用花一分钱, 但是依然很好用


那么今天给大家试试两种方案

微软

如果你没有卡, 可以去某宝搞;

如果你不会创建微软的服务, 可以看这个教程

文本转语音-微软Azure-一步一步教你从注册到使用

https://mp.weixin.qq.com/s/ycc35s51W0_4-raoF-fsMw


我们要把音频转文字, 所以选择第二个, 脱机字幕

他的文档有代码, 直接复制黏贴就可以使用了

代码在此

https://learn.microsoft.com/zh-cn/azure/cognitive-services/speech-service/get-started-speech-to-text?pivots=programming-language-javascript&tabs=windows%2Cterminal

下面是我的代码例子

语音转文字, 分两步

  • mp3转wav
  • wav转文字

// 此示例支持最多 30 秒的音频。

const fs = require("fs");

const sdk = require("microsoft-cognitiveservices-speech-sdk");

const { exec } = require("child_process");


const { secretKey: YourSubscriptionKey, region: YourServiceRegion, mp3FilePath } = require("./config.js");


let wavFilePath = mp3FilePath.replace(".mp3", ".wav");

let mp3ToWavCmd = `ffmpeg -i "${mp3FilePath}" "${wavFilePath}"`;


const speechConfig = sdk.SpeechConfig.fromSubscription(YourSubscriptionKey, YourServiceRegion);

speechConfig.speechRecognitionLanguage = "zh-CN";


async function recognizeSpeechFromFile() {

 let speechRecognizer;

 try {

   // Convert MP3 to WAV

   await new Promise((resolve, reject) => {

     exec(mp3ToWavCmd, (error) => {

       if (error) {

         console.error(`Error converting MP3 to WAV: ${error.message}`);

         reject(error);

       } else {

         console.log("MP3 file converted to WAV successfully.");

         resolve();

       }

     });

   });


   const audioConfig = sdk.AudioConfig.fromWavFileInput(fs.readFileSync(wavFilePath));

   speechRecognizer = new sdk.SpeechRecognizer(speechConfig, audioConfig);

   await new Promise((resolve, reject) => {

     speechRecognizer.recognizeOnceAsync((result) => {

       switch (result.reason) {

         case sdk.ResultReason.RecognizedSpeech:

           console.log(`RECOGNIZED: Text=${result.text}`);

           resolve(result.text);

           break;

         case sdk.ResultReason.NoMatch:

           console.log("NOMATCH: Speech could not be recognized.");

           reject("NOMATCH");

           break;

         case sdk.ResultReason.Canceled: {

           const cancellation = sdk.CancellationDetails.fromResult(result);

           console.log(`CANCELED: Reason=${cancellation.reason}`);


           if (cancellation.reason === sdk.CancellationReason.Error) {

             console.log(`CANCELED: ErrorCode=${cancellation.ErrorCode}`);

             console.log(`CANCELED: ErrorDetails=${cancellation.errorDetails}`);

             console.log("CANCELED: Did you set the speech resource key and region values?");

           }

           reject("CANCELED");

           break;

         }

       }

     });

   });

 } catch (error) {

   console.error("Error during recognition:", error);

 } finally {

   if (speechRecognizer) {

     speechRecognizer.close();

   }

 }

}


recognizeSpeechFromFile();



不过, 还是应该看看文档再动手,

这是微软文字转语音的文档

https://learn.microsoft.com/zh-cn/azure/cognitive-services/speech-service/captioning-concepts?pivots=programming-language-javascript


上面的代码只支持30s, 如果改成这种订阅式的代码, 就支持更长时间了

我们将订阅从 SpeechRecognizer 发送的事件:


recognizing:事件信号,包含中间识别结果。

recognized:包含最终识别结果的事件信号,指示成功的识别尝试。

sessionStopped:事件信号,指示识别会话的结束(操作)。

canceled:事件信号,包含已取消的识别结果。 这些结果指示因直接取消请求而取消的识别尝试。 或者,它们指示传输或协议失败。

speechRecognizer.recognizing = (s, e) => {

   console.log(`RECOGNIZING: Text=${e.result.text}`);

};


speechRecognizer.recognized = (s, e) => {

   if (e.result.reason == sdk.ResultReason.RecognizedSpeech) {

       console.log(`RECOGNIZED: Text=${e.result.text}`);

   }

   else if (e.result.reason == sdk.ResultReason.NoMatch) {

       console.log("NOMATCH: Speech could not be recognized.");

   }

};


speechRecognizer.canceled = (s, e) => {

   console.log(`CANCELED: Reason=${e.reason}`);


   if (e.reason == sdk.CancellationReason.Error) {

       console.log(`"CANCELED: ErrorCode=${e.errorCode}`);

       console.log(`"CANCELED: ErrorDetails=${e.errorDetails}`);

       console.log("CANCELED: Did you set the speech resource key and region values?");

   }


   speechRecognizer.stopContinuousRecognitionAsync();

};


speechRecognizer.sessionStopped = (s, e) => {

   console.log("\n    Session stopped event.");

   speechRecognizer.stopContinuousRecognitionAsync();

};


下载的数据

mp4 + mp3 + txt

语音转的文字

这是一个5分钟的电影解说, 1412个字,

如果是小说, 估计字数得翻倍, 这个是电影, 有一些时间是放的电影片段, 没有台词.


ffmpge

由于微软默认支持wav, 所以我们需要转换语音格式,  把mp3转成wav,

因此, 需要在电脑上安装 FFMPEG, 不会装的可以百度 Windows 10系统下安装FFmpeg教程详解

ffmpeg使用注意事项

  • 如果文件存在, 那么命令会卡住

网易

长语音转写文档

https://ai.youdao.com/DOCSIRMA/html/%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%88%ABASR/API%E6%96%87%E6%A1%A3/%E9%95%BF%E8%AF%AD%E9%9F%B3%E8%BD%AC%E5%86%99%E6%9C%8D%E5%8A%A1/%E9%95%BF%E8%AF%AD%E9%9F%B3%E8%BD%AC%E5%86%99%E6%9C%8D%E5%8A%A1-API%E6%96%87%E6%A1%A3.html


创建应用时, 选择 长语音转写


网易文档中的错误

这个sliceId是 大写的i (爱),

但是他这个文档里是小写的l (矮楼)


文档中的响应结果, 是写文档的人复制黏贴的.

比如, 这几张响应结果, msg都是sucess


实际上, msg的值都是 null


文件上传的时候, 这里是字节数组, 而不是text

你就说这样写文档快不快吧, 类型全是text


网易长语音转文本的代码

const fs = require("fs");

const axios = require("axios");

const path = require("path");

const crypto = require("crypto");

const FormData = require("form-data");

const util = require("util");

const { wangyi } = require("./config.js");

const stat = util.promisify(fs.stat);


async function getFileSize(filePath) {

 try {

   const stats = await stat(filePath);

   const fileSizeInBytes = stats.size;

   console.log(`文件大小: ${fileSizeInBytes} 字节`);

   return fileSizeInBytes;

 } catch (err) {

   console.error("发生错误:", err);

 }

}


async function wangYiRcognizeSpeechFromFile(audioFilePath) {

 let fileName = path.basename(audioFilePath);

 // 请在这里设置您的应用ID和应用密钥

 const appKey = wangyi.appKey;

 const appSecret = wangyi.secretKey;

 let fileSize = await getFileSize(audioFilePath);

 let salt = uuidv4();

 let curtime = Math.floor(Date.now() / 1000);

 let sign = crypto

   .createHash("sha256")

   .update(appKey + salt + curtime + appSecret)

   .digest("hex");


 let formData = new FormData();

 formData.append("salt", salt);

 formData.append("type", 1);

 formData.append("appKey", appKey);

 formData.append("sliceNum", "1");

 formData.append("name", fileName);

 formData.append("fileSize", fileSize);

 formData.append("curtime", curtime);

 formData.append("langType", "zh-CHS");

 formData.append("sign", sign);

 formData.append("signType", "v4");

 formData.append("format", "mp3");

 formData.append("noitn", 1);


 const prepareResponse = await axios.post("http://openapi.youdao.com/api/audio/prepare", formData, { headers: formData.getHeaders() });


 if (prepareResponse.data.errorCode !== "0") {

   throw new Error(`Prepare failed: ${prepareResponse.data.msg}`);

 }

 console.log("准备上传");

 console.log(prepareResponse.data);

 const taskid = prepareResponse.data.result;

 formData = new FormData();

 formData.append("q", taskid);

 formData.append("appKey", appKey);

 salt = uuidv4();


 formData.append("salt", salt);

 formData.append("curtime", curtime);


 sign = crypto

   .createHash("sha256")

   .update(appKey + salt + curtime + appSecret)

   .digest("hex");


 formData.append("sign", sign);

 formData.append("signType", "v4");

 formData.append("sliceId", "1");

 // 判断文件是否存在

 if (!fs.existsSync(audioFilePath)) {

   throw new Error(`File not found: ${audioFilePath}`);

 }

 // 打印文件大小

 console.log(`文件大小: ${fs.statSync(audioFilePath).size} 字节`);

 formData.append("file", fs.readFileSync(audioFilePath), { contentType: "audio/mp3", filename: fileName });

 formData.append("type", "1");


 const uploadResponse = await axios.post("http://openapi.youdao.com/api/audio/upload", formData, { headers: formData.getHeaders() });


 if (uploadResponse.data.errorCode !== "0") {

   throw new Error(`Upload failed: ${uploadResponse.data.msg}`);

 }

 console.log("上传文件");

 console.log(uploadResponse.data);

 /* -------------------------------------------------------------------------- */

 formData = new FormData();

 formData.append("q", taskid);

 formData.append("appKey", appKey);

 salt = uuidv4();

 formData.append("salt", salt);

 curtime = Math.floor(Date.now() / 1000);

 formData.append("curtime", curtime);

 sign = crypto

   .createHash("sha256")

   .update(appKey + salt + curtime + appSecret)

   .digest("hex");


 formData.append("sign", sign);

 formData.append("signType", "v4");


 const mergeResponse = await axios.post("http://openapi.youdao.com/api/audio/merge", formData, { headers: formData.getHeaders() });


 if (mergeResponse.data.errorCode !== "0") {

   throw new Error(`Merge failed: ${mergeResponse.data.msg}`);

 }

 console.log("合并文件");

 console.log(mergeResponse.data);

 // process.exit(0);


 let progressResponse;

 do {

   await new Promise((resolve) => setTimeout(resolve, 60 * 1000));

   formData = new FormData();

   formData.append("q", taskid);

   formData.append("appKey", appKey);

   salt = uuidv4();

   formData.append("salt", salt);

   curtime = Math.floor(Date.now() / 1000);

   formData.append("curtime", curtime);

   sign = crypto

     .createHash("sha256")

     .update(appKey + salt + curtime + appSecret)

     .digest("hex");


   formData.append("sign", sign);

   formData.append("signType", "v4");

   progressResponse = await axios.post("http://openapi.youdao.com/api/audio/get_progress", formData, { headers: formData.getHeaders() });

   console.log("获取进度");

   console.log(progressResponse.data);

 } while (progressResponse.data.result[0].status !== "9");


 formData = new FormData();

 formData.append("q", taskid);

 formData.append("appKey", appKey);

 salt = uuidv4();

 formData.append("salt", salt);

 curtime = Math.floor(Date.now() / 1000);

 formData.append("curtime", curtime);

 sign = crypto

   .createHash("sha256")

   .update(appKey + salt + curtime + appSecret)

   .digest("hex");


 formData.append("sign", sign);

 formData.append("signType", "v4");


 const resultResponse = await axios.post("http://openapi.youdao.com/api/audio/get_result", formData, { headers: formData.getHeaders() });


 if (resultResponse.data.errorCode !== "0") {

   throw new Error(`Get result failed: ${resultResponse.data.msg}`);

 }

 console.log("获取结果");

 console.log(resultResponse.data);

 const text = resultResponse.data.result.map((item) => item.sentence).join("\n");

 fs.writeFileSync(fileName, text);

}


// 生成 UUID v4

function uuidv4() {

 return "xxxxxxxx-xxxx-4xxx-yxxx-xxxxxxxxxxxx".replace(/[xy]/g, function (c) {

   var r = (Math.random() * 16) | 0,

     v = c == "x" ? r : (r & 0x3) | 0x8;

   return v.toString(16);

 });

}


网易与微软对比

微软

网易

获取结果需要轮询

不需要

需要

准确度

略高

略低

接口方便程度

一个订阅模式, 每秒钟都会给你返回信息, 直到任务完成,

感觉比网易方便一些

四个步骤: 准备, 上传, 获取状态, 获取结果

需要mp3转wav

需要

不需要

建议用哪个

都可以, 都差不多

写代码利器

本文的代码大部分是 ChatGPT4 写的,

你如果不想动手, 可以像我一样, 直接复制黏贴网易有道云的文档, 然后叫chatgpt给你代码

就像这样

我用的 ChatGPT4, 是这个

ChatGPT联网版, Stable Diffusion画图, 这个星球全都有, 低调使用, 别外传

声明

本文仅供学习研究使用, 禁止用于其他用途


微信公众号 牙叔教程


相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
2天前
|
编解码 文字识别 自然语言处理
如何使用OCR技术批量识别图片中的文字并重命名文件,OCR 技术批量识别图片中的文字可能出现的错误
### 简介 【批量识别图片内容重命名】工具可批量识别图片中的文字并重命名文件,方便高效处理大量图片。然而,OCR 技术面临字符识别错误(如形近字混淆、生僻字识别不佳)、格式错误(段落错乱、换行问题)和语义理解错误等挑战。为提高准确性,建议提升图片质量、选择合适的 OCR 软件及参数,并结合自动校对与人工审核,确保最终文本的正确性和完整性。
27 12
如何使用OCR技术批量识别图片中的文字并重命名文件,OCR 技术批量识别图片中的文字可能出现的错误
|
前端开发 API PHP
微信分享自定义图片和摘要
参考:  微信分享实现   微信现在是众多公司营销的重点。遍布朋友圈和消息群组里的html5各位可能也是天天见了,不过自从微信更新了官方api后,对整个微信内的页面管控都严格了不少。而官方的分享卡片,是众多在微信生态中传播的html5静态页面的一个重点。
1572 0
|
30天前
|
人工智能 Serverless 数据处理
通过图片视觉理解,结构化提取属性信息
邀请您参加图片信息提取挑战!使用AI技术提升数据处理效率,通过部署应用并上传图片信息截图,即可赢取南瓜蒲团坐垫,每日限量50个,先到先得。活动截止至2024年12月27日16:00。立即访问活动页面参与吧!
|
8月前
|
文字识别 测试技术 数据安全/隐私保护
案例:批量区域识别内容重命名,批量识别扫描PDF区域内容识别重命名,批量识别图片区域内容重命名图片修改图片名字,批量识别图片区域文字并重命名,批量图片部分识别内容重命文件,PDF区域内容提取重命名
该内容介绍了如何使用区域识别重命名软件高效整理图片,例如将图片按时间及内容重命名,适用于简历、单据等识别。文中提供了软件下载链接(百度云盘和腾讯网盘),并列出软件使用的几个关键条件,包括文字清晰、文件名长度限制等。示例展示了银行单据和公司工作单据的识别情况。文章还提及OCR技术在图片文字识别中的应用,强调了识别率、误识率和用户友好性等评估指标。如有类似需求,读者可留言或下载软件测试,并提供图片以获取定制的识别方案。
389 2
|
7月前
|
机器学习/深度学习 文字识别 算法
视觉智能开放平台产品使用合集之文字敏感内容识别和文字违禁内容识别有什么区别
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
7月前
|
存储 数据可视化 TensorFlow
电话实时转换文字
6月更文挑战第3天
|
人工智能 文字识别 API
20行代码教你如何批量提取图片中文字
大家好,我是志斌~ 之前志斌在考研的时候遇到了一个问题,就是要将图片中的文字给提取出来,当时是J哥帮忙搞出来的,现在已经考完研了,也学会了提取方式,现在来给大家分享一下。
879 0
20行代码教你如何批量提取图片中文字
|
计算机视觉
在线生成ArUco标签图片
在线生成ArUco标签图片
452 0
RPA 中批量备注特定的文字
RPA 中批量备注特定的文字
127 0
|
人工智能
批量提取某音视频文案(二)
介绍批量提取视频文案的流程, 以及做视频的步骤
608 0

热门文章

最新文章