批量提取某音文案

简介: 本文介绍了批量提取文案的思路, 以及操作过程中的问题的处理方法, 并给了详细的参考代码, 以及对应的文档.

牙叔教程 简单易懂

我想学习某个人的文案, 怎么把它的文案全下载下来?

  1. 批量下载视频和音频
  2. 批量音频转文字

下载视频和音频

我在github找到的是这个仓库

https://github.com/Johnserf-Seed/TikTokDownload

经过实际测试, 可以使用, 只是失败的频率略高.

获取用户信息的时候, 尝试了5次才正确获取到用户信息,

只有获取到用户信息, 才能下载到视频;

虽然失败的概率有点高, 但是也仅是要多按几下 ↑ 和 回车键, 也不费啥事.

如果, 填写了cookie, 那么成功率大大提高, 不懂的话就看仓库的 issue.

这是下载好的视频和音频, 可以看到mp4和mp3的后缀名,

音频是直接下载下来的, 不是后期提取的.

文件 conf.ini 默认是不下载音频的, 所以要改一下.

music后面默认是no, 改成yes

[music]

# 视频原声保存(yes|no)

music = yes

其他的就照着README.md做就可以了


语音转文字

一共三种方案

  • 某讯
  • 微软
  • 有道

某讯

我看了一下某讯的价格, 70块30个小时,


微软

微软也有语音转文字的服务, 就是要绑卡, 绑卡的话, 某宝是几十块左右;


网易

网易, 他是2块钱一个小时, 这个就很人性化,

某讯开始就是30个小时, 我又用不了那么多, 至少我现在用不了.

批量自动化的时候, 你才需要买它, 你单独转的话, 可以直接使用

网易见外 https://jianwai.youdao.com/index/0

网易见外不用花一分钱, 但是依然很好用


那么今天给大家试试两种方案

微软

如果你没有卡, 可以去某宝搞;

如果你不会创建微软的服务, 可以看这个教程

文本转语音-微软Azure-一步一步教你从注册到使用

https://mp.weixin.qq.com/s/ycc35s51W0_4-raoF-fsMw


我们要把音频转文字, 所以选择第二个, 脱机字幕

他的文档有代码, 直接复制黏贴就可以使用了

代码在此

https://learn.microsoft.com/zh-cn/azure/cognitive-services/speech-service/get-started-speech-to-text?pivots=programming-language-javascript&tabs=windows%2Cterminal

下面是我的代码例子

语音转文字, 分两步

  • mp3转wav
  • wav转文字

// 此示例支持最多 30 秒的音频。

const fs = require("fs");

const sdk = require("microsoft-cognitiveservices-speech-sdk");

const { exec } = require("child_process");


const { secretKey: YourSubscriptionKey, region: YourServiceRegion, mp3FilePath } = require("./config.js");


let wavFilePath = mp3FilePath.replace(".mp3", ".wav");

let mp3ToWavCmd = `ffmpeg -i "${mp3FilePath}" "${wavFilePath}"`;


const speechConfig = sdk.SpeechConfig.fromSubscription(YourSubscriptionKey, YourServiceRegion);

speechConfig.speechRecognitionLanguage = "zh-CN";


async function recognizeSpeechFromFile() {

 let speechRecognizer;

 try {

   // Convert MP3 to WAV

   await new Promise((resolve, reject) => {

     exec(mp3ToWavCmd, (error) => {

       if (error) {

         console.error(`Error converting MP3 to WAV: ${error.message}`);

         reject(error);

       } else {

         console.log("MP3 file converted to WAV successfully.");

         resolve();

       }

     });

   });


   const audioConfig = sdk.AudioConfig.fromWavFileInput(fs.readFileSync(wavFilePath));

   speechRecognizer = new sdk.SpeechRecognizer(speechConfig, audioConfig);

   await new Promise((resolve, reject) => {

     speechRecognizer.recognizeOnceAsync((result) => {

       switch (result.reason) {

         case sdk.ResultReason.RecognizedSpeech:

           console.log(`RECOGNIZED: Text=${result.text}`);

           resolve(result.text);

           break;

         case sdk.ResultReason.NoMatch:

           console.log("NOMATCH: Speech could not be recognized.");

           reject("NOMATCH");

           break;

         case sdk.ResultReason.Canceled: {

           const cancellation = sdk.CancellationDetails.fromResult(result);

           console.log(`CANCELED: Reason=${cancellation.reason}`);


           if (cancellation.reason === sdk.CancellationReason.Error) {

             console.log(`CANCELED: ErrorCode=${cancellation.ErrorCode}`);

             console.log(`CANCELED: ErrorDetails=${cancellation.errorDetails}`);

             console.log("CANCELED: Did you set the speech resource key and region values?");

           }

           reject("CANCELED");

           break;

         }

       }

     });

   });

 } catch (error) {

   console.error("Error during recognition:", error);

 } finally {

   if (speechRecognizer) {

     speechRecognizer.close();

   }

 }

}


recognizeSpeechFromFile();



不过, 还是应该看看文档再动手,

这是微软文字转语音的文档

https://learn.microsoft.com/zh-cn/azure/cognitive-services/speech-service/captioning-concepts?pivots=programming-language-javascript


上面的代码只支持30s, 如果改成这种订阅式的代码, 就支持更长时间了

我们将订阅从 SpeechRecognizer 发送的事件:


recognizing:事件信号,包含中间识别结果。

recognized:包含最终识别结果的事件信号,指示成功的识别尝试。

sessionStopped:事件信号,指示识别会话的结束(操作)。

canceled:事件信号,包含已取消的识别结果。 这些结果指示因直接取消请求而取消的识别尝试。 或者,它们指示传输或协议失败。

speechRecognizer.recognizing = (s, e) => {

   console.log(`RECOGNIZING: Text=${e.result.text}`);

};


speechRecognizer.recognized = (s, e) => {

   if (e.result.reason == sdk.ResultReason.RecognizedSpeech) {

       console.log(`RECOGNIZED: Text=${e.result.text}`);

   }

   else if (e.result.reason == sdk.ResultReason.NoMatch) {

       console.log("NOMATCH: Speech could not be recognized.");

   }

};


speechRecognizer.canceled = (s, e) => {

   console.log(`CANCELED: Reason=${e.reason}`);


   if (e.reason == sdk.CancellationReason.Error) {

       console.log(`"CANCELED: ErrorCode=${e.errorCode}`);

       console.log(`"CANCELED: ErrorDetails=${e.errorDetails}`);

       console.log("CANCELED: Did you set the speech resource key and region values?");

   }


   speechRecognizer.stopContinuousRecognitionAsync();

};


speechRecognizer.sessionStopped = (s, e) => {

   console.log("\n    Session stopped event.");

   speechRecognizer.stopContinuousRecognitionAsync();

};


下载的数据

mp4 + mp3 + txt

语音转的文字

这是一个5分钟的电影解说, 1412个字,

如果是小说, 估计字数得翻倍, 这个是电影, 有一些时间是放的电影片段, 没有台词.


ffmpge

由于微软默认支持wav, 所以我们需要转换语音格式,  把mp3转成wav,

因此, 需要在电脑上安装 FFMPEG, 不会装的可以百度 Windows 10系统下安装FFmpeg教程详解

ffmpeg使用注意事项

  • 如果文件存在, 那么命令会卡住

网易

长语音转写文档

https://ai.youdao.com/DOCSIRMA/html/%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%88%ABASR/API%E6%96%87%E6%A1%A3/%E9%95%BF%E8%AF%AD%E9%9F%B3%E8%BD%AC%E5%86%99%E6%9C%8D%E5%8A%A1/%E9%95%BF%E8%AF%AD%E9%9F%B3%E8%BD%AC%E5%86%99%E6%9C%8D%E5%8A%A1-API%E6%96%87%E6%A1%A3.html


创建应用时, 选择 长语音转写


网易文档中的错误

这个sliceId是 大写的i (爱),

但是他这个文档里是小写的l (矮楼)


文档中的响应结果, 是写文档的人复制黏贴的.

比如, 这几张响应结果, msg都是sucess


实际上, msg的值都是 null


文件上传的时候, 这里是字节数组, 而不是text

你就说这样写文档快不快吧, 类型全是text


网易长语音转文本的代码

const fs = require("fs");

const axios = require("axios");

const path = require("path");

const crypto = require("crypto");

const FormData = require("form-data");

const util = require("util");

const { wangyi } = require("./config.js");

const stat = util.promisify(fs.stat);


async function getFileSize(filePath) {

 try {

   const stats = await stat(filePath);

   const fileSizeInBytes = stats.size;

   console.log(`文件大小: ${fileSizeInBytes} 字节`);

   return fileSizeInBytes;

 } catch (err) {

   console.error("发生错误:", err);

 }

}


async function wangYiRcognizeSpeechFromFile(audioFilePath) {

 let fileName = path.basename(audioFilePath);

 // 请在这里设置您的应用ID和应用密钥

 const appKey = wangyi.appKey;

 const appSecret = wangyi.secretKey;

 let fileSize = await getFileSize(audioFilePath);

 let salt = uuidv4();

 let curtime = Math.floor(Date.now() / 1000);

 let sign = crypto

   .createHash("sha256")

   .update(appKey + salt + curtime + appSecret)

   .digest("hex");


 let formData = new FormData();

 formData.append("salt", salt);

 formData.append("type", 1);

 formData.append("appKey", appKey);

 formData.append("sliceNum", "1");

 formData.append("name", fileName);

 formData.append("fileSize", fileSize);

 formData.append("curtime", curtime);

 formData.append("langType", "zh-CHS");

 formData.append("sign", sign);

 formData.append("signType", "v4");

 formData.append("format", "mp3");

 formData.append("noitn", 1);


 const prepareResponse = await axios.post("http://openapi.youdao.com/api/audio/prepare", formData, { headers: formData.getHeaders() });


 if (prepareResponse.data.errorCode !== "0") {

   throw new Error(`Prepare failed: ${prepareResponse.data.msg}`);

 }

 console.log("准备上传");

 console.log(prepareResponse.data);

 const taskid = prepareResponse.data.result;

 formData = new FormData();

 formData.append("q", taskid);

 formData.append("appKey", appKey);

 salt = uuidv4();


 formData.append("salt", salt);

 formData.append("curtime", curtime);


 sign = crypto

   .createHash("sha256")

   .update(appKey + salt + curtime + appSecret)

   .digest("hex");


 formData.append("sign", sign);

 formData.append("signType", "v4");

 formData.append("sliceId", "1");

 // 判断文件是否存在

 if (!fs.existsSync(audioFilePath)) {

   throw new Error(`File not found: ${audioFilePath}`);

 }

 // 打印文件大小

 console.log(`文件大小: ${fs.statSync(audioFilePath).size} 字节`);

 formData.append("file", fs.readFileSync(audioFilePath), { contentType: "audio/mp3", filename: fileName });

 formData.append("type", "1");


 const uploadResponse = await axios.post("http://openapi.youdao.com/api/audio/upload", formData, { headers: formData.getHeaders() });


 if (uploadResponse.data.errorCode !== "0") {

   throw new Error(`Upload failed: ${uploadResponse.data.msg}`);

 }

 console.log("上传文件");

 console.log(uploadResponse.data);

 /* -------------------------------------------------------------------------- */

 formData = new FormData();

 formData.append("q", taskid);

 formData.append("appKey", appKey);

 salt = uuidv4();

 formData.append("salt", salt);

 curtime = Math.floor(Date.now() / 1000);

 formData.append("curtime", curtime);

 sign = crypto

   .createHash("sha256")

   .update(appKey + salt + curtime + appSecret)

   .digest("hex");


 formData.append("sign", sign);

 formData.append("signType", "v4");


 const mergeResponse = await axios.post("http://openapi.youdao.com/api/audio/merge", formData, { headers: formData.getHeaders() });


 if (mergeResponse.data.errorCode !== "0") {

   throw new Error(`Merge failed: ${mergeResponse.data.msg}`);

 }

 console.log("合并文件");

 console.log(mergeResponse.data);

 // process.exit(0);


 let progressResponse;

 do {

   await new Promise((resolve) => setTimeout(resolve, 60 * 1000));

   formData = new FormData();

   formData.append("q", taskid);

   formData.append("appKey", appKey);

   salt = uuidv4();

   formData.append("salt", salt);

   curtime = Math.floor(Date.now() / 1000);

   formData.append("curtime", curtime);

   sign = crypto

     .createHash("sha256")

     .update(appKey + salt + curtime + appSecret)

     .digest("hex");


   formData.append("sign", sign);

   formData.append("signType", "v4");

   progressResponse = await axios.post("http://openapi.youdao.com/api/audio/get_progress", formData, { headers: formData.getHeaders() });

   console.log("获取进度");

   console.log(progressResponse.data);

 } while (progressResponse.data.result[0].status !== "9");


 formData = new FormData();

 formData.append("q", taskid);

 formData.append("appKey", appKey);

 salt = uuidv4();

 formData.append("salt", salt);

 curtime = Math.floor(Date.now() / 1000);

 formData.append("curtime", curtime);

 sign = crypto

   .createHash("sha256")

   .update(appKey + salt + curtime + appSecret)

   .digest("hex");


 formData.append("sign", sign);

 formData.append("signType", "v4");


 const resultResponse = await axios.post("http://openapi.youdao.com/api/audio/get_result", formData, { headers: formData.getHeaders() });


 if (resultResponse.data.errorCode !== "0") {

   throw new Error(`Get result failed: ${resultResponse.data.msg}`);

 }

 console.log("获取结果");

 console.log(resultResponse.data);

 const text = resultResponse.data.result.map((item) => item.sentence).join("\n");

 fs.writeFileSync(fileName, text);

}


// 生成 UUID v4

function uuidv4() {

 return "xxxxxxxx-xxxx-4xxx-yxxx-xxxxxxxxxxxx".replace(/[xy]/g, function (c) {

   var r = (Math.random() * 16) | 0,

     v = c == "x" ? r : (r & 0x3) | 0x8;

   return v.toString(16);

 });

}


网易与微软对比

微软

网易

获取结果需要轮询

不需要

需要

准确度

略高

略低

接口方便程度

一个订阅模式, 每秒钟都会给你返回信息, 直到任务完成,

感觉比网易方便一些

四个步骤: 准备, 上传, 获取状态, 获取结果

需要mp3转wav

需要

不需要

建议用哪个

都可以, 都差不多

写代码利器

本文的代码大部分是 ChatGPT4 写的,

你如果不想动手, 可以像我一样, 直接复制黏贴网易有道云的文档, 然后叫chatgpt给你代码

就像这样

我用的 ChatGPT4, 是这个

ChatGPT联网版, Stable Diffusion画图, 这个星球全都有, 低调使用, 别外传

声明

本文仅供学习研究使用, 禁止用于其他用途


微信公众号 牙叔教程


相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
6月前
|
文字识别
分享:如何ocr识别身份证复印件并导出至excel表格 ? 图片批量识别导出excel表格应用,图片批量识别转excel表格的方法
该软件是一款OCR身份证识别工具,能批量处理图片,自动提取身份证信息并导出为Excel。支持百度网盘和腾讯云盘下载。用户界面直观,操作简单,适合新手。识别过程包括:打开图片、一键识别、导出结果。特别注意,此程序仅适用于身份证识别,不适用于其他类型的图片识别。
253 1
分享:如何ocr识别身份证复印件并导出至excel表格 ? 图片批量识别导出excel表格应用,图片批量识别转excel表格的方法
|
5月前
|
文字识别 算法 Java
视觉智能开放平台产品使用合集之在已有的N张照片中搜索包含特定人脸样本的照片,并获取置信度返回结果,该用哪个API
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
5月前
|
文字识别 算法 API
视觉智能开放平台产品使用合集之人脸搜索的添加人脸样本里的标签属性,查询的结果是一整个字符串,是什么原因
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
5月前
|
机器学习/深度学习 文字识别 算法
视觉智能开放平台产品使用合集之文字敏感内容识别和文字违禁内容识别有什么区别
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
6月前
|
文字识别 测试技术 数据安全/隐私保护
案例:批量区域识别内容重命名,批量识别扫描PDF区域内容识别重命名,批量识别图片区域内容重命名图片修改图片名字,批量识别图片区域文字并重命名,批量图片部分识别内容重命文件,PDF区域内容提取重命名
该内容介绍了如何使用区域识别重命名软件高效整理图片,例如将图片按时间及内容重命名,适用于简历、单据等识别。文中提供了软件下载链接(百度云盘和腾讯网盘),并列出软件使用的几个关键条件,包括文字清晰、文件名长度限制等。示例展示了银行单据和公司工作单据的识别情况。文章还提及OCR技术在图片文字识别中的应用,强调了识别率、误识率和用户友好性等评估指标。如有类似需求,读者可留言或下载软件测试,并提供图片以获取定制的识别方案。
319 2
|
6月前
|
消息中间件 JavaScript Java
MQ产品使用合集之视觉智能平台人脸搜索1:N怎么更新人脸数据
消息队列(MQ)是一种用于异步通信和解耦的应用程序间消息传递的服务,广泛应用于分布式系统中。针对不同的MQ产品,如阿里云的RocketMQ、RabbitMQ等,它们在实现上述场景时可能会有不同的特性和优势,比如RocketMQ强调高吞吐量、低延迟和高可用性,适合大规模分布式系统;而RabbitMQ则以其灵活的路由规则和丰富的协议支持受到青睐。下面是一些常见的消息队列MQ产品的使用场景合集,这些场景涵盖了多种行业和业务需求。
|
搜索推荐 流计算 索引
视觉智能平台中,如果你想批量清空人脸样本库里的样本数据
视觉智能平台中,如果你想批量清空人脸样本库里的样本数据
156 5
|
人工智能 文字识别 API
20行代码教你如何批量提取图片中文字
大家好,我是志斌~ 之前志斌在考研的时候遇到了一个问题,就是要将图片中的文字给提取出来,当时是J哥帮忙搞出来的,现在已经考完研了,也学会了提取方式,现在来给大家分享一下。
844 0
20行代码教你如何批量提取图片中文字
如何批量制作一物一码标签?
许多行业存在为人员、物品、设备等做一物一码标签的需求,可使用草料标签制作功能。直接选择标签样式,填入数据,即可批量生成标签,还可批量排版,更易落地。还可保存标签样式,后续多次复用样式,批量制作标签。