Whisper、React 和 Node 构建语音转文本 Web 应用程序(二)

简介: Whisper、React 和 Node 构建语音转文本 Web 应用程序(二)

前端

样式将使用 Tailwind 完成,但我不会介绍如何设置 Tailwind。您可以在此处阅读有关如何设置和使用 Tailwind 的信息

创建 TimePicker 组件

由于我们的 API 接受startTime和endTime,所以让我们使用TimePicker来创建一个组件react-select。

使用react-select只是将其他功能添加到选择菜单中,例如搜索选项,但这对本文并不重要,可以跳过。


让我们分解一下TimePicker下面的 React 组件:

进口和组件申报。首先,我们导入必要的包并声明我们的TimePicker组件。该TimePicker组件接受 props idlabelvalueonChangemaxDuration

import React, { useState, useEffect, useCallback } from 'react';
import Select from 'react-select';
const TimePicker = ({ id, label, value, onChange, maxDuration }) => {

解析valueprop。该valueprop 预计是一个时间字符串(格式HH:MM:SS)。这里我们将时间分为小时、分钟和秒:

const [hours, minutes, seconds] = value.split(':').map((v) => parseInt(v, 10));

计算最大值maxDuration是根据音频持续时间可以选择的最大时间(以秒为单位)。它被转换为小时、分钟和秒:

const validMaxDuration = maxDuration === Infinity ? 0 : maxDuration
const maxHours = Math.floor(validMaxDuration / 3600);
const maxMinutes = Math.floor((validMaxDuration % 3600) / 60);
const maxSeconds = Math.floor(validMaxDuration % 60);

时间选项选择。我们为可能的小时、分钟和秒选项创建数组,并创建状态挂钩来管理分钟和秒选项:

const hoursOptions = Array.from({ length: Math.max(0, maxHours) + 1 }, (_, i) => i);
const minutesSecondsOptions = Array.from({ length: 60 }, (_, i) => i);
const [minuteOptions, setMinuteOptions] = useState(minutesSecondsOptions);
const [secondOptions, setSecondOptions] = useState(minutesSecondsOptions);

更新值函数onChange该函数通过调用作为 prop 传入的函数来更新当前值:

const updateValue = (newHours, newMinutes, newSeconds) => {
    onChange(`${String(newHours).padStart(2, '0')}:${String(newMinutes).padStart(2, '0')}:${String(newSeconds).padStart(2, '0')}`);
};

更新分秒选项功能。此功能根据所选的小时和分钟更新分钟和秒选项:

const updateMinuteAndSecondOptions = useCallback((newHours, newMinutes) => {
    const minutesSecondsOptions = Array.from({ length: 60 }, (_, i) => i);
        let newMinuteOptions = minutesSecondsOptions;
        let newSecondOptions = minutesSecondsOptions;
        if (newHours === maxHours) {
            newMinuteOptions = Array.from({ length: Math.max(0, maxMinutes) + 1 }, (_, i) => i);
            if (newMinutes === maxMinutes) {
                newSecondOptions = Array.from({ length: Math.max(0, maxSeconds) + 1 }, (_, i) => i);
            }
        }
        setMinuteOptions(newMinuteOptions);
        setSecondOptions(newSecondOptions);
}, [maxHours, maxMinutes, maxSeconds]);

效果挂钩。这会调用updateMinuteAndSecondOptions何时hoursminutes更改:

useEffect(() => {
    updateMinuteAndSecondOptions(hours, minutes);
}, [hours, minutes, updateMinuteAndSecondOptions]);

辅助功能。这两个辅助函数将时间整数转换为选择选项,反之亦然:

const toOption = (value) => ({
    value: value,
    label: String(value).padStart(2, '0'),
});
const fromOption = (option) => option.value;

渲染。该render函数显示时间选择器,它由库管理的三个下拉菜单(小时、分钟、秒)组成react-select。更改选择框中的值将调用updateValueupdateMinuteAndSecondOptions,这已在上面进行了解释。

您可以在GitHub上找到 TimePicker 组件的完整源代码。

主要成分

现在让我们通过替换 来构建主要的前端组件App.js

应用程序组件将实现具有以下功能的转录页面:

  • 定义时间格式转换的辅助函数。
  • 更新startTime并endTime基于TimePicker组件的选择。
  • 定义一个getAudioDuration函数来检索音频文件的持续时间并更新audioDuration状态。
  • 处理要转录的音频文件的文件上传。
  • 定义一个transcribeAudio函数,通过向我们的 API 发出 HTTP POST 请求来发送音频文件。
  • 渲染文件上传的 UI。
  • TimePicker用于选择startTime和 的渲染组件endTime。
  • 显示通知消息。
  • 显示转录的文本。

让我们将该组件分解为几个较小的部分:

导入和辅助函数。导入必要的模块并定义时间转换的辅助函数:

import React, { useState, useCallback } from 'react';
import { useDropzone } from 'react-dropzone'; // for file upload
import axios from 'axios'; // to make network request
import TimePicker from './TimePicker'; // our custom TimePicker
import { toast, ToastContainer } from 'react-toastify'; // for toast notification
// Helper functions (timeToSeconds, secondsToTime, timeToMinutesAndSeconds)

组件声明和状态挂钩。声明TranscriptionPage组件并初始化状态挂钩:

const TranscriptionPage = () => {
  const [uploading, setUploading] = useState(false);
  const [transcription, setTranscription] = useState('');
  const [audioFile, setAudioFile] = useState(null);
  const [startTime, setStartTime] = useState('00:00:00');
  const [endTime, setEndTime] = useState('00:10:00'); // 10 minutes default endtime
  const [audioDuration, setAudioDuration] = useState(null);
  // ...

事件处理程序。定义各种事件处理程序 - 用于处理开始时间更改、获取音频持续时间、处理文件删除和转录音频:

const handleStartTimeChange = (newStartTime) => {
  //...
};
const getAudioDuration = (file) => {
  //...
};
const onDrop = useCallback((acceptedFiles) => {
  //...
}, []);
const transcribeAudio = async () => { // we'll explain this in detail shortly
  //...
};

使用 Dropzone 挂钩。使用库useDropzone中的钩子react-dropzone来处理文件丢失:

const { getRootProps, getInputProps, isDragActive, isDragReject } = useDropzone({
  onDrop,
  accept: 'audio/*',
});

渲染。最后,渲染组件。这包括用于文件上传的拖放区、TimePicker用于设置开始和结束时间的组件、用于启动转录过程的按钮以及用于显示转录结果的显示。

transcribeAudio函数是一个异步函数,负责将音频文件发送到服务器进行转录。让我们来分解一下:

const transcribeAudio = async () => {
    setUploading(true);
    try {
      const formData = new FormData();
      audioFile && formData.append('file', audioFile);
      formData.append('startTime', timeToMinutesAndSeconds(startTime));
      formData.append('endTime', timeToMinutesAndSeconds(endTime));
      const response = await axios.post(`http://localhost:3001/api/transcribe`, formData, {
        headers: { 'Content-Type': 'multipart/form-data' },
      });
      setTranscription(response.data.transcription);
      toast.success('Transcription successful.')
    } catch (error) {
      toast.error('An error occurred during transcription.');
    } finally {
      setUploading(false);
    }
  };

下面是更详细的介绍:


  1. setUploading(true);。此行将uploading状态设置为true,我们用它来向用户指示转录过程已经开始。
  2. const formData = new FormData();。FormData是一个 Web API,用于将表单数据发送到服务器。它允许我们发送键值对,其中值可以是 Blob、文件或字符串。
  3. 如果 不为 null ( ),则audioFile会附加到对象。开始时间和结束时间也会附加到对象中,但首先会转换为格式。formData``audioFile && formData.append('file', audioFile);``formData``MM:SS
  4. 该axios.post方法用于将 发送formData到服务器端点 ( http://localhost:3001/api/transcribe)。更改http://localhost:3001为服务器地址。这是通过await关键字完成的,这意味着该函数将暂停并等待 Promise 被解析或被拒绝。
  5. 如果请求成功,响应对象将包含转录结果 ( response.data.transcription)。transcription然后使用该函数将其设置为状态setTranscription。然后会显示成功的 Toast 通知。
  6. 如果在此过程中发生错误,则会显示错误 Toast 通知。
  7. 在该finally块中,无论结果如何(成功或错误),uploading状态都会被设置回false以允许用户重试。

本质上,该transcribeAudio函数负责协调整个转录过程,包括处理表单数据、发出服务器请求和处理服务器响应。

您可以在GitHub上找到 App 组件的完整源代码。

结论

我们已经到了最后,现在有了一个完整的 Web 应用程序,可以利用 Whisper 的强大功能将语音转录为文本。

我们绝对可以添加更多功能,但我会让您自己构建其余的功能。希望我们已经为您提供了一个良好的开端。

这是完整的源代码:

目录
打赏
0
0
0
0
3
分享
相关文章
构建高性能图像处理Web应用:Next.js与TailwindCSS实践
本文分享了构建在线图像黑白转换工具的技术实践,涵盖技术栈选择、架构设计与性能优化。项目采用Next.js提供优秀的SSR性能和SEO支持,TailwindCSS加速UI开发,WebAssembly实现高性能图像处理算法。通过渐进式处理、WebWorker隔离及内存管理等策略,解决大图像处理性能瓶颈,并确保跨浏览器兼容性和移动设备优化。实际应用案例展示了其即时处理、高质量输出和客户端隐私保护等特点。未来计划引入WebGPU加速、AI增强等功能,进一步提升用户体验。此技术栈为Web图像处理应用提供了高效可行的解决方案。
Go语言Web开发框架实践:使用 Gin 快速构建 Web 服务
Gin 是一个高效、轻量级的 Go 语言 Web 框架,支持中间件机制,非常适合开发 RESTful API。本文从安装到进阶技巧全面解析 Gin 的使用:快速入门示例(Hello Gin)、定义 RESTful 用户服务(增删改查接口实现),以及推荐实践如参数校验、中间件和路由分组等。通过对比标准库 `net/http`,Gin 提供更简洁灵活的开发体验。此外,还推荐了 GORM、Viper、Zap 等配合使用的工具库,助力高效开发。
使用 Node.js、Express 和 React 构建强大的 API
本文详细介绍如何使用 Node.js、Express 和 React 构建强大且动态的 API。从开发环境搭建到集成 React 前端,再到利用 APIPost 高效测试 API,适合各水平开发者。内容涵盖 Node.js 运行时、Express 框架与 React 库的基础知识及协同工作方式,还涉及数据库连接和前后端数据交互。通过实际代码示例,助你快速上手并优化应用性能。
从模型托管到交互开发:DataV 如何简化三维 Web 应用构建?
从模型托管到交互开发:DataV 如何简化三维 Web 应用构建?
111 2
零基础构建开源项目OpenIM桌面应用和pc web- Electron篇
OpenIM 为开发者提供开源即时通讯 SDK,作为 Twilio、Sendbird 等云服务的替代方案。借助 OpenIM,开发者可以构建安全可靠的即时通讯应用,如 WeChat、Zoom、Slack 等。 本仓库基于开源版 OpenIM SDK 开发,提供了一款基于 Electron 的即时通讯应用。您可以使用此应用程序作为 OpenIM SDK 的参考实现。本项目同时引用了 @openim/electron-client-sdk 和 @openim/wasm-client-sdk,分别为 Electron 版本和 Web 版本的 SDK,可以同时构建 PC Web 程序和桌面应用(Wi
277 2
实战经验分享:利用免费SSL证书构建安全可靠的Web应用
本文分享了利用免费SSL证书构建安全Web应用的实战经验,涵盖选择合适的证书颁发机构、申请与获取证书、配置Web服务器、优化安全性及实际案例。帮助开发者提升应用安全性,增强用户信任。
React Web组件
React并不是一个封闭的生态,它可以通过封装或者高阶组件的方式和其他第三方的技术进行整合,比如Jquery等,本文非常简短,只为大家提供一个使用web组件的思路。
1466 0
【第34期】一文学会React组件传值
【第34期】一文学会React组件传值
143 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问