• 更新时间 2024-12-31

stt 项目介绍

stt 是一个离线运行的本地语音识别转文字工具,基于 fast-whisper 开源模型开发。它能够将视频或音频中的人类语音识别并转换为文字,支持输出 JSON 格式、SRT 字幕带时间戳格式以及纯文本格式。

主要特点

离线运行:无需联网,可在本地环境中独立运行。

多模型支持:内置 tiny 模型,同时支持 base、small、medium 和 large-v3 等多种模型,用户可根据需求选择。

多语言支持:支持中文、英语、法语、德语、日语等多种语言的语音识别。

多格式输出:可选择输出 JSON、SRT 字幕或纯文本格式。

高准确率:识别准确率基本等同于 OpenAI 官方 API 接口。

CUDA 加速:支持 NVIDIA GPU 加速,提高处理速度。

使用方法

stt 项目提供了两种使用方式:

预编译 Windows 版:用户可直接下载预编译文件,解压后双击 start.exe 运行。

源码部署:支持 Linux、Mac 和 Windows 系统,用户需按步骤配置环境并运行源码。

API 接口

stt 还提供了 API 接口,方便开发者集成到自己的项目中。接口支持通过 POST 请求上传音视频文件,并可指定语言、模型和输出格式。

注意事项

使用 large 或 large-v3 模型时需注意内存占用。

中文识别结果可能包含繁体字。

CUDA 加速需正确配置 NVIDIA 显卡驱动和 CUDA 环境。

总结

stt 项目为用户提供了一个强大、灵活且易用的语音识别工具。无论是个人用户还是开发者,都可以通过 stt 快速实现高质量的语音转文字功能,为音视频处理、字幕生成等应用提供有力支持。

copyright © 2025

//www.aipic.cc/ 版权所有