AI音频转文字

AI音频转文字

huoyu

2024 年 09 月 30 日

250 次浏览

暂无评论

2378字数

python - 爬虫 python - 技巧

## 简介

音频打码，这次做的是对5-9秒的图形验证对应的音频文件识别出里面的内容。

## 素材

![D4cqAarI7nHq.gif](http://type.zimopy.com/usr/uploads/2024/09/3799898964.gif)

对应的音频文件

那像这种情况要么，对图片进行yolo训练（后期会写文章，已尝试过了）或者对音频进行识别。

下面是我操作过的音频转文字的方法：

# 方法一 whisper

https://github.com/openai/whisper

**注意**：主要先看官方文档，我这儿可能更新不及时

### **安装 openai-whisper：

**`pip install -U openai-whisper`

### **安装 ffmpeg：**

地址：https://www.ffmpeg.org/download.html

![image.png](http://type.zimopy.com/usr/uploads/2024/09/3435222081.png)

我安装的是 `Windows builds by BtbN`，下载完双击安装，然后配置好环境变量就可以了。比如我的是`D:\Program Files\ffmpeg\bin`加到环境变量。

### 安装 setuptools-rust

`pip install setuptools-rust`

还要装一个东西
地址：https://www.rust-lang.org/learn/get-started，你用什么系统的设备访问会出现对应的安装方法

mac访问：

```sh
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
```

![image.png](http://type.zimopy.com/usr/uploads/2024/09/1406724313.png)

windows访问：

![image.png](http://type.zimopy.com/usr/uploads/2024/09/3819716934.png)

安装步骤：

你只是训练用，就选第3个

![image.png](http://type.zimopy.com/usr/uploads/2024/09/2469824095.png)

然后选第一个

![image.png](http://type.zimopy.com/usr/uploads/2024/09/702595868.png)

等待安装完会有个提示

![image.png](http://type.zimopy.com/usr/uploads/2024/10/2248453304.png)

```sh
%USERPROFILE%\.cargo\bin
```

打开文件管理器，找到这个的位置，把绝对路径加入环境变量

我的是`C:\Users\Administrator\.cargo\bin`

### 安装 PyTorch

如果你想用显卡跑，那就安装 PyTorch

https://pytorch.org/index.html

检查你的cuda支持最高的版本打开cmd输入`nvidia-smi`，这里我的是最高支持12.6，不能安装大于自己的版本

![image.png](http://type.zimopy.com/usr/uploads/2024/09/2770963124.png)

那就下载`pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124`记得开全局梯子，不然下载失败，而且这个安装也很久，等待安装成功即可

![image.png](http://type.zimopy.com/usr/uploads/2024/09/152502262.png)

### 检查是否安装成功

代码运行：

```python
import torch
DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
```

如果运行出`cuda`就默认调用显卡跑数据，否则就是没装好环境

## python调用

```python
import whisper

model = whisper.load_model("base")
result = model.transcribe("audio.mp3")
print(result["text"])
```

这里的模型选择有：

![image.png](http://type.zimopy.com/usr/uploads/2024/09/2610256748.png)

根据自己的电脑配置选择，不然！！！！卡死

方法二 [faster-whisper](https://github.com/SYSTRAN/faster-whisper)

这个就去看官方文档就行，步骤详细，不过这个是whisper衍生的一个产物，我试过，相对于同样是`samll.en`模型,faster-whisper没有whisper的准确

最后修改：2024 年 10 月 05 日

如果觉得我的文章对你有用，请随意赞赏

AI音频转文字

huoyu • 2024 年 09 月 30 日

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

速注册OpenAi（ChatGPT），国内也可以

Frida 代码自动补全

ubuntu 实现内网穿透

最新Fiddler Web Debugger v5.0 20202.18177中文版

关闭雷电模拟器的capture.exe

B站弹幕获取方式一

selenium 远程服务器搭建

ssh 本地文件和服务器文件交互

🚀 增强 Windows 11 的文件资源管理器

8.pandas的SettingWithCopyWarning

AI音频转文字

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

AI音频转文字

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款