Loading... ## 简介 音频打码,这次做的是对5-9秒的图形验证对应的音频文件识别出里面的内容。 ## 素材 ![D4cqAarI7nHq.gif](http://type.zimopy.com/usr/uploads/2024/09/3799898964.gif) 对应的音频文件 <audio controls="controls" src="http://type.zimopy.com/usr/uploads/2024/09/665980163.mp3"></audio> 那像这种情况要么,对图片进行yolo训练(后期会写文章,已尝试过了)或者对音频进行识别。 下面是我操作过的音频转文字的方法: # 方法一 whisper https://github.com/openai/whisper **注意**:主要先看官方文档,我这儿可能更新不及时 ### **安装 openai-whisper: **`pip install -U openai-whisper` ### **安装 ffmpeg:** 地址:https://www.ffmpeg.org/download.html ![image.png](http://type.zimopy.com/usr/uploads/2024/09/3435222081.png) 我安装的是 `Windows builds by BtbN`,下载完双击安装,然后配置好环境变量就可以了。比如我的是`D:\Program Files\ffmpeg\bin`加到环境变量。 ### 安装 setuptools-rust `pip install setuptools-rust` 还要装一个东西 地址:https://www.rust-lang.org/learn/get-started,你用什么系统的设备访问会出现对应的安装方法 mac访问: ```sh curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh ``` ![image.png](http://type.zimopy.com/usr/uploads/2024/09/1406724313.png) windows访问: ![image.png](http://type.zimopy.com/usr/uploads/2024/09/3819716934.png) 安装步骤: 你只是训练用,就选第3个 ![image.png](http://type.zimopy.com/usr/uploads/2024/09/2469824095.png) 然后选第一个 ![image.png](http://type.zimopy.com/usr/uploads/2024/09/702595868.png) 等待安装完会有个提示 ![image.png](http://type.zimopy.com/usr/uploads/2024/10/2248453304.png) ```sh %USERPROFILE%\.cargo\bin ``` 打开文件管理器,找到这个的位置,把绝对路径加入环境变量 我的是`C:\Users\Administrator\.cargo\bin` ### 安装 PyTorch 如果你想用显卡跑,那就安装 PyTorch https://pytorch.org/index.html 检查你的cuda支持最高的版本打开cmd输入`nvidia-smi`,这里我的是最高支持12.6,不能安装大于自己的版本 ![image.png](http://type.zimopy.com/usr/uploads/2024/09/2770963124.png) 那就下载`pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124`记得开全局梯子,不然下载失败,而且这个安装也很久,等待安装成功即可 ![image.png](http://type.zimopy.com/usr/uploads/2024/09/152502262.png) ### 检查是否安装成功 代码运行: ```python import torch DEVICE = "cuda" if torch.cuda.is_available() else "cpu" ``` 如果运行出`cuda`就默认调用显卡跑数据,否则就是没装好环境 ## python调用 ```python import whisper model = whisper.load_model("base") result = model.transcribe("audio.mp3") print(result["text"]) ``` 这里的模型选择有: ![image.png](http://type.zimopy.com/usr/uploads/2024/09/2610256748.png) 根据自己的电脑配置选择,不然!!!!卡死 方法二 [faster-whisper](https://github.com/SYSTRAN/faster-whisper) 这个就去看官方文档就行,步骤详细,不过这个是whisper衍生的一个产物,我试过,相对于同样是`samll.en`模型,faster-whisper没有whisper的准确 最后修改:2024 年 10 月 05 日 © 允许规范转载 打赏 赞赏作者 支付宝微信 赞 如果觉得我的文章对你有用,请随意赞赏