手把手教你用Fish Speech 1.5：从安装到生成，小白也能做出真人级语音

张开发

• 2026/4/7 8:19:55 • 15 分钟阅读

分享文章

手把手教你用Fish Speech 1.5从安装到生成小白也能做出真人级语音1. 为什么选择Fish Speech 1.5Fish Speech 1.5是一款基于DualAR架构的开源文本转语音TTS模型它采用创新的双自回归Transformer设计。主Transformer以21Hz运行负责语义理解次Transformer则将潜在状态转换为声学特征这种设计让模型的计算效率和语音输出质量都优于传统级联方法。与传统TTS模型相比Fish Speech 1.5最大的特点是直接理解和处理文本无需依赖音素或繁杂的语音规则库泛化能力大幅提升能处理各种语言和口音生成语音自然流畅接近真人发音水平2. 快速安装与部署2.1 环境准备在开始使用Fish Speech 1.5之前确保你的系统满足以下要求操作系统Linux推荐Ubuntu 20.04或更高版本GPUNVIDIA显卡至少8GB显存驱动CUDA 12.1或更高版本内存至少16GB存储空间至少10GB可用空间2.2 一键部署Fish Speech 1.5提供了预构建的Docker镜像可以快速部署# 拉取镜像 docker pull csdnmirror/fish-speech:1.5 # 运行容器 docker run -itd --gpus all -p 7860:7860 -p 8080:8080 --name fish-speech csdnmirror/fish-speech:1.5部署完成后可以通过以下方式访问服务WebUI界面http://服务器IP:7860API接口http://服务器IP:80802.3 服务管理所有服务由Supervisor管理开机自动启动。常用管理命令如下# 查看服务状态 supervisorctl status # 重启WebUI服务 supervisorctl restart fish-speech-webui # 重启API服务 supervisorctl restart fish-speech # 查看日志 tail -f /var/log/fish-speech-webui.out.log3. WebUI界面使用指南3.1 基础语音生成打开浏览器访问http://服务器IP:7860在输入文本框中输入要合成的文字点击生成按钮等待生成完成播放或下载音频重要提示务必等待文本框下方出现绿色对勾表示文本规范化完成再点击生成按钮。3.2 高级功能使用3.2.1 情感控制Fish Speech 1.5支持通过文本标记控制情感表达。在文本中添加情感标记例如(serious) 这是一份非常重要的报告。 (happy) 今天天气真好 (sad) 听到这个消息我很难过。3.2.2 声音克隆点击参考音频区域的上传按钮选择5-10秒的参考音频文件在参考文本框中输入音频对应的文字点击解析参考音频按钮生成新语音时系统会自动模仿参考音频的音色4. API接口调用4.1 Python调用示例import requests url http://服务器IP:8080/v1/tts payload { text: 你好这是一个测试语音。, format: wav, temperature: 0.7, top_p: 0.7, repetition_penalty: 1.2 } response requests.post(url, jsonpayload) if response.status_code 200: with open(output.wav, wb) as f: f.write(response.content) print(语音生成成功) else: print(f错误: {response.status_code})4.2 cURL调用示例curl -X POST http://服务器IP:8080/v1/tts \ -H Content-Type: application/json \ -d { text: 你好这是一个测试语音。, format: wav, temperature: 0.7, top_p: 0.7, repetition_penalty: 1.2 } \ --output output.wav5. 参数调优指南5.1 基础参数参数说明推荐值text要合成的文本-format输出格式wav/mp3wav5.2 高级参数参数说明推荐值效果temperature控制生成随机性0.6-0.8值越高语音越有个性top_p控制词汇多样性0.6-0.8值越高用词越丰富repetition_penalty重复惩罚1.1-1.3值越高重复越少6. 常见问题解决6.1 服务无法启动检查GPU驱动和CUDA是否安装正确nvidia-smi nvcc --version检查端口是否被占用netstat -tlnp | grep 7860查看错误日志tail -100 /var/log/fish-speech-webui.err.log6.2 生成质量不佳语音不自然尝试降低temperature值0.6-0.7有重复内容提高repetition_penalty值1.3-1.5音质发虚检查输入文本是否有错别字或尝试更换输出格式6.3 GPU内存不足减小max_new_tokens参数值默认1024可降至512关闭其他占用GPU的程序如果问题持续考虑升级显卡或使用CPU模式不推荐7. 总结与进阶建议Fish Speech 1.5是一款功能强大且易于使用的文本转语音工具通过本教程你已经学会了如何快速部署Fish Speech 1.5使用WebUI界面生成高质量语音通过API将TTS功能集成到自己的应用中调整参数优化语音生成效果进阶建议尝试不同的情感标记组合创造更丰富的语音表达收集高质量的参考音频提升声音克隆效果监控API调用性能优化批量生成流程关注项目更新及时获取新功能和改进获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

更多文章

前端开发 2026/4/7 8:12:30

开源工具突破城通网盘限速：ctfileGet实现高速下载全攻略

开源工具突破城通网盘限速：ctfileGet实现高速下载全攻略【免费下载链接】ctfileGet 获取城通网盘一次性直连地址项目地址: https://gitcode.com/gh_mirrors/ct/ctfileGet 在数字化协作日益频繁的今天，城通网盘作为国内主流文件分享平台&#xf…

开源项目Windows Subsystem for Android部署与优化解决方案【免费下载链接】WSA Developer-related issues and feature requests for Windows Subsystem for Android 项目地址: https://gitcode.com/gh_mirrors/ws/WSA Windows Subsystem for Android（WSA&…

张开发

前端开发 2026/4/7 7:53:23

论RAE引擎的不可判定性与Peano算术的哥德尔句生成（因为宇宙和我们都不完美，所以共生是必然）

论RAE引擎的不可判定性与Peano算术的哥德尔句生成方见华世毫九实验室摘要本文针对递归对抗引擎（RAE）这一世毫九内生安全核心系统，建立其元认知动力学与数理逻辑的严格对应。通过将RAE的自对抗过程编码为递归可枚举集，构造出专属…

张开发

手把手教你用Fish Speech 1.5：从安装到生成，小白也能做出真人级语音

最新文章

Python开发者指南：如何利用Qdrant向量数据库实现高效相似性搜索

WebSocket安全连接指南：从HTTP到HTTPS/WSS的平滑迁移（含Nginx配置模板）

MQTT实战：用C语言+mosquitto库实现智能家居温度监控（附完整代码）

破解QQ音乐加密壁垒：QMCDecode全攻略

3分钟快速上手：在Windows上使用APK-Installer安装安卓应用终极指南

HunyuanVideo-Foley开发环境配置：VSCode远程连接与调试技巧

推荐文章

AVR长周期看门狗库：突破8秒限制实现毫秒级精准复位与睡眠唤醒

并发控制原理与实现：从进程线程到现代并发编程

HunyuanVideo-Foley开源大模型实战：基于Transformers/Accelerate推理优化

小步快跑・像CPU一样调度大脑高并发——东方仙盟・阿雪心学

STM8 Bootloader开发与固件远程升级实践

（复现）基于自适应滑模控制（ASMC）和神经网络容错控制的主从式无人机编队控制研究（Matlab代码实现）

相关文章

深入解析ZeroMQ inproc：线程间通信的高效实现与性能优势

BewlyBewly终极指南：打造高效个性化的B站浏览体验

IDM激活脚本架构设计：基于注册表锁定机制的99%成功率激活方案

Sulpho-Methyltetrazine-NHS ester，磺化甲基四嗪-琥珀酰亚胺酯的结构特点与功能

3步精通Zotero OCR：从安装到高效文本识别

OpCore-Simplify：驯服硬件兼容性的自动化引擎

分享文章

更多文章

开源工具突破城通网盘限速：ctfileGet实现高速下载全攻略

HTTP首部字段全解析，Visual Studio主题、字体、快捷键、开发环境设置，自用。

CSS入门到精通：全面掌握网页样式设计，网络爬虫技术规范与应用指南系列（xc—1）。

MATS显存压力测试硬盘版｜兼容BIOS/UEFI双启动｜A卡N卡全系支持｜含详细安装指南与快捷指令速查表

3步解锁iPhone微信聊天记录：开源工具WeChatExporter完整指南

C++ move 语义的实战案例

快手KAT编码大模型技术突破，【2025最新】ArcGIS for JS 实现地图卷帘效果。

AI颠覆技术栈：未来已来，React 19 新特性：原生支持在组件中渲染＜meta＞与＜link＞。

JL杰理AC696N开发板做存储设备适配(1)：SD/TF卡与MMC卡的基础配置与兼容

Qwen3.5-9B测试验证体系：单元测试+集成测试+回归测试用例设计指南

开源项目Windows Subsystem for Android部署与优化解决方案

论RAE引擎的不可判定性与Peano算术的哥德尔句生成（因为宇宙和我们都不完美，所以共生是必然）