无需高配电脑,也无需复杂设置,一键即可跑完整字幕流程:网络接口 or 本地离线(GPU 也能调用)随心切换,全流程由大语言模型护航,智能断句、精准校正、地道翻译,统统自动化,让字幕效果惊艳又省心!
🔥 最新版重磅更新
• VAD 语音检测、人声分离、字级时间戳、批量字幕……实用功能一次到位。
亮点速览
🎯 无 GPU 也能跑:内置高能语音识别引擎,出稿又快又准。
✂️ LLM 智能断句:告别生硬截断,字幕读起来像母语。
🔄 AI 多线程翻译:并行处理,风格自然,专业表达信手拈来。
🎬 批量合成:多视频拖进去,字幕成片一次搞定。
📝 可视化编辑:边播边改,实时预览,所见即所得。
🤖 轻量 Token:内置基础 LLM,开箱即用,钱包无压力
Windows 使用内部环境即可快速运行 ./venv/Scripts/python main.py
麒麟系统/Linux系统 下载Python3.10及以上版本 并下载requirement.txt中的包后可使用 python main.py运行
LLM 大模型是用来字幕段句、字幕优化、以及字幕翻译(如果选择了LLM 大模型翻译)。
| 配置项 | 说明 |
|---|---|
| DeepSeek | DeepSeek 官网,建议使用 deepseek-v3 模型, |
| Ollama本地 | Ollama 官网 |
| OpenAI兼容接口 | 如果有其他服务商的API,可直接在软件中填写。base_url 和api_key |
注:如果用的 API 服务商不支持高并发,请在软件设置中将“线程数”调低,避免请求错误。
其支持高并发,性价比极高,且有国内外大量模型可挑选。
注册获取key之后,设置中按照下面配置:
BaseURL: https://api.videocaptioner.cn/v1
API-key: 个人中心-API 令牌页面自行获取。]
| 配置项 | 说明 |
|---|---|
| LLM 大模型翻译 | 翻译质量最好的选择。使用 AI 大模型进行翻译,能更好理解上下文,翻译更自然。需要在设置中配置 LLM API(比如 OpenAI、DeepSeek 等) |
| DeepLx 翻译 | 翻译较可靠。基于 DeepL 翻译, 需要要配置自己的后端接口。 |
| 微软翻译 | 使用微软的翻译服务, 速度非常快 |
| 谷歌翻译 | 谷歌的翻译服务,速度快,但需要能访问谷歌的网络环境 |
推荐使用 LLM 大模型翻译 ,翻译质量最好。
| 接口名称 | 支持语言 | 运行方式 | 说明 |
|---|---|---|---|
| B接口 | 仅支持中文、英文 | 在线 | 免费、速度较快 |
| J接口 | 仅支持中文、英文 | 在线 | 免费、速度较快 |
| WhisperCpp | 中文、日语、韩语、英文等 99 种语言,外语效果较好 | 本地 | 需要下载转录模型 中文建议medium以上模型 英文等使用较小模型即可达到不错效果。 |
| fasterWhisper | 中文、英文等多99种语言,外语效果优秀,时间轴更准确 | 本地 | 需要下载程序和转录模型 支持CUDA,速度更快,转录准确。 超级准确的时间戳字幕。 建议优先使用 |
| 类型 | 说明 | 填写示例 |
|---|---|---|
| 术语表 | 专业术语、人名、特定词语的修正对照表 | 机器学习->Machine Learning 马斯克->Elon Musk 打call -> 应援 图灵斑图 公交车悖论 |
| 原字幕文稿 | 视频的原有文稿或相关内容 | 完整的演讲稿、课程讲义等 |
| 修正要求 | 内容相关的具体修正要求 | 统一人称代词、规范专业术语等 填写内容相关的要求即可 |
无特殊需求,一般不填写。
如果使用URL下载功能时,如果遇到以下情况:
下载视频网站需要登录信息才可以下载;
只能下载较低分辨率的视频;
网络条件较差时需要验证;
程序简单的处理流程如下:
语音识别转录 -> 字幕断句(可选) -> 字幕优化翻译(可选) -> 字幕视频合成软件利用大语言模型(LLM)在理解上下文方面的优势,对语音识别生成的字幕进一步处理。有效修正错别字、统一专业术语,让字幕内容更加准确连贯,为用户带来出色的观看体验!
针对小白用户,对一些软件内的选项说明:
VAD过滤:默认开启即可过滤无人声片段,减少幻觉。其余 VAD 选项保持默认即可。
音频分离:仅当视频背景嘈杂时开启,MDX-Net 会降噪并分离人声,提升识别准确率。
智能断句:启用后,模型会在字级时间戳基础上按“句子”或“语义”断句,观影更自然。
字幕校正:一键修正大小写、标点、错别字,统一公式与代码格式。
反思翻译:开启后 LLM 会二次审视译文,效果更佳,但耗时和 Token 消耗略增。(设置 → LLM 翻译 → 反思翻译)
文稿提示:填入原文或关键词,模型将据此优化断句与翻译。
视频合成:开启即生成带字幕的新视频;关闭则跳过合成,仅输出字幕文件。
软字幕:开启后字幕不烧进画面,处理飞快;需 PotPlayer 等播放器支持,样式为播放器默认白字。
安装软件的主要目录结构说明如下:
AuroraCaptioner/ ├── runtime/ # 运行环境目录 ├── resources/ # 软件资源文件目录(二进制程序、图标等,以及下载的faster-whisper程序) ├── work-dir/ # 工作目录,处理完成的视频和字幕文件保存在这里 ├── AppData/ # 应用数据目录 ├── cache/ # 缓存目录,缓存转录、大模型请求的数据。 ├── models/ # 存放 Whisper 模型文件 ├── logs/ # 日志目录,记录软件运行状态 ├── settings.json # 存储用户设置 └── cookies.txt # 视频平台的 cookie 信息(下载高清视频时需要)