Add requirement.txt
无需高配电脑,也无需复杂设置,一键即可跑完整字幕流程:网络接口 or 本地离线(GPU 也能调用)随心切换,全流程由大语言模型护航,智能断句、精准校正、地道翻译,统统自动化,让字幕效果惊艳又省心!
🔥 最新版重磅更新• VAD 语音检测、人声分离、字级时间戳、批量字幕……实用功能一次到位。
亮点速览🎯 无 GPU 也能跑:内置高能语音识别引擎,出稿又快又准。✂️ LLM 智能断句:告别生硬截断,字幕读起来像母语。🔄 AI 多线程翻译:并行处理,风格自然,专业表达信手拈来。🎬 批量合成:多视频拖进去,字幕成片一次搞定。📝 可视化编辑:边播边改,实时预览,所见即所得。🤖 轻量 Token:内置基础 LLM,开箱即用,钱包无压力
Windows 使用内部环境即可快速运行 ./venv/Scripts/python main.py
麒麟系统/Linux系统 下载Python3.10及以上版本 并下载requirement.txt中的包后可使用 python main.py运行
LLM 大模型是用来字幕段句、字幕优化、以及字幕翻译(如果选择了LLM 大模型翻译)。
deepseek-v3
注:如果用的 API 服务商不支持高并发,请在软件设置中将“线程数”调低,避免请求错误。
其支持高并发,性价比极高,且有国内外大量模型可挑选。
注册获取key之后,设置中按照下面配置:
BaseURL: https://api.videocaptioner.cn/v1
https://api.videocaptioner.cn/v1
API-key: 个人中心-API 令牌页面自行获取。]
个人中心-API 令牌页面自行获取。
推荐使用 LLM 大模型翻译 ,翻译质量最好。
LLM 大模型翻译
无特殊需求,一般不填写。
如果使用URL下载功能时,如果遇到以下情况:
下载视频网站需要登录信息才可以下载;
只能下载较低分辨率的视频;
网络条件较差时需要验证;
程序简单的处理流程如下:
语音识别转录 -> 字幕断句(可选) -> 字幕优化翻译(可选) -> 字幕视频合成
软件利用大语言模型(LLM)在理解上下文方面的优势,对语音识别生成的字幕进一步处理。有效修正错别字、统一专业术语,让字幕内容更加准确连贯,为用户带来出色的观看体验!
针对小白用户,对一些软件内的选项说明:
VAD过滤:默认开启即可过滤无人声片段,减少幻觉。其余 VAD 选项保持默认即可。
VAD过滤
音频分离:仅当视频背景嘈杂时开启,MDX-Net 会降噪并分离人声,提升识别准确率。
音频分离
智能断句:启用后,模型会在字级时间戳基础上按“句子”或“语义”断句,观影更自然。
智能断句
字幕校正:一键修正大小写、标点、错别字,统一公式与代码格式。
字幕校正
反思翻译:开启后 LLM 会二次审视译文,效果更佳,但耗时和 Token 消耗略增。(设置 → LLM 翻译 → 反思翻译)
反思翻译
文稿提示:填入原文或关键词,模型将据此优化断句与翻译。
文稿提示
视频合成:开启即生成带字幕的新视频;关闭则跳过合成,仅输出字幕文件。
视频合成
软字幕:开启后字幕不烧进画面,处理飞快;需 PotPlayer 等播放器支持,样式为播放器默认白字。
软字幕
安装软件的主要目录结构说明如下:
AuroraCaptioner/ ├── runtime/ # 运行环境目录 ├── resources/ # 软件资源文件目录(二进制程序、图标等,以及下载的faster-whisper程序) ├── work-dir/ # 工作目录,处理完成的视频和字幕文件保存在这里 ├── AppData/ # 应用数据目录 ├── cache/ # 缓存目录,缓存转录、大模型请求的数据。 ├── models/ # 存放 Whisper 模型文件 ├── logs/ # 日志目录,记录软件运行状态 ├── settings.json # 存储用户设置 └── cookies.txt # 视频平台的 cookie 信息(下载高清视频时需要)
版权所有:中国计算机学会技术支持:开源发展技术委员会 京ICP备13000930号-9 京公网安备 11010802032778号
📖 项目介绍
无需高配电脑,也无需复杂设置,一键即可跑完整字幕流程:网络接口 or 本地离线(GPU 也能调用)随心切换,全流程由大语言模型护航,智能断句、精准校正、地道翻译,统统自动化,让字幕效果惊艳又省心!
🔥 最新版重磅更新
• VAD 语音检测、人声分离、字级时间戳、批量字幕……实用功能一次到位。
亮点速览
🎯 无 GPU 也能跑:内置高能语音识别引擎,出稿又快又准。
✂️ LLM 智能断句:告别生硬截断,字幕读起来像母语。
🔄 AI 多线程翻译:并行处理,风格自然,专业表达信手拈来。
🎬 批量合成:多视频拖进去,字幕成片一次搞定。
📝 可视化编辑:边播边改,实时预览,所见即所得。
🤖 轻量 Token:内置基础 LLM,开箱即用,钱包无压力
软件部署说明
Windows 使用内部环境即可快速运行 ./venv/Scripts/python main.py
麒麟系统/Linux系统 下载Python3.10及以上版本 并下载requirement.txt中的包后可使用 python main.py运行
⚙️ 基本配置
1. LLM API 配置说明
LLM 大模型是用来字幕段句、字幕优化、以及字幕翻译(如果选择了LLM 大模型翻译)。
deepseek-v3模型,注:如果用的 API 服务商不支持高并发,请在软件设置中将“线程数”调低,避免请求错误。
其支持高并发,性价比极高,且有国内外大量模型可挑选。
注册获取key之后,设置中按照下面配置:
BaseURL:
https://api.videocaptioner.cn/v1API-key:
个人中心-API 令牌页面自行获取。]2. 翻译配置
推荐使用
LLM 大模型翻译,翻译质量最好。3. 语音识别接口说明
中文建议medium以上模型
英文等使用较小模型即可达到不错效果。
支持CUDA,速度更快,转录准确。
超级准确的时间戳字幕。
建议优先使用
4. 文稿匹配
马斯克->Elon Musk
打call -> 应援
图灵斑图
公交车悖论
填写内容相关的要求即可
无特殊需求,一般不填写。
5. Cookie 配置说明
如果使用URL下载功能时,如果遇到以下情况:
下载视频网站需要登录信息才可以下载;
只能下载较低分辨率的视频;
网络条件较差时需要验证;
💡 软件流程介绍
程序简单的处理流程如下:
✨ 软件主要功能
软件利用大语言模型(LLM)在理解上下文方面的优势,对语音识别生成的字幕进一步处理。有效修正错别字、统一专业术语,让字幕内容更加准确连贯,为用户带来出色的观看体验!
1. 多平台视频下载与处理
2. 专业级语音识别
3. 智能字幕校正
4. 高质量字幕翻译
5. 字幕样式调整
针对小白用户,对一些软件内的选项说明:
1. 语音转录页面
VAD过滤:默认开启即可过滤无人声片段,减少幻觉。其余 VAD 选项保持默认即可。音频分离:仅当视频背景嘈杂时开启,MDX-Net 会降噪并分离人声,提升识别准确率。2. 字幕优化与翻译页面
智能断句:启用后,模型会在字级时间戳基础上按“句子”或“语义”断句,观影更自然。字幕校正:一键修正大小写、标点、错别字,统一公式与代码格式。反思翻译:开启后 LLM 会二次审视译文,效果更佳,但耗时和 Token 消耗略增。(设置 → LLM 翻译 → 反思翻译)文稿提示:填入原文或关键词,模型将据此优化断句与翻译。3. 字幕视频合成页面
视频合成:开启即生成带字幕的新视频;关闭则跳过合成,仅输出字幕文件。软字幕:开启后字幕不烧进画面,处理飞快;需 PotPlayer 等播放器支持,样式为播放器默认白字。安装软件的主要目录结构说明如下:
AuroraCaptioner/ ├── runtime/ # 运行环境目录 ├── resources/ # 软件资源文件目录(二进制程序、图标等,以及下载的faster-whisper程序) ├── work-dir/ # 工作目录,处理完成的视频和字幕文件保存在这里 ├── AppData/ # 应用数据目录 ├── cache/ # 缓存目录,缓存转录、大模型请求的数据。 ├── models/ # 存放 Whisper 模型文件 ├── logs/ # 日志目录,记录软件运行状态 ├── settings.json # 存储用户设置 └── cookies.txt # 视频平台的 cookie 信息(下载高清视频时需要)