lucychao/spzmazdsbxsgj

Add requirement.txt

6个月前9次提交

README.md

📖 项目介绍

无需高配电脑，也无需复杂设置，一键即可跑完整字幕流程：网络接口 or 本地离线（GPU 也能调用）随心切换，全流程由大语言模型护航，智能断句、精准校正、地道翻译，统统自动化，让字幕效果惊艳又省心！

🔥 最新版重磅更新
• VAD 语音检测、人声分离、字级时间戳、批量字幕……实用功能一次到位。

亮点速览
🎯 无 GPU 也能跑：内置高能语音识别引擎，出稿又快又准。
✂️ LLM 智能断句：告别生硬截断，字幕读起来像母语。
🔄 AI 多线程翻译：并行处理，风格自然，专业表达信手拈来。
🎬 批量合成：多视频拖进去，字幕成片一次搞定。
📝 可视化编辑：边播边改，实时预览，所见即所得。
🤖 轻量 Token：内置基础 LLM，开箱即用，钱包无压力

软件部署说明

Windows 使用内部环境即可快速运行 ./venv/Scripts/python main.py

麒麟系统/Linux系统下载Python3.10及以上版本并下载requirement.txt中的包后可使用 python main.py运行

⚙️ 基本配置

1. LLM API 配置说明

LLM 大模型是用来字幕段句、字幕优化、以及字幕翻译（如果选择了LLM 大模型翻译）。

配置项	说明
DeepSeek	DeepSeek 官网，建议使用 `deepseek-v3` 模型，
Ollama本地	Ollama 官网
OpenAI兼容接口	如果有其他服务商的API，可直接在软件中填写。base_url 和api_key

注：如果用的 API 服务商不支持高并发，请在软件设置中将“线程数”调低，避免请求错误。

其支持高并发，性价比极高，且有国内外大量模型可挑选。

注册获取key之后，设置中按照下面配置：

BaseURL: https://api.videocaptioner.cn/v1

API-key: 个人中心-API 令牌页面自行获取。]

2. 翻译配置

配置项	说明
LLM 大模型翻译	翻译质量最好的选择。使用 AI 大模型进行翻译,能更好理解上下文,翻译更自然。需要在设置中配置 LLM API(比如 OpenAI、DeepSeek 等)
DeepLx 翻译	翻译较可靠。基于 DeepL 翻译, 需要要配置自己的后端接口。
微软翻译	使用微软的翻译服务, 速度非常快
谷歌翻译	谷歌的翻译服务,速度快,但需要能访问谷歌的网络环境

推荐使用 LLM 大模型翻译 ，翻译质量最好。

3. 语音识别接口说明

接口名称	支持语言	运行方式	说明
B接口	仅支持中文、英文	在线	免费、速度较快
J接口	仅支持中文、英文	在线	免费、速度较快
WhisperCpp	中文、日语、韩语、英文等 99 种语言，外语效果较好	本地	需要下载转录模型中文建议medium以上模型英文等使用较小模型即可达到不错效果。
fasterWhisper	中文、英文等多99种语言，外语效果优秀，时间轴更准确	本地	需要下载程序和转录模型支持CUDA,速度更快，转录准确。超级准确的时间戳字幕。建议优先使用

4. 文稿匹配

在”字幕优化与翻译”页面，包含”文稿匹配”选项，支持以下一种或者多种内容，辅助校正字幕和翻译:

类型	说明	填写示例
术语表	专业术语、人名、特定词语的修正对照表	机器学习->Machine Learning 马斯克->Elon Musk 打call -> 应援图灵斑图公交车悖论
原字幕文稿	视频的原有文稿或相关内容	完整的演讲稿、课程讲义等
修正要求	内容相关的具体修正要求	统一人称代词、规范专业术语等填写内容相关的要求即可

如果需要文稿进行字幕优化辅助，全流程处理时，先填写文稿信息，再进行开始任务处理
注意: 使用上下文参数量不高的小型LLM模型时，建议控制文稿内容在1千字内，如果使用上下文较大的模型，则可以适当增加文稿内容。

无特殊需求，一般不填写。

如果使用URL下载功能时，如果遇到以下情况:

下载视频网站需要登录信息才可以下载；
只能下载较低分辨率的视频；
网络条件较差时需要验证；

💡 软件流程介绍

程序简单的处理流程如下:

语音识别转录 -> 字幕断句(可选) -> 字幕优化翻译(可选) -> 字幕视频合成

✨ 软件主要功能

软件利用大语言模型(LLM)在理解上下文方面的优势，对语音识别生成的字幕进一步处理。有效修正错别字、统一专业术语，让字幕内容更加准确连贯，为用户带来出色的观看体验！

1. 多平台视频下载与处理

支持 B 站、YouTube、小红书、TikTok、X、西瓜视频、抖音等国内外主流平台
自动提取并处理原视频字幕

2. 专业级语音识别

免费、高速的在线接口，效果媲美剪映
本地 Whisper 模型，离线可用，隐私无忧

3. 智能字幕校正

自动优化专业术语、代码、数学公式格式
基于上下文的断句优化，阅读更流畅
支持用已有文稿或提示词辅助断句

4. 高质量字幕翻译

语境感知的全文翻译，逻辑一致
LLM 反思机制二次润色，时间轴毫秒级对齐

5. 字幕样式调整

科普、新闻、番剧等丰富模板一键套用
支持 SRT / ASS / VTT / TXT 等多种格式

针对小白用户，对一些软件内的选项说明：

1. 语音转录页面

VAD过滤：默认开启即可过滤无人声片段，减少幻觉。其余 VAD 选项保持默认即可。
音频分离：仅当视频背景嘈杂时开启，MDX-Net 会降噪并分离人声，提升识别准确率。

2. 字幕优化与翻译页面

智能断句：启用后，模型会在字级时间戳基础上按“句子”或“语义”断句，观影更自然。
字幕校正：一键修正大小写、标点、错别字，统一公式与代码格式。
反思翻译：开启后 LLM 会二次审视译文，效果更佳，但耗时和 Token 消耗略增。（设置 → LLM 翻译 → 反思翻译）
文稿提示：填入原文或关键词，模型将据此优化断句与翻译。

3. 字幕视频合成页面

视频合成：开启即生成带字幕的新视频；关闭则跳过合成，仅输出字幕文件。
软字幕：开启后字幕不烧进画面，处理飞快；需 PotPlayer 等播放器支持，样式为播放器默认白字。

安装软件的主要目录结构说明如下：

AuroraCaptioner/ ├── runtime/ # 运行环境目录 ├── resources/ # 软件资源文件目录（二进制程序、图标等,以及下载的faster-whisper程序） ├── work-dir/ # 工作目录，处理完成的视频和字幕文件保存在这里 ├── AppData/ # 应用数据目录 ├── cache/ # 缓存目录，缓存转录、大模型请求的数据。 ├── models/ # 存放 Whisper 模型文件 ├── logs/ # 日志目录，记录软件运行状态 ├── settings.json # 存储用户设置 └── cookies.txt # 视频平台的 cookie 信息（下载高清视频时需要）

关于