赛题题目：视频字幕AI自动识别显示工具

项目目录结构说明

项目包含以下主要目录和文件：

ai-subtitle-player-backend/：后端服务目录，包含语音识别、字幕生成等核心功能实现
- funsound/：主要功能模块，包括语音识别引擎、翻译模块等
- client.py：客户端程序
- download_models.py：模型下载工具
- launch.sh：启动脚本
ai-subtitle-player-frontend/：前端界面目录，实现用户交互和视频播放功能
- src/：前端源代码，包含组件、路由、状态管理等
- src-tauri/：Tauri桌面应用集成配置
- package.json：前端项目配置文件
deps/: 外部依赖目录，用于前端自定义wasm模块集成
documents/: 文档目录，包含使用说明、项目介绍以及演示视频等。其中概要设计说明书、测试设计说明书详见文件“项目功能说明书.pdf”对应章节
models/：预训练模型目录，包含语音识别和翻译所需的模型文件
releases/: 客户端发布版本目录，包含已编译的针对Linux和Windows双平台的二进制可执行文件和安装包文件
README.md：项目说明文档

若不需要克隆项目中的models文件夹的内容，则可以采用稀疏克隆进行排除:

1. 克隆仓库但不检出文件

git clone --filter=blob:none --no-checkout <仓库地址>

cd <仓库目录>

2. 启用稀疏检出

git sparse-checkout init --cone

3. 排除 /models 目录（只保留其他所有内容）

git sparse-checkout set /* !/models

4. 检出文件

git checkout

环境搭建建议

安装Python 3.10的环境，建议使用虚拟环境（如venv或conda）
安装FFmpeg，用于音视频处理
安装MPV播放器框架，用于完备高效视频播放功能
安装Node.js（建议使用nvm安装）和pnpm，用于前端开发
安装Rust和Cargo，用于构建Tauri桌面应用
配置GPU环境（可选），用于加速语音识别和翻译模型

运行指南

后端服务：

创建虚拟环境：conda create -n funsound python=3.10
激活环境：conda activate funsound
前往后端项目根目录：ai-subtitle-player-backend
安装依赖：pip install -r requirements.txt
配置模型：修改funsound.config文件，设置模型存储路径
启动服务：python -m funsound.flaskweb

前端界面：
- 安装依赖：pnpm install
- 启动开发服务器：pnpm tauri dev
- 构建生产版本：pnpm tauri build，在linux环境下需要安装
- 配置服务url：前往设置页面，将服务url设置为ws://localhost:8800（后端默认url），同时选择需要的模型：FunAsr/Whisper
- 在客户端内打开需要播放的视频文件，即可播放并实时获取字幕

赛题说明：

随着短视频、直播、在线教育等场景的爆发式增长，视频内容的可访问性和跨语言传播需求日益增强。传统字幕制作依赖人工转录，效率低且成本高。近年来，基于深度学习的语音识别（ASR）、自然语言处理（NLP）显著提升了字幕生成的自动化水平。AI字幕技术通过自动识别音频、生成精准字幕并支持多语言翻译，正在重塑视频创作与传播方式。本赛题旨在推动AI技术在视频处理领域的创新应用，优化音视频播放逻辑，同时探索跨语言适配、实时处理等关键技术难点。该方向与“智能技术应用与创新”赛道目标高度契合，可促进教育、娱乐、跨国协作等场景的智能化升级。

赛题要求：

软件基于开源操作系统研发及运行；
核心功能：基于操作系统桌面接口或SDK开发工具实现视频的语音识别、字幕自动生成及时间轴同步，支持中英等多语言翻译切换；
性能要求：字幕生成准确率≥90%，支持实时或准实时处理（延迟<3秒），对字幕获取处理流程输出系统资源使用情况；
扩展功能：支持字幕样式自定义（字体、颜色、位置）、多说话人分离、背景噪音过滤。

评分标准：

功能完整性（40%）：

基于操作系统桌面接口或SDK开发工具实现视频播放（20分）；
可以显示视频字幕（30分）；
可以显示多种语言字幕（30分）；
支持多种扩展功能（字幕字体，颜色，位置调整，多说话人分离等）（20分）。

性能优化（30%）：

字幕识别准确率超过90%（55分）
准确率低于60%（0分）；
准确率高于60%，低于70%（35分）；
准确率高于70%，低于80%（45分）；
准确率高于80%，低于90%（55分）。
字幕识别延迟小于1s（35分）
字幕识别延迟大于1s，小于2s（35分）；
字幕识别延迟大于s2，小于3s（25分）；
字幕识别延迟大于3s（0分）。
对字幕获取处理流程输出系统资源使用情况（10分）
输出字幕获取过程的系统资源情况，内存、CPU、显存等信息（10分）。

代码规范性（20%）：

代码目录结构清晰，易读，可维护性强（50分）；
符合开源社区规范（50分）。

文档质量（10%）：

概要设计说明书、测试设计说明书（50分）；
申报书、用户手册和安装说明（50分）。

赛题联系人：

于恒 yuheng@kylinos.cn

参考资料：

[1] FFmpeg多媒体处理框架官网：https://github.com/linyqh/NarratoAIhttps://github.com/mpv-player/org 核心功能：音视频流提取、格式转换与时间轴同步；支持多轨道合成（字幕、配音、视频），为AI字幕工具提供底层处理能力
[2] MPV播放器矿框架项目地址：https://github.com/mpv-player/ 核心功能：集成音视频播放能力，便于开发；
[3] NarratoAI（智能视频解说与字幕生成）项目地址：https://github.com/linyqh/NarratoAI 相关技术：基于Whisper的语音识别与时间轴同步技术；多语言翻译（支持Qwen2-VL模型）与字幕-视频自动合成（FFmpeg集成）；实时处理优化方案，支持GPU加速降低延迟。

参赛资源支持：

[1] 麒麟软件有限公司可提供软件开发环境