目录
目录README.md

赛题题目:视频字幕AI自动识别显示工具

项目目录结构说明

项目包含以下主要目录和文件:

  • ai-subtitle-player-backend/:后端服务目录,包含语音识别、字幕生成等核心功能实现
    • funsound/:主要功能模块,包括语音识别引擎、翻译模块等
    • client.py:客户端程序
    • download_models.py:模型下载工具
    • launch.sh:启动脚本
  • ai-subtitle-player-frontend/:前端界面目录,实现用户交互和视频播放功能
    • src/:前端源代码,包含组件、路由、状态管理等
    • src-tauri/:Tauri桌面应用集成配置
    • package.json:前端项目配置文件
  • deps/: 外部依赖目录,用于前端自定义wasm模块集成
  • documents/: 文档目录,包含使用说明、项目介绍以及演示视频等。其中概要设计说明书、测试设计说明书详见文件“项目功能说明书.pdf”对应章节
  • models/:预训练模型目录,包含语音识别和翻译所需的模型文件
  • releases/: 客户端发布版本目录,包含已编译的针对Linux和Windows双平台的二进制可执行文件和安装包文件
  • README.md:项目说明文档

若不需要克隆项目中的models文件夹的内容,则可以采用稀疏克隆进行排除:

1. 克隆仓库但不检出文件

git clone --filter=blob:none --no-checkout <仓库地址>

cd <仓库目录>

2. 启用稀疏检出

git sparse-checkout init --cone

3. 排除 /models 目录(只保留其他所有内容)

git sparse-checkout set /* !/models

4. 检出文件

git checkout

环境搭建建议

  1. 安装Python 3.10的环境,建议使用虚拟环境(如venv或conda)
  2. 安装FFmpeg,用于音视频处理
  3. 安装MPV播放器框架,用于完备高效视频播放功能
  4. 安装Node.js(建议使用nvm安装)和pnpm,用于前端开发
  5. 安装Rust和Cargo,用于构建Tauri桌面应用
  6. 配置GPU环境(可选),用于加速语音识别和翻译模型

运行指南

  1. 后端服务:
  • 创建虚拟环境:conda create -n funsound python=3.10
  • 激活环境:conda activate funsound
  • 前往后端项目根目录:ai-subtitle-player-backend
  • 安装依赖:pip install -r requirements.txt
  • 配置模型:修改funsound.config文件,设置模型存储路径
  • 启动服务:python -m funsound.flaskweb
  1. 前端界面:
    • 安装依赖:pnpm install
    • 启动开发服务器:pnpm tauri dev
    • 构建生产版本:pnpm tauri build,在linux环境下需要安装
    • 配置服务url:前往设置页面,将服务url设置为ws://localhost:8800(后端默认url),同时选择需要的模型:FunAsr/Whisper
    • 在客户端内打开需要播放的视频文件,即可播放并实时获取字幕

赛题说明:

随着短视频、直播、在线教育等场景的爆发式增长,视频内容的可访问性和跨语言传播需求日益增强。传统字幕制作依赖人工转录,效率低且成本高。近年来,基于深度学习的语音识别(ASR)、自然语言处理(NLP)显著提升了字幕生成的自动化水平。AI字幕技术通过自动识别音频、生成精准字幕并支持多语言翻译,正在重塑视频创作与传播方式。 本赛题旨在推动AI技术在视频处理领域的创新应用,优化音视频播放逻辑,同时探索跨语言适配、实时处理等关键技术难点。该方向与“智能技术应用与创新”赛道目标高度契合,可促进教育、娱乐、跨国协作等场景的智能化升级。

赛题要求:

  • 软件基于开源操作系统研发及运行;
  • 核心功能:基于操作系统桌面接口或SDK开发工具实现视频的语音识别、字幕自动生成及时间轴同步,支持中英等多语言翻译切换;
  • 性能要求:字幕生成准确率≥90%,支持实时或准实时处理(延迟<3秒),对字幕获取处理流程输出系统资源使用情况;
  • 扩展功能:支持字幕样式自定义(字体、颜色、位置)、多说话人分离、背景噪音过滤。

评分标准:

功能完整性(40%):

  • 基于操作系统桌面接口或SDK开发工具实现视频播放(20分);
  • 可以显示视频字幕(30分);
  • 可以显示多种语言字幕(30分);
  • 支持多种扩展功能(字幕字体,颜色,位置调整,多说话人分离等)(20分)。

性能优化(30%):

  • 字幕识别准确率超过90%(55分)
  • 准确率低于60%(0分);
  • 准确率高于60%,低于70%(35分);
  • 准确率高于70%,低于80%(45分);
  • 准确率高于80%,低于90%(55分)。
  • 字幕识别延迟小于1s(35分)
  • 字幕识别延迟大于1s,小于2s(35分);
  • 字幕识别延迟大于s2,小于3s(25分);
  • 字幕识别延迟大于3s(0分)。
  • 对字幕获取处理流程输出系统资源使用情况(10分)
  • 输出字幕获取过程的系统资源情况,内存、CPU、显存等信息(10分)。

代码规范性(20%):

  • 代码目录结构清晰,易读,可维护性强(50分);
  • 符合开源社区规范(50分)。

文档质量(10%):

  • 概要设计说明书、测试设计说明书(50分);
  • 申报书、用户手册和安装说明(50分)。

赛题联系人:

于恒 yuheng@kylinos.cn

参考资料:

  • [1] FFmpeg多媒体处理框架 官网:https://github.com/linyqh/NarratoAIhttps://github.com/mpv-player/org 核心功能:音视频流提取、格式转换与时间轴同步;支持多轨道合成(字幕、配音、视频),为AI字幕工具提供底层处理能力 
  • [2] MPV播放器矿框架 项目地址:https://github.com/mpv-player/ 核心功能:集成音视频播放能力,便于开发;
  • [3] NarratoAI(智能视频解说与字幕生成) 项目地址:https://github.com/linyqh/NarratoAI 相关技术:基于Whisper的语音识别与时间轴同步技术; 多语言翻译(支持Qwen2-VL模型)与字幕-视频自动合成(FFmpeg集成); 实时处理优化方案,支持GPU加速降低延迟。

参赛资源支持:

[1] 麒麟软件有限公司可提供软件开发环境

关于
4.0 GB
邀请码
    Gitlink(确实开源)
  • 加入我们
  • 官网邮箱:gitlink@ccf.org.cn
  • QQ群
  • QQ群
  • 公众号
  • 公众号

©Copyright 2023 CCF 开源发展委员会
Powered by Trustie& IntelliDE 京ICP备13000930号