更新汇报ppt
项目包含以下主要目录和文件:
ai-subtitle-player-backend/
funsound/
client.py
download_models.py
launch.sh
ai-subtitle-player-frontend/
src/
src-tauri/
package.json
deps/
documents/
models/
releases/
README.md
若不需要克隆项目中的models文件夹的内容,则可以采用稀疏克隆进行排除:
git clone --filter=blob:none --no-checkout <仓库地址>
cd <仓库目录>
git sparse-checkout init --cone
git sparse-checkout set /* !/models
git checkout
conda create -n funsound python=3.10
conda activate funsound
pip install -r requirements.txt
python -m funsound.flaskweb
pnpm install
pnpm tauri dev
pnpm tauri build
ws://localhost:8800
随着短视频、直播、在线教育等场景的爆发式增长,视频内容的可访问性和跨语言传播需求日益增强。传统字幕制作依赖人工转录,效率低且成本高。近年来,基于深度学习的语音识别(ASR)、自然语言处理(NLP)显著提升了字幕生成的自动化水平。AI字幕技术通过自动识别音频、生成精准字幕并支持多语言翻译,正在重塑视频创作与传播方式。 本赛题旨在推动AI技术在视频处理领域的创新应用,优化音视频播放逻辑,同时探索跨语言适配、实时处理等关键技术难点。该方向与“智能技术应用与创新”赛道目标高度契合,可促进教育、娱乐、跨国协作等场景的智能化升级。
于恒 yuheng@kylinos.cn
[1] 麒麟软件有限公司可提供软件开发环境
©Copyright 2023 CCF 开源发展委员会 Powered by Trustie& IntelliDE 京ICP备13000930号
赛题题目:视频字幕AI自动识别显示工具
项目目录结构说明
项目包含以下主要目录和文件:
ai-subtitle-player-backend/:后端服务目录,包含语音识别、字幕生成等核心功能实现funsound/:主要功能模块,包括语音识别引擎、翻译模块等client.py:客户端程序download_models.py:模型下载工具launch.sh:启动脚本ai-subtitle-player-frontend/:前端界面目录,实现用户交互和视频播放功能src/:前端源代码,包含组件、路由、状态管理等src-tauri/:Tauri桌面应用集成配置package.json:前端项目配置文件deps/: 外部依赖目录,用于前端自定义wasm模块集成documents/: 文档目录,包含使用说明、项目介绍以及演示视频等。其中概要设计说明书、测试设计说明书详见文件“项目功能说明书.pdf”对应章节models/:预训练模型目录,包含语音识别和翻译所需的模型文件releases/: 客户端发布版本目录,包含已编译的针对Linux和Windows双平台的二进制可执行文件和安装包文件README.md:项目说明文档若不需要克隆项目中的models文件夹的内容,则可以采用稀疏克隆进行排除:
1. 克隆仓库但不检出文件
git clone --filter=blob:none --no-checkout <仓库地址>cd <仓库目录>2. 启用稀疏检出
git sparse-checkout init --cone3. 排除 /models 目录(只保留其他所有内容)
git sparse-checkout set /* !/models4. 检出文件
git checkout环境搭建建议
运行指南
conda create -n funsound python=3.10conda activate funsoundpip install -r requirements.txtpython -m funsound.flaskwebpnpm installpnpm tauri devpnpm tauri build,在linux环境下需要安装ws://localhost:8800(后端默认url),同时选择需要的模型:FunAsr/Whisper赛题说明:
随着短视频、直播、在线教育等场景的爆发式增长,视频内容的可访问性和跨语言传播需求日益增强。传统字幕制作依赖人工转录,效率低且成本高。近年来,基于深度学习的语音识别(ASR)、自然语言处理(NLP)显著提升了字幕生成的自动化水平。AI字幕技术通过自动识别音频、生成精准字幕并支持多语言翻译,正在重塑视频创作与传播方式。 本赛题旨在推动AI技术在视频处理领域的创新应用,优化音视频播放逻辑,同时探索跨语言适配、实时处理等关键技术难点。该方向与“智能技术应用与创新”赛道目标高度契合,可促进教育、娱乐、跨国协作等场景的智能化升级。
赛题要求:
评分标准:
功能完整性(40%):
性能优化(30%):
代码规范性(20%):
文档质量(10%):
赛题联系人:
于恒 yuheng@kylinos.cn
参考资料:
参赛资源支持:
[1] 麒麟软件有限公司可提供软件开发环境