添加项目展示PPT:操作系统开源创新大赛PPT - 智语字幕.pptx
赛题题目:视频字幕AI自动识别显示工具 赛题说明: 随着短视频、直播、在线教育等场景的爆发式增长,视频内容的可访问性和跨语言传播需求日益增强。传统字幕制作依赖人工转录,效率低且成本高。近年来,基于深度学习的语音识别(ASR)、自然语言处理(NLP)显著提升了字幕生成的自动化水平。AI字幕技术通过自动识别音频、生成精准字幕并支持多语言翻译,正在重塑视频创作与传播方式。 本赛题旨在推动AI技术在视频处理领域的创新应用,优化音视频播放逻辑,同时探索跨语言适配、实时处理等关键技术难点。该方向与“智能技术应用与创新”赛道目标高度契合,可促进教育、娱乐、跨国协作等场景的智能化升级。
赛题要求: 软件基于开源操作系统研发及运行; 核心功能:基于操作系统桌面接口或SDK开发工具实现视频的语音识别、字幕自动生成及时间轴同步,支持中英等多语言翻译切换; 性能要求:字幕生成准确率≥90%,支持实时或准实时处理(延迟<3秒),对字幕获取处理流程输出系统资源使用情况; 扩展功能:支持字幕样式自定义(字体、颜色、位置)、多说话人分离、背景噪音过滤。 评分标准: 功能完整性(40%): 基于操作系统桌面接口或SDK开发工具实现视频播放(20分); 可以显示视频字幕(30分); 可以显示多种语言字幕(30分); 支持多种扩展功能(字幕字体,颜色,位置调整,多说话人分离等)(20分)。 性能优化(30%): 字幕识别准确率超过90%(55分) 准确率低于60%(0分); 准确率高于60%,低于70%(35分); 准确率高于70%,低于80%(45分); 准确率高于80%,低于90%(55分)。 字幕识别延迟小于1s(35分) 字幕识别延迟大于1s,小于2s(35分); 字幕识别延迟大于s2,小于3s(25分); 字幕识别延迟大于3s(0分)。 对字幕获取处理流程输出系统资源使用情况(10分) 输出字幕获取过程的系统资源情况,内存、CPU、显存等信息(10分)。 代码规范性(20%): 代码目录结构清晰,易读,可维护性强(50分); 符合开源社区规范(50分)。 文档质量(10%): 概要设计说明书、测试设计说明书(50分); 申报书、用户手册和安装说明(50分)。 赛题联系人: 于恒 yuheng@kylinos.cn
参考资料: [1] FFmpeg多媒体处理框架 官网:https://github.com/linyqh/NarratoAIhttps://github.com/mpv-player/org 核心功能:音视频流提取、格式转换与时间轴同步;支持多轨道合成(字幕、配音、视频),为AI字幕工具提供底层处理能力 [2] MPV播放器矿框架 项目地址:https://github.com/mpv-player/ 核心功能:集成音视频播放能力,便于开发; [3] NarratoAI(智能视频解说与字幕生成) 项目地址:https://github.com/linyqh/NarratoAI 相关技术:基于Whisper的语音识别与时间轴同步技术; 多语言翻译(支持Qwen2-VL模型)与字幕-视频自动合成(FFmpeg集成); 实时处理优化方案,支持GPU加速降低延迟。 参赛资源支持: [1] 麒麟软件有限公司可提供软件开发环境
d0520d2dbb8a99c015f156ae087194588b0d4f79
©Copyright 2023 CCF 开源发展委员会 Powered by Trustie& IntelliDE 京ICP备13000930号
赛题题目:视频字幕AI自动识别显示工具 赛题说明: 随着短视频、直播、在线教育等场景的爆发式增长,视频内容的可访问性和跨语言传播需求日益增强。传统字幕制作依赖人工转录,效率低且成本高。近年来,基于深度学习的语音识别(ASR)、自然语言处理(NLP)显著提升了字幕生成的自动化水平。AI字幕技术通过自动识别音频、生成精准字幕并支持多语言翻译,正在重塑视频创作与传播方式。 本赛题旨在推动AI技术在视频处理领域的创新应用,优化音视频播放逻辑,同时探索跨语言适配、实时处理等关键技术难点。该方向与“智能技术应用与创新”赛道目标高度契合,可促进教育、娱乐、跨国协作等场景的智能化升级。
赛题要求: 软件基于开源操作系统研发及运行; 核心功能:基于操作系统桌面接口或SDK开发工具实现视频的语音识别、字幕自动生成及时间轴同步,支持中英等多语言翻译切换; 性能要求:字幕生成准确率≥90%,支持实时或准实时处理(延迟<3秒),对字幕获取处理流程输出系统资源使用情况; 扩展功能:支持字幕样式自定义(字体、颜色、位置)、多说话人分离、背景噪音过滤。 评分标准: 功能完整性(40%): 基于操作系统桌面接口或SDK开发工具实现视频播放(20分); 可以显示视频字幕(30分); 可以显示多种语言字幕(30分); 支持多种扩展功能(字幕字体,颜色,位置调整,多说话人分离等)(20分)。 性能优化(30%): 字幕识别准确率超过90%(55分) 准确率低于60%(0分); 准确率高于60%,低于70%(35分); 准确率高于70%,低于80%(45分); 准确率高于80%,低于90%(55分)。 字幕识别延迟小于1s(35分) 字幕识别延迟大于1s,小于2s(35分); 字幕识别延迟大于s2,小于3s(25分); 字幕识别延迟大于3s(0分)。 对字幕获取处理流程输出系统资源使用情况(10分) 输出字幕获取过程的系统资源情况,内存、CPU、显存等信息(10分)。 代码规范性(20%): 代码目录结构清晰,易读,可维护性强(50分); 符合开源社区规范(50分)。 文档质量(10%): 概要设计说明书、测试设计说明书(50分); 申报书、用户手册和安装说明(50分)。 赛题联系人: 于恒 yuheng@kylinos.cn
参考资料: [1] FFmpeg多媒体处理框架 官网:https://github.com/linyqh/NarratoAIhttps://github.com/mpv-player/org 核心功能:音视频流提取、格式转换与时间轴同步;支持多轨道合成(字幕、配音、视频),为AI字幕工具提供底层处理能力 [2] MPV播放器矿框架 项目地址:https://github.com/mpv-player/ 核心功能:集成音视频播放能力,便于开发; [3] NarratoAI(智能视频解说与字幕生成) 项目地址:https://github.com/linyqh/NarratoAI 相关技术:基于Whisper的语音识别与时间轴同步技术; 多语言翻译(支持Qwen2-VL模型)与字幕-视频自动合成(FFmpeg集成); 实时处理优化方案,支持GPU加速降低延迟。 参赛资源支持: [1] 麒麟软件有限公司可提供软件开发环境
d0520d2dbb8a99c015f156ae087194588b0d4f79