[1] Zhikai Li, Xuewen Liu, Dongrong Fu, Jianquan Li, Qingyi Gu, Kurt Keutzer, and Zhen Dong. K-Sort Arena: Efficient and reliable benchmarking for generative models via k-wise human preferences. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2025.
[2] Zhikai Li, Jiatong Li, Xuewen Liu, Wangbo Zhao, Pan Du, Kaicheng Zhou, Qingyi Gu, Yang You, Zhen Dong, Kurt Keutzer. K-Sort Eval: Efficient preference evaluation for visual generation via corrected VLM-as-a-judge. International Conference on Learning Representations (ICLR), 2026.
缓存评测适合公开 Arena 或大规模人工投票场景,可以避免实时调用模型带来的高延迟、高成本和 API 并发限制。
引用
如果使用本项目或相关方法,请引用:
@inproceedings{li2025ksortarena,
title={K-Sort Arena: Efficient and reliable benchmarking for generative models via k-wise human preferences},
author={Li, Zhikai and Liu, Xuewen and Fu, Dongrong and Li, Jianquan and Gu, Qingyi and Keutzer, Kurt and Dong, Zhen},
booktitle={IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
year={2025}
}
@inproceedings{li2026ksorteval,
title={K-Sort Eval: Efficient preference evaluation for visual generation via corrected VLM-as-a-judge},
author={Li, Zhikai and Li, Jiatong and Liu, Xuewen and Zhao, Wangbo and Du, Pan and Zhou, Kaicheng and Gu, Qingyi and You, Yang and Dong, Zhen and Keutzer, Kurt},
booktitle={International Conference on Learning Representations (ICLR)},
year={2026}
}
许可证与致谢
本项目代码和评测流程构建在多个开源视觉生成与 Web 服务组件之上,包括 Gradio、Diffusers、ImagenHub、VideoGenHub、CLIP 等。请在使用对应模型、数据和依赖时遵守其原始许可证和使用条款。
K-Sort Arena
K-Sort Arena 是一个面向视觉生成模型的偏好评测与排行榜系统。项目提供基于 Gradio 的交互式 Arena 页面,支持图像生成与视频生成模型的匿名多模型比较、人工偏好投票、贡献者统计、日志保存与排行榜展示。
本项目实现思想主要参考以下两篇工作:
项目功能
1. K-wise 人类偏好评测
传统 Arena 通常采用两两比较。K-Sort Arena 面向视觉生成任务提供 K-wise 比较流程,即一次向用户展示多个模型输出,让用户在同一提示词下比较多个候选结果。
当前界面主要支持四模型匿名比较:
这种方式能够在接近 pairwise 比较交互成本的情况下收集更丰富的偏好信息,对应论文 [1] 中 K-wise human preferences 的核心思想。
2. 图像生成 Arena
项目提供文本到图像生成模型的评测页面,入口位于主界面的 Image Generation 标签。
支持的能力包括:
核心相关文件:
app.py:Gradio 主入口。serve/gradio_web.py:图像生成 Arena 页面构建。serve/vote_utils.py:投票、日志、状态管理与结果保存。model/model_manager.py:模型加载、并行调用和缓存样例读取。model/matchmaker.py:图像模型匹配逻辑。3. 视频生成 Arena
项目同样支持文本到视频生成模型的评测页面,入口位于主界面的 Video Generation 标签。
支持的能力包括:
核心相关文件:
serve/gradio_web_video.py:视频生成 Arena 页面构建。model/matchmaker_video.py:视频模型匹配逻辑。model/model_manager.py:视频缓存样例读取和模型选择。serve/vote_utils.py:视频投票和日志保存。4. 模型匹配与样本选择
项目内置 matchmaker 机制,用于自动选择参与同一轮比较的模型。用户不手动指定模型时,系统会根据匹配策略从候选模型池中选择模型,减少随机配对带来的低效比较。
相关能力包括:
这一部分对应论文 [1] 中通过设计 matchmaking algorithm 降低人类评测成本的思想。
5. 排行榜展示
系统提供图像、视频和贡献者三个排行榜页面:
相关文件:
serve/leaderboard.pysorted_score_list.jsonsorted_score_list_video.jsoncontributor.json排行榜可结合 Elo、TrueSkill 或项目中生成的排序结果文件进行展示。项目中也保留了
ELO_RESULTS_DIR配置,用于加载外部评测结果目录。6. 日志与结果保存
项目支持将用户投票和生成结果写入日志目录,也提供简单的日志服务接口。
主要保存内容包括:
相关文件:
serve/log_utils.py:日志工具。serve/log_server.py:日志服务接口。serve/utils.py:日志路径、按钮状态和通用 UI 工具。serve/upload.py:远程缓存、文件上传和 SSH 相关工具。默认日志目录由
LOGDIR控制,默认值为:K-Sort Eval 相关说明
论文 [2] 提出 K-Sort Eval,通过 corrected VLM-as-a-judge 实现更高效的视觉生成偏好评估。与完全依赖人工投票的 Arena 不同,K-Sort Eval 关注使用经过修正的视觉语言模型作为裁判来进行偏好判断,从而降低大规模评测成本。
本仓库当前主要提供 K-Sort Arena 的人类偏好交互评测与排行榜系统。若需要扩展到 K-Sort Eval,可在现有结构上增加自动裁判模块:
目录结构
安装依赖
建议使用独立的 Python 环境安装依赖:
依赖中包含部分 Git 仓库形式的包,例如 CLIP、latent-diffusion、ImagenHub 和 VideoGenHub。安装时需要能够访问对应仓库。
启动方式
在项目根目录运行:
默认会启动 Gradio Web 服务。端口由
SERVER_PORT控制,默认值为7860。启动后可在浏览器访问:
常用环境变量
项目通过环境变量管理日志、服务端口、远程缓存和 SSH 信息。
SERVER_PORT7860ROOT_PATHNoneELO_RESULTS_DIR./arena_elo/results/latestLOGDIR./ksort-logs/vote_logIMAGE_DIR${LOGDIR}/imagesVIDEO_DIR${LOGDIR}/videosLOG_SERVERhttp://127.0.0.1:22005SSH_SERVERdefault_valueSSH_PORTdefault_valueSSH_USERdefault_valueSSH_PASSWORDdefault_valueSSH_CACHE_IMAGE/home/zhendongucb/ksort/ksort_image_cache/SSH_CACHE_OPENSOURCE/home/zhendongucb/ksort/ksort_video_cache/Opensource/SSH_CACHE_ADVANCE/home/zhendongucb/ksort/ksort_video_cache/Advance/SSH_CACHE_PIKA/home/zhendongucb/ksort/ksort_video_cache/Pika-Beta/SSH_CACHE_SORA/home/zhendongucb/ksort/ksort_video_cache/Sora/基本使用流程
添加新模型
添加新模型通常需要完成以下步骤:
model/models/中实现模型加载或 API 调用封装。model/models/__init__.py中加入模型名称列表。model/model_registry.py中注册模型信息。serve/upload.py和相关 SSH 配置中准备对应目录。数据与缓存
项目支持两类生成方式:
缓存评测适合公开 Arena 或大规模人工投票场景,可以避免实时调用模型带来的高延迟、高成本和 API 并发限制。
引用
如果使用本项目或相关方法,请引用:
许可证与致谢
本项目代码和评测流程构建在多个开源视觉生成与 Web 服务组件之上,包括 Gradio、Diffusers、ImagenHub、VideoGenHub、CLIP 等。请在使用对应模型、数据和依赖时遵守其原始许可证和使用条款。