@misc{lian2025aserepositorylevelbenchmarkevaluating,
title={A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code},
author={Keke Lian and Bin Wang and Lei Zhang and Libo Chen and Junjie Wang and Ziming Zhao and Yujiu Yang and Miaoqian Lin and Haotong Duan and Haoran Zhao and Shuang Liao and Mingda Guo and Jiazheng Quan and Yilu Zhong and Chenhao He and Zichuan Chen and Jie Wu and Haoling Li and Zhaoxuan Li and Jiongchi Yu and Hui Li and Dong Zhang},
year={2025},
eprint={2508.18106},
archivePrefix={arXiv},
primaryClass={cs.SE},
url={https://arxiv.org/abs/2508.18106},
}
🤝 贡献指南
A.S.E 致力于构建一个 开放、可复现、持续进化 的 AI 生成代码安全评测生态。
我们欢迎来自学术界、工业界及社区的开发者共同参与项目建设。
中文 | English
🚀 「腾讯悟空代码安全团队」推出的行业首个项目级 AI 生成代码安全性评测框架
A.S.E(AICGSecEval) 提供了全新的项目级 AI 生成代码安全评测基准,旨在通过模拟真实世界 AI 编程过程,评估 AI 生成代码在安全性方面的表现:
我们致力于将 A.S.E(AICGSecEval)打造成开放、可复现、持续进化的社区项目,欢迎通过 Star、Fork、Issue、Pull Request 参与数据扩展与评测改进,共同推动项目迭代与完善。您的关注与贡献将助力 A.S.E 持续成长,促进大模型在 AI 编程安全领域的产业落地与学术研究。
目录
✨ A.S.E 框架设计
🧱 2.0 重磅升级
1️⃣ 数据集升级 - 覆盖更广泛的代码生成漏洞场景
囊括 OWASP Top 10 与 CWE Top 25 重点风险,涉及 29 类 CWE 漏洞,涵盖 C/C++、PHP、Java、Python、JavaScript 等主流语言。
2️⃣ 评测对象升级 - 新增对 Agentic 编程工具的评测支持
拓展评测维度,更贴近真实 AI 编程场景。
3️⃣ 代码评估升级 - 动静态协同评估
引入基于测试用例与漏洞 PoC 的动态代码评估方案,形成动静态协同的评估体系,兼顾检测广度与验证精度,显著提升评测的科学性与实用价值。
🚀 快速开始
系统要求 | 内存 | 磁盘空间 | Python | Docker | |:——:|:———-:|:———-:|:———-:| | 推荐 16GB+ | 100GB+ | ≥ 3.11 | ≥ 27
1. 安装 Python 依赖
2. 一键启动评测
注:完整评估耗时较长,用户可根据硬件条件设置并发数进行提速。工具内置断点重连机制,用户中断代码后只需直接运行代码即可继续执行。
📖 引用
如果您的研究工作使用或参考了 A.S.E 及其评测结果,请按照以下方式引用:
🤝 贡献指南
A.S.E 致力于构建一个 开放、可复现、持续进化 的 AI 生成代码安全评测生态。 我们欢迎来自学术界、工业界及社区的开发者共同参与项目建设。
共建方向
参考文档
社区互动
您的关注与参与将帮助 A.S.E 更快迭代、覆盖更广场景,共同推动 AI 编程安全评测的开放标准化进程。
🙏 致谢
A.S.E 由腾讯安全平台部悟空代码安全团队联合以下学术单位共同建设:
感谢各方对 A.S.E 的卓越贡献!
🙌 Contributors
📱 加入社群
🔗 推荐安全工具
如果你关注 AI 基础设施安全,可以参考 A.I.G(AI-Infra-Guard)—— 由腾讯朱雀实验室开发的一套全面、智能且易用的 AI 红队测试平台。
📄 开源协议
本项目基于 Apache-2.0 许可证开源,详细信息请查阅 License.txt 文件。