mirrors/AICGSecEval

中文 | English

🚀 「腾讯悟空代码安全团队」推出的行业首个项目级 AI 生成代码安全性评测框架

A.S.E（AICGSecEval） 提供了全新的项目级 AI 生成代码安全评测基准，旨在通过模拟真实世界 AI 编程过程，评估 AI 生成代码在安全性方面的表现：

代码生成任务：源自真实世界 GitHub 项目与权威 CVE 漏洞，兼顾开发场景的真实还原与安全敏感性；
代码生成过程：自动提取项目级代码上下文，精准模拟真实 AI 编程场景；
代码安全评估：集成了动静态协同的评估套件，兼顾检测广度与验证精度，显著提升安全评测的科学性与实用价值；

我们致力于将 A.S.E（AICGSecEval）打造成开放、可复现、持续进化的社区项目，欢迎通过 Star、Fork、Issue、Pull Request 参与数据扩展与评测改进，共同推动项目迭代与完善。您的关注与贡献将助力 A.S.E 持续成长，促进大模型在 AI 编程安全领域的产业落地与学术研究。

✨ A.S.E 框架设计

🧱 2.0 重磅升级

1️⃣ 数据集升级 - 覆盖更广泛的代码生成漏洞场景
囊括 OWASP Top 10 与 CWE Top 25 重点风险，涉及 29 类 CWE 漏洞，涵盖 C/C++、PHP、Java、Python、JavaScript 等主流语言。

2️⃣ 评测对象升级 - 新增对 Agentic 编程工具的评测支持
拓展评测维度，更贴近真实 AI 编程场景。

3️⃣ 代码评估升级 - 动静态协同评估
引入基于测试用例与漏洞 PoC 的动态代码评估方案，形成动静态协同的评估体系，兼顾检测广度与验证精度，显著提升评测的科学性与实用价值。

🚀 快速开始

系统要求 | 内存 | 磁盘空间 | Python | Docker | |:——:|:———-:|:———-:|:———-:| | 推荐 16GB+ | 100GB+ | ≥ 3.11 | ≥ 27

1. 安装 Python 依赖

pip install -r requirements.txt

2. 一键启动评测

# 基本用法
python3 invoke.py [options...] {--llm | --agent} [llm_options... | agent_options...]

# 使用 -h 查看完整参数说明
python3 invoke.py -h

# LLM 评测运行示例
python3 invoke.py \
  --llm \
  --model_name gpt-4o-2024-11-20 \
  --base_url https://api.openai.com/v1/ \
  --api_key sk-xxxxxx \
  --batch_id v1.0 \
  --dataset_path ./data/data_v2.json \
  --output_dir ./outputs
  --max_workers 1
  --github_token xxxxx // 如果不提供则使用匿名克隆,可能存在克隆限频问题

# Agent 评测运行示例
在启动 Agent 评测时，考虑到不同 Agent 可能会有不同的配置参数（如模型、权限、API 等），启动器会将所有未知参数（即不在 -h 帮助信息列出的选项）提交给对应的 Agent 评测模块进行解析，以实现对 Agent 配置参数的扩展。例如，对 Claude Code 进行评测时，可以使用以下方式启动：

python3 invoke.py \
  --agent \
  --agent_name claude_code \
  --batch_id v1.0 \
  --dataset_path ./data/data_v2.json \
  --claude_api_url https://ai.nengyongai.cn \
  --claude_api_key sk-XXXXX \
  --claude_model claude-sonnet-4-20250514
  --github_token xxxxx // 如果不提供则使用匿名克隆,可能存在克隆限频问题

其中 --claude_XXX 几个选项由 Agent 评测模块解析使用。

注：完整评估耗时较长，用户可根据硬件条件设置并发数进行提速。工具内置断点重连机制，用户中断代码后只需直接运行代码即可继续执行。

📖 引用

如果您的研究工作使用或参考了 A.S.E 及其评测结果，请按照以下方式引用：

@misc{lian2025aserepositorylevelbenchmarkevaluating,
      title={A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code}, 
      author={Keke Lian and Bin Wang and Lei Zhang and Libo Chen and Junjie Wang and Ziming Zhao and Yujiu Yang and Miaoqian Lin and Haotong Duan and Haoran Zhao and Shuang Liao and Mingda Guo and Jiazheng Quan and Yilu Zhong and Chenhao He and Zichuan Chen and Jie Wu and Haoling Li and Zhaoxuan Li and Jiongchi Yu and Hui Li and Dong Zhang},
      year={2025},
      eprint={2508.18106},
      archivePrefix={arXiv},
      primaryClass={cs.SE},
      url={https://arxiv.org/abs/2508.18106}, 
}

🤝 贡献指南

A.S.E 致力于构建一个开放、可复现、持续进化的 AI 生成代码安全评测生态。我们欢迎来自学术界、工业界及社区的开发者共同参与项目建设。

共建方向

🧠 数据集共建：扩展真实项目漏洞样本，补充SAST 工具/规则，代码功能测试用例与漏洞 PoC 等。
⚙️ 评测框架优化：完善代码生成逻辑、评测指标、补充代码上下文策略，Agent 集成、代码重构等。
💡 讨论与建议：提出改进思路、共创评测策略或分享最佳实践。

💬 除以上方式外，我们也欢迎任何形式的参与与支持，包括贡献使用场景、提供反馈、优化文档或参与社区讨论。