开源 AI 资源依赖建模与可信性风险量化工具

项目简介

本工具旨在系统建模开源 AI 生态系统中的资源依赖关系，其中“资源”主要包括 Hugging Face 平台上的模型与数据集。工具构建了一个基于真实元数据的异构资源依赖网络，并提供结构分析、节点级可信性风险量化与可视化能力，帮助识别生态系统中的高风险资源，为风险评估与治理决策提供数据支持。

功能特点

1. 数据集发布

我们开放了本研究中使用的全部数据，以便社区复现与扩展分析：

（1）. 基础元数据

models.csv：模型元数据，包括 _id, createdAt, downloads, id, library_name, likes, pipeline_tag, private，以及多个模型相关标签（如 tag-base_model, tag-dataset, tag-license 等）。
dataset.csv：数据集元数据，包括 _id, author, createdAt, description, downloads, likes, private，以及诸如 tag-license, tag-language, tag-task_categories 等字段。

（2）. 大体积文件（已上传至网盘）

model_processed.7z, model.7z, huggingface_models.7z, huggingface_dataset.zip, dataset (2).7z
model_full_ranking（模型可信风险结果）
dataset_full_ranking（数据集可信风险结果）
（以上文件因体积限制已上传至网盘，（详见网盘链接））

（3）. 结构化正负样本数据

该部分数据用于复现指标的统计显著性结果，覆盖七个风险维度：
dataset_likes, dataset_out_degree, dataset_license, model_likes, model_out_degree, model_license, model_base。
每个维度均包含正负样本两类 CSV 文件：

数据集相关
- dataset_likes_pos.csv / dataset_likes_neg.csv
- dataset_out_degree_pos.csv / dataset_out_degree_neg.csv
- dataset_license_pos.csv / dataset_license_neg.csv
模型相关
- model_likes_pos.csv / model_likes_neg.csv
- model_out_degree_pos.csv / model_out_degree_neg.csv
- model_license_pos.csv / model_license_neg.csv
- model_base_pos.csv / model_base_neg.csv

以上文件统一存放于仓库目录 AIResourceRiskTools/cred。

2. 网络结构可视化

本工具支持交互式图网络展示，基于 Neo4j 图数据库与 Neovis.js 前端框架。支持三类查询视图：

关系视图：聚焦特定类型的资源依赖
作者视图：展示某位作者所关联的模型与数据集
路径视图：展示任意两个节点间的路径，理解依赖传播路径

技术栈

图数据库：Neo4j
可视化：Neovis.js
开发语言：Python 3.8+

复现步骤

1. 环境依赖安装

pip install pandas matplotlib seaborn neo4j

2. 数据预处理

# 将原始 JSON 转为 CSV
python build_network/json2csv.py

# 清洗与筛选元数据
python build_network/csv_process.py

3. 构建资源依赖图

# 生成图中的节点与边
python build_network/build_nodes.py

4. 节点可信性风险评估

# 计算节点可信性得分
python cred/cred_com.py

# 可视化得分分布
python cred/draw.py

5. 可视化界面

打开本地文件：

visual/index.html
需先启动本地 Neo4j 并配置 Neovis.js

6. 图数据库配置

参考官方文档完成 CSV 导入与数据库配置：https://neo4j.com/docs/

项目结构说明


build_network/
├── json2csv.py       # Hugging Face JSON 转 CSV
├── csv_process.py    # 元数据清洗与字段筛选
└── build_nodes.py    # 构建依赖图的节点与边

cred/
├── cred_com.py       # 节点可信性风险得分计算
└── draw.py           # 风险得分可视化

visual/
├── *.js              # Neovis.js 可视化逻辑
├── styles.css        # 可视化界面样式
└── index.html        # 前端入口页面

数据字段说明

models.csv

字段名	说明
_id	内部唯一标识符
createdAt	创建时间戳
downloads	下载次数
id	模型 ID
library_name	所属模型库（例如：transformers）
likes	点赞数量
modelId	模型唯一标识符
pipeline_tag	模型对应的任务标签（pipeline 类型）
private	是否为私有模型
tag-*	各类标签字段，包括来源、base_model、license 等元数据信息

dataset.csv

字段名	说明
_id	内部唯一标识符
author	数据集创建者
annotator	数据集标注者（与作者不同）
createdAt	创建时间戳
description	数据集描述
downloads	下载次数
id	数据集 ID
likes	点赞数量
private	是否为私有数据集
tag-*	标签字段，如 arxiv、license、语言、任务类别（task_categories）等信息

授权协议

代码： Apache License 2.0

数据： CC BY 4.0 国际协议（署名共享）

联系:

如有问题或建议，欢迎通过 GitLink issue 区进行反馈与交流。