Update README.md
本工具旨在系统建模开源 AI 生态系统中的资源依赖关系,其中“资源”主要包括 Hugging Face 平台上的模型与数据集。工具构建了一个基于真实元数据的异构资源依赖网络,并提供结构分析、节点级可信性风险量化与可视化能力,帮助识别生态系统中的高风险资源,为风险评估与治理决策提供数据支持。
我们开放了本研究中使用的全部数据,以便社区复现与扩展分析:
(1). 基础元数据
_id
createdAt
downloads
id
library_name
likes
pipeline_tag
private
tag-base_model
tag-dataset
tag-license
author
description
tag-language
tag-task_categories
(2). 大体积文件(已上传至网盘)
model_processed.7z
model.7z
huggingface_models.7z
huggingface_dataset.zip
dataset (2).7z
model_full_ranking
dataset_full_ranking
(3). 结构化正负样本数据
该部分数据用于复现指标的统计显著性结果,覆盖七个风险维度: dataset_likes, dataset_out_degree, dataset_license, model_likes, model_out_degree, model_license, model_base。 每个维度均包含正负样本两类 CSV 文件:
dataset_likes
dataset_out_degree
dataset_license
model_likes
model_out_degree
model_license
model_base
数据集相关
dataset_likes_pos.csv
dataset_likes_neg.csv
dataset_out_degree_pos.csv
dataset_out_degree_neg.csv
dataset_license_pos.csv
dataset_license_neg.csv
模型相关
model_likes_pos.csv
model_likes_neg.csv
model_out_degree_pos.csv
model_out_degree_neg.csv
model_license_pos.csv
model_license_neg.csv
model_base_pos.csv
model_base_neg.csv
以上文件统一存放于仓库目录 AIResourceRiskTools/cred。
本工具支持交互式图网络展示,基于 Neo4j 图数据库与 Neovis.js 前端框架。支持三类查询视图:
pip install pandas matplotlib seaborn neo4j
# 将原始 JSON 转为 CSV python build_network/json2csv.py # 清洗与筛选元数据 python build_network/csv_process.py
# 生成图中的节点与边 python build_network/build_nodes.py
# 计算节点可信性得分 python cred/cred_com.py # 可视化得分分布 python cred/draw.py
打开本地文件:
visual/index.html 需先启动本地 Neo4j 并配置 Neovis.js
参考官方文档完成 CSV 导入与数据库配置:https://neo4j.com/docs/
build_network/ ├── json2csv.py # Hugging Face JSON 转 CSV ├── csv_process.py # 元数据清洗与字段筛选 └── build_nodes.py # 构建依赖图的节点与边 cred/ ├── cred_com.py # 节点可信性风险得分计算 └── draw.py # 风险得分可视化 visual/ ├── *.js # Neovis.js 可视化逻辑 ├── styles.css # 可视化界面样式 └── index.html # 前端入口页面
代码: Apache License 2.0
数据: CC BY 4.0 国际协议(署名共享)
如有问题或建议,欢迎通过 GitLink issue 区进行反馈与交流。
©Copyright 2023 CCF 开源发展委员会 Powered by Trustie& IntelliDE 京ICP备13000930号
开源 AI 资源依赖建模与可信性风险量化工具
项目简介
本工具旨在系统建模开源 AI 生态系统中的资源依赖关系,其中“资源”主要包括 Hugging Face 平台上的模型与数据集。工具构建了一个基于真实元数据的异构资源依赖网络,并提供结构分析、节点级可信性风险量化与可视化能力,帮助识别生态系统中的高风险资源,为风险评估与治理决策提供数据支持。
功能特点
1. 数据集发布
我们开放了本研究中使用的全部数据,以便社区复现与扩展分析:
(1). 基础元数据
_id,createdAt,downloads,id,library_name,likes,pipeline_tag,private,以及多个模型相关标签(如tag-base_model,tag-dataset,tag-license等)。_id,author,createdAt,description,downloads,likes,private,以及诸如tag-license,tag-language,tag-task_categories等字段。(2). 大体积文件(已上传至网盘)
model_processed.7z,model.7z,huggingface_models.7z,huggingface_dataset.zip,dataset (2).7zmodel_full_ranking(模型可信风险结果)dataset_full_ranking(数据集可信风险结果)(以上文件因体积限制已上传至网盘,(详见 网盘链接))
(3). 结构化正负样本数据
该部分数据用于复现指标的统计显著性结果,覆盖七个风险维度:
dataset_likes,dataset_out_degree,dataset_license,model_likes,model_out_degree,model_license,model_base。每个维度均包含正负样本两类 CSV 文件:
数据集相关
dataset_likes_pos.csv/dataset_likes_neg.csvdataset_out_degree_pos.csv/dataset_out_degree_neg.csvdataset_license_pos.csv/dataset_license_neg.csv模型相关
model_likes_pos.csv/model_likes_neg.csvmodel_out_degree_pos.csv/model_out_degree_neg.csvmodel_license_pos.csv/model_license_neg.csvmodel_base_pos.csv/model_base_neg.csv以上文件统一存放于仓库目录 AIResourceRiskTools/cred。
2. 网络结构可视化
本工具支持交互式图网络展示,基于 Neo4j 图数据库与 Neovis.js 前端框架。支持三类查询视图:
技术栈
复现步骤
1. 环境依赖安装
2. 数据预处理
3. 构建资源依赖图
4. 节点可信性风险评估
5. 可视化界面
打开本地文件:
6. 图数据库配置
参考官方文档完成 CSV 导入与数据库配置:https://neo4j.com/docs/
项目结构说明
数据字段说明
models.csv
dataset.csv
授权协议
代码: Apache License 2.0
数据: CC BY 4.0 国际协议(署名共享)
联系:
如有问题或建议,欢迎通过 GitLink issue 区进行反馈与交流。