目录
目录README.md

开源 AI 资源依赖建模与可信性风险量化工具

项目简介

本工具旨在系统建模开源 AI 生态系统中的资源依赖关系,其中“资源”主要包括 Hugging Face 平台上的模型与数据集。工具构建了一个基于真实元数据的异构资源依赖网络,并提供结构分析、节点级可信性风险量化与可视化能力,帮助识别生态系统中的高风险资源与关键传播路径,为风险评估与治理决策提供数据支持。

功能特点

1. 数据集发布

我们开放本研究中使用的数据,便于社区复现与扩展分析:

  • models.csv:模型元数据,包括 _id, createdAt, downloads, id, library_name, likes, pipeline_tag, private 以及多个模型相关标签,如 tag-base_model, tag-dataset, tag-license 等。
  • dataset.csv:数据集元数据,包括 _id, author, createdAt, description, downloads, likes, private,以及诸如 tag-license, tag-language, tag-task_categories 等标签字段。

2. 网络结构可视化

本工具支持交互式图网络展示,基于 Neo4j 图数据库与 Neovis.js 前端框架。支持三类查询视图:

  • 关系视图:聚焦特定类型的资源依赖
  • 作者视图:展示某位作者所关联的模型与数据集
  • 路径视图:展示任意两个节点间的路径,理解依赖传播路径

技术栈

  • 图数据库:Neo4j
  • 可视化:Neovis.js
  • 开发语言:Python 3.8+

复现步骤

1. 环境依赖安装

pip install pandas matplotlib seaborn neo4j

2. 数据预处理

# 将原始 JSON 转为 CSV
python build_network/json2csv.py

# 清洗与筛选元数据
python build_network/csv_process.py

3. 构建资源依赖图

# 生成图中的节点与边
python build_network/build_nodes.py

4. 节点可信性风险评估

# 计算节点可信性得分
python cred/cred_com.py

# 可视化得分分布
python cred/draw.py

5. 可视化界面

打开本地文件:

visual/index.html
需先启动本地 Neo4j 并配置 Neovis.js

6. 图数据库配置

参考官方文档完成 CSV 导入与数据库配置:https://neo4j.com/docs/

项目结构说明


build_network/
├── json2csv.py       # Hugging Face JSON 转 CSV
├── csv_process.py    # 元数据清洗与字段筛选
└── build_nodes.py    # 构建依赖图的节点与边

cred/
├── cred_com.py       # 节点可信性风险得分计算
└── draw.py           # 风险得分可视化

visual/
├── *.js              # Neovis.js 可视化逻辑
├── styles.css        # 可视化界面样式
└── index.html        # 前端入口页面

数据字段说明

models.csv

字段名 说明
_id 内部唯一标识符
createdAt 创建时间戳
downloads 下载次数
id 模型 ID
library_name 所属模型库(例如:transformers)
likes 点赞数量
modelId 模型唯一标识符
pipeline_tag 模型对应的任务标签(pipeline 类型)
private 是否为私有模型
tag-* 各类标签字段,包括来源、base_model、license 等元数据信息

dataset.csv

字段名 说明
_id 内部唯一标识符
author 数据集创建者
annotator 数据集标注者(与作者不同)
createdAt 创建时间戳
description 数据集描述
downloads 下载次数
id 数据集 ID
likes 点赞数量
private 是否为私有数据集
tag-* 标签字段,如 arxiv、license、语言、任务类别(task_categories)等信息

授权协议

代码: Apache License 2.0

数据: CC BY 4.0 国际协议(署名共享)

联系:

如有问题或建议,欢迎通过 GitLink issue 区进行反馈与交流。

关于

本工具旨在系统建模开源 AI 生态系统中的资源依赖关系,其中“资源”主要指模型与数据集。工具基于真实世界的元数据(如 Hugging Face 平台),构建异构依赖网络,分析其结构特征与演化模式,并对节点级的可信性风险进行量化评估。目标在于识别潜在的高风险资源,为开源 AI 生态系统中的风险识别、评估与治理策略提供量化依据。

1.9 MB
邀请码
    Gitlink(确实开源)
  • 加入我们
  • 官网邮箱:gitlink@ccf.org.cn
  • QQ群
  • QQ群
  • 公众号
  • 公众号

©Copyright 2023 CCF 开源发展委员会
Powered by Trustie& IntelliDE 京ICP备13000930号