Del dup figure in readme
English | 简体中文
CanRisk-DB 是一个由AI构建的癌症风险数据库,而 CanRisk-AI 是构建该数据库的流程. 可以通过网页端访问 CanRisk-DB。 整个 CanRisk-AI 流程包括:摘要过滤,全文过滤和多智能体信息提取。整体流程图如下:
该项目的代码基于Python构建,且需要Python 3.10或更高版本。
pip install -U 'volcengine-python-sdk[ark]'
关于 LLM本项目中所有的大模型调用均来自火山引擎平台,并通过Ark实现。相关信息请访问火山方舟.
摘要过滤
tsv
python 1.Abstract_filter.py input_file.tsv output_file.tsv
有很多优秀的pdf文档解析工具可以使用,如 Dolphin, docling, 和 LlamaParse 等.由于计算资源的限制以及对中间文件(尤其是文献中的图表)利用的考量, 本项目采用 MinerU 进行全文解析.
文献全文过滤
python 2.Full_text_filter.py input_file.tsv output_file.tsv
构建 CanRisk-DB 的多智能体 -i:输入目录,支持MinerU解析后的输出结果 -o:输出目录 -r:RAG目录,支持LightRAG构建的知识图谱的位置。如果不存在,将在输出目录中自动创建
python 3.Multi_agent.py -i input_dir -o output_dir -r rag_dir
相关研究已被欧洲肿瘤内科学会(ESMO)接收,学术论文目前正在评审中。
如果您在本项目中发现潜在的安全问题,或者认为自己可能发现了安全问题,请通过我们的安全中心 或漏洞报告邮箱通知字节跳动安全团队。
请不要创建公开的GitHub问题。
本项目采用MIT许可证授权——详情请参见LICENSE文件。
版权所有:中国计算机学会技术支持:开源发展技术委员会 京ICP备13000930号-9 京公网安备 11010802032778号
CanRIsk-AI: An AI pipline for CanRisk-DB
English | 简体中文
介绍
CanRisk-DB 是一个由AI构建的癌症风险数据库,而 CanRisk-AI 是构建该数据库的流程. 可以通过网页端访问 CanRisk-DB。 整个 CanRisk-AI 流程包括:摘要过滤,全文过滤和多智能体信息提取。整体流程图如下:
安装
该项目的代码基于Python构建,且需要Python 3.10或更高版本。
依赖库
使用步骤
关于 LLM
本项目中所有的大模型调用均来自火山引擎平台,并通过Ark实现。相关信息请访问火山方舟.
摘要过滤
tsv格式,无需列名。 第一列包含唯一的摘要ID(可由用户定义), 第二列包含摘要内容。pdf文档解析
有很多优秀的pdf文档解析工具可以使用,如 Dolphin, docling, 和 LlamaParse 等.由于计算资源的限制以及对中间文件(尤其是文献中的图表)利用的考量, 本项目采用 MinerU 进行全文解析.
文献全文过滤
tsv格式,无需列名。第一列包含唯一的文献ID(可由用户定义),第二列包含与文献对应的PDF解析文件的文件路径。构建 CanRisk-DB 的多智能体 -i:输入目录,支持MinerU解析后的输出结果 -o:输出目录 -r:RAG目录,支持LightRAG构建的知识图谱的位置。如果不存在,将在输出目录中自动创建
引用
相关研究已被欧洲肿瘤内科学会(ESMO)接收,学术论文目前正在评审中。
安全问题
如果您在本项目中发现潜在的安全问题,或者认为自己可能发现了安全问题,请通过我们的安全中心 或漏洞报告邮箱通知字节跳动安全团队。
请不要创建公开的GitHub问题。
许可证
本项目采用MIT许可证授权——详情请参见LICENSE文件。