init
金融行业具有高专业、强合规、低容错的核心特性,对金融数据高敏感,对幻觉容忍度低。本工程提供大模型金融场景逻辑一致性、事实准确性和金融数据准确性的评测方法。强化了金融场景幻觉评测能力,在行业内首次提出无 GroundTruth 下金融数据准确性的评测方案。
✒️ 具体详见:大模型金融场景逻辑、事实、数据准确性评测
在模型的评测中,使用用户的真实Query和应用层带的RAG内容,做为LLM输入。大模型的回答Output中往往涉及多个金融事实(如分析股价的研报会包含多个金融指标数据),本文称为事实点, 以及基于事实的逻辑分析推论,本文称为逻辑链。 评测Agent将结合RAG和Answer,从模型回答中,提取全部事实点和全部逻辑链。针对每个事实点,逐一核查事实点与RAG的符合性。 针对每条逻辑链,提取论点和论据,进行逻辑链条一致性核查。初判结果经LLM二次复核后输出。
如下图:
模型生成的回答往往涉及多个标的、不同时间范围及多项金融指标,我们从中提取出一组结构化的“事实三要素”清单(标的、时间和指标)。在提取出相关金融数据后,我们借助内部构建的大规模、经过验证的金融数据库及配套的 MCP 调用工具链,对常见金融指标进行查询与比对。
本工程仅支持逻辑一致性和事实准确性评测,端到端金融数据准确性评测涉及内部金融数据库,暂不支持。
本工程需要python版本>=3.6.8,下载本工程:
git clone {本工程url}
安装依赖:
pip install -r requirements.txt
使用用本文的评测集或自备评测集提前通过被测模型拉取答案,参照data.xlsx格式准备输入excel文件。 格式如下:
说明:
- model:模型名称 - query: 评测问题 - prompt: RAG内容 - answer: 模型回答
配置config/config.py,填入用来评判的AI接口:
llm_config = { "model_url": "{评判AI的接口url}", "access_token": "{评判AI的token}", }
在llm/llm.py里修改请求和响应格式:
... headers = { "Content-Type": "application/json", "Authorization": "Bearer " + {评判AI的api token} } ... # 请求格式,按需修改 payload = { "contents": [ { "role": "user", "parts": [ { "text": user_prompt } ] } ] } ...
执行:
python eval_main.py data.xlsx
结果会保存在“事实逻辑评测结果-{model}.xlsx”,输出汇总格式示例:
如果您觉得本工程对您的研究有用,欢迎按以下方式进行引用:
@misc{finLLM-Eval author={Lichang Liang and Shaohui Wu and Yunlong Zhang and Yeyang Tang and Fanyang Lu}, title={finLLM-Eval: 针对大模型金融领域逻辑、事实和数据准确性评测方法}, howpublished={\url{https://www.github.com/Tencent/finLLM-Eval}}, year={2025}, }
我们欢迎来自学术界、工业界及社区的开发者共同参与项目建设。欢迎通过Star、Fork、Issue、Pull Request 参与数据扩展与评测改进,共同推动项目迭代与完善,促进大模型在AI金融领域的产业落地与学术研究。
版权所有:中国计算机学会技术支持:开源发展技术委员会 京ICP备13000930号-9 京公网安备 11010802032778号
finLLM-Eval: 针对大模型金融领域逻辑、事实和数据准确性评测方法
📕 简介
金融行业具有高专业、强合规、低容错的核心特性,对金融数据高敏感,对幻觉容忍度低。本工程提供大模型金融场景逻辑一致性、事实准确性和金融数据准确性的评测方法。强化了金融场景幻觉评测能力,在行业内首次提出无 GroundTruth 下金融数据准确性的评测方案。
📖 功能特色
📝 原理
✒️ 具体详见:大模型金融场景逻辑、事实、数据准确性评测
🚀 逻辑一致性&事实准确性
在模型的评测中,使用用户的真实Query和应用层带的RAG内容,做为LLM输入。大模型的回答Output中往往涉及多个金融事实(如分析股价的研报会包含多个金融指标数据),本文称为事实点, 以及基于事实的逻辑分析推论,本文称为逻辑链。 评测Agent将结合RAG和Answer,从模型回答中,提取全部事实点和全部逻辑链。针对每个事实点,逐一核查事实点与RAG的符合性。 针对每条逻辑链,提取论点和论据,进行逻辑链条一致性核查。初判结果经LLM二次复核后输出。
如下图:
🚀 金融数据准确性
模型生成的回答往往涉及多个标的、不同时间范围及多项金融指标,我们从中提取出一组结构化的“事实三要素”清单(标的、时间和指标)。在提取出相关金融数据后,我们借助内部构建的大规模、经过验证的金融数据库及配套的 MCP 调用工具链,对常见金融指标进行查询与比对。
如下图:
🛠 使用方法
本工程仅支持逻辑一致性和事实准确性评测,端到端金融数据准确性评测涉及内部金融数据库,暂不支持。
1.安装
本工程需要python版本>=3.6.8,下载本工程:
安装依赖:
2.准备评测集
使用用本文的评测集或自备评测集提前通过被测模型拉取答案,参照data.xlsx格式准备输入excel文件。 格式如下:
说明:
3.配置评判AI接口
配置config/config.py,填入用来评判的AI接口:
在llm/llm.py里修改请求和响应格式:
4.评测
执行:
5.输出结果
结果会保存在“事实逻辑评测结果-{model}.xlsx”,输出汇总格式示例:
📎 引用
如果您觉得本工程对您的研究有用,欢迎按以下方式进行引用:
🤝 贡献指南
我们欢迎来自学术界、工业界及社区的开发者共同参与项目建设。欢迎通过Star、Fork、Issue、Pull Request 参与数据扩展与评测改进,共同推动项目迭代与完善,促进大模型在AI金融领域的产业落地与学术研究。
共建方向