update models
ComBERT(Compliance BERT)是专注于数据合规领域的预训练模型,微调后可用于实现隐私信息抽取(NER)、法律法规要点检测(分类)、领域问答(QA)等功能。本项目主要包含了ComBERT-330M(24-layer, 1024-hidden, 16-heads)的预训练模型文件、相关下游任务的评测数据集(基于手动收集的应用市场app的隐私协议构建)及相应评测结果。
本项目设置了三个下游任务(实体抽取,文本分类和阅读理解)对ComBERT进行全面评价,分别对应下列三个数据集:隐私信息抽取数据集、法律法规要点检测数据集和问答数据集(本次开源各部分的评测集,数据集已进行脱敏处理)。
该数据集用于检测ComBERT从协议文本中抽取声明的隐私信息的能力,开源的测试集样本约为8800句。标注采用NER任务通用的BIOE的标注体系,标注的内容为文本声明采集的隐私数据类型,标签的索引对应关系为{O:0,B:1,I:3,E:2}, 标注样例如下:
该数据集用于检测ComBERT对法律法规规定要点的检测能力,本数据集共包含以下10个法律法规要点,数据规模同隐私信息抽取数据集:
对每个句子进行0/1标注,标注形式样例如下:
注意:本数据集的标签是基于2019年颁布的app违法违规收集使用个人信息自评估指南进行解析标注的,标签会在后续项目维护中更新。
该数据集用于衡量ComBERT的阅读理解能力,与抽取式机器阅读理解 (MRC) 的数据形式一致,给定一段协议文本和一个查询(query)的组合,模型需要从协议文本中找出合适的答案。这个数据集包含约2300条协议文本,以及对应的查询。该数据集的特点是答案只在协议文本中出现一次,且只占据一个连续的文本片段。样例如下:
ComBERT是在chinese-roberta-wwm-ext-large模型的基础上,利用数万篇相关领域内语料进行further pretrain,预训练过程中仅使用Masked Language Model(MLM)任务,并使用whole word masking(wwm)的形式。 模型结构: 24-layer, 1024-hidden, 16-heads, 330M parameters
本项目提供的模型为pytorch版本。
本次开源的pretrain模型(ComBERT)可以通过huggingface的transformers快速加载(需提前下载模型文件到本地路径),具体方式类似bert-base。
from transformers import BertModel, BertTokenizer tokenizer = BertTokenizer.from_pretrained("model_dir") model = BertModel.from_pretrained("model_dir")
下面将bert_base模型、roberta-wwm-ext-large模型和ComBERT在ner任务上finetune的效果进行实验,指标为precision(P), recall(R), F1-score(F1)(单位:%),实验结果如下表。
下表是三种模型在完备性检测任务的效果,指标为各类的precision(P), recall(R), F1-score(F1)的均值(单位:%)。
以下为ComBERT与其他已开源阅读理解模型在本领域问答数据集的评测结果对比,指标为最长公共序列的precision(P),recall(R)和F1-score(F1)、EM和re-85(单位:%)
本项目中开源的模型遵循Apache-2.0 License, 数据集遵循cc-by-nc-sa-4.0 License。
对于使用ComBERT的帮助或问题,请提交GitHub Issues。
版权所有:中国计算机学会技术支持:开源发展技术委员会 京ICP备13000930号-9 京公网安备 11010802032778号
导航
简介
ComBERT(Compliance BERT)是专注于数据合规领域的预训练模型,微调后可用于实现隐私信息抽取(NER)、法律法规要点检测(分类)、领域问答(QA)等功能。本项目主要包含了ComBERT-330M(24-layer, 1024-hidden, 16-heads)的预训练模型文件、相关下游任务的评测数据集(基于手动收集的应用市场app的隐私协议构建)及相应评测结果。
数据集介绍
本项目设置了三个下游任务(实体抽取,文本分类和阅读理解)对ComBERT进行全面评价,分别对应下列三个数据集:隐私信息抽取数据集、法律法规要点检测数据集和问答数据集(本次开源各部分的评测集,数据集已进行脱敏处理)。
隐私信息抽取数据集
该数据集用于检测ComBERT从协议文本中抽取声明的隐私信息的能力,开源的测试集样本约为8800句。标注采用NER任务通用的BIOE的标注体系,标注的内容为文本声明采集的隐私数据类型,标签的索引对应关系为{O:0,B:1,I:3,E:2}, 标注样例如下:
法律法规要点检测数据集
该数据集用于检测ComBERT对法律法规规定要点的检测能力,本数据集共包含以下10个法律法规要点,数据规模同隐私信息抽取数据集:
对每个句子进行0/1标注,标注形式样例如下:
注意:本数据集的标签是基于2019年颁布的app违法违规收集使用个人信息自评估指南进行解析标注的,标签会在后续项目维护中更新。
领域问答数据集
该数据集用于衡量ComBERT的阅读理解能力,与抽取式机器阅读理解 (MRC) 的数据形式一致,给定一段协议文本和一个查询(query)的组合,模型需要从协议文本中找出合适的答案。这个数据集包含约2300条协议文本,以及对应的查询。该数据集的特点是答案只在协议文本中出现一次,且只占据一个连续的文本片段。样例如下:
模型介绍
预训练模型
ComBERT是在chinese-roberta-wwm-ext-large模型的基础上,利用数万篇相关领域内语料进行further pretrain,预训练过程中仅使用Masked Language Model(MLM)任务,并使用whole word masking(wwm)的形式。 模型结构: 24-layer, 1024-hidden, 16-heads, 330M parameters
快速开始
模型下载
本项目提供的模型为pytorch版本。
pretrain模型加载
本次开源的pretrain模型(ComBERT)可以通过huggingface的transformers快速加载(需提前下载模型文件到本地路径),具体方式类似bert-base。
Metrics
隐私信息抽取:
完备性检测:
领域问答:
Benchmark
隐私信息抽取
下面将bert_base模型、roberta-wwm-ext-large模型和ComBERT在ner任务上finetune的效果进行实验,指标为precision(P), recall(R), F1-score(F1)(单位:%),实验结果如下表。
法律法规要点检测
下表是三种模型在完备性检测任务的效果,指标为各类的precision(P), recall(R), F1-score(F1)的均值(单位:%)。
阅读理解
以下为ComBERT与其他已开源阅读理解模型在本领域问答数据集的评测结果对比,指标为最长公共序列的precision(P),recall(R)和F1-score(F1)、EM和re-85(单位:%)
License
本项目中开源的模型遵循Apache-2.0 License, 数据集遵循cc-by-nc-sa-4.0 License。
联系我们
对于使用ComBERT的帮助或问题,请提交GitHub Issues。