目录
目录README.md

基于大语言模型的抄袭检测系统

我的图片

该项目基于LLM和FAISS的抄袭检测与分析方法将这两种技术相结合,利用LLM对文本进行深度表示和分类,然后通过FAISS进行相似度搜索和聚类分析,从而实现对抄袭行为的检测和分析。该方法不仅可以识别出明显的抄袭行为,还可以发现隐蔽的抄袭手段,如改写、翻译等。并且利用LLM模型来制作出最后的分析报告。

环境

  • Python 3.7+
  • Qt Creator 11.0.3
  • Faiss
  • Colab
  • Bert

数据集

该实验项目的数据集是我们自行整理的一个数据集 我们挑选了50篇检索增强领域的论文,利用CharGPT根据这50篇论文每篇的摘要生成5篇抄袭论文摘要,总共生成250个抄袭数据样本,同时让这50篇选中的论文互相作为非抄袭样本。

  • 详细数据集在 data.xlsx 中,可自行查阅

项目的整体设计图

我的图片

界面

用 QT Creator 运行文件夹中 softwork.pro 文件即可查看项目的系统交互式界面。 界面利用QT Creator来实现,界面设计效果如下所示: 我的图片

  • 点击载入数据就可以对系统输入数据
  • 选择数据之后就会弹出等待窗口,加载过程如图所示: 我的图片
  • 可以通过下划框来选择要查重的作业,然后选择k值(表示筛选具有抄袭嫌疑的前k份作业)
  • 点击分析报告等待片刻即可输出对应的分析报告,分析报告会从文章结构,写作风格,词频重合率三个方面去分析作业是否存在抄袭的可能,并且做出最后的总结分析。
关于
2.4 MB
邀请码
    Gitlink(确实开源)
  • 加入我们
  • 官网邮箱:gitlink@ccf.org.cn
  • QQ群
  • QQ群
  • 公众号
  • 公众号

©Copyright 2023 CCF 开源发展委员会
Powered by Trustie& IntelliDE 京ICP备13000930号