@misc{zhinao-chinesemodernbert,
title={Zhinao-ChineseModernBert: Chinese Foundation & Vector Embedding Model for High-Throughput, Low-Memory Scenarios},
author={zhinao team},
year={2026},
howpublished={\url{https://github.com/your-repo/zhinao-chinesemodernbert}},
}
Zhinao-ChineseModernBert: 面向高吞吐低内存场景的中文基座与向量嵌入模型
中文 | English
项目简介
Zhinao-ChineseModernBert系列是针对高推理速度要求、严苛内存限制的工业级场景,从头预训练的中文Base级基座模型与语义嵌入模型。本系列基于ModernBert高效架构与Qwen2Tokenizer分词器,依托超大规模中英文语料完成全流程预训练,在保持Base级参数量(除Embedding外约100M参数)轻量化优势的同时,实现了对同量级模型的全面超越,甚至性能优于更大参数量的主流模型,为中文NLP理解任务、语义检索、向量数据库、RAG检索增强等场景提供高性价比的开箱即用解决方案。
本项目包含两个核心模型:
核心亮点
1. 高效架构+先进分词体系,兼顾速度与泛化性
2. 超大规模语料预训练,覆盖全场景中文语义
基于1T Tokens高质量中英文语料完成预训练,以中文语料为核心(占比超65%),辅以英文语料,全面通用互联网、科技、金融、医疗、法律、教育、代码等多领域场景,模型语义理解能力与跨域泛化性远超同量级模型。
3. 同量级领先性能,极致性价比
模型详情
训练方案
一、Zhinao-ChineseModernBert 通用基座预训练
二、Zhinao-ChineseModernBert-Embedding 语义嵌入模型两阶段训练
本模型在Zhinao-ChineseModernBert通用基座的基础上,针对语义表征场景完成两阶段Embedding训练,实现从通用语义理解到精准向量表征的能力跃迁:
性能评测
1. CLUE 中文语言理解基准测评
Zhinao-ChineseModernBert在CLUE基准榜单上,实现了以Base级参数量(除Embedding外约100M参数)综合性能超越RoBERTa-wwm-large等大参数量模型,为资源有限的业务场景提供更多可选项。
2. CMTEB 中文海量文本嵌入基准测评
Zhinao-ChineseModernBert-Embedding在CMTEB基准榜单上,登顶Base级参数量(除Embedding外约100M参数)模型最优排名,综合性能超越Qwen3-Embedding-0.6B等主流大参数量嵌入模型。
快速开始
环境依赖
推荐使用Python 3.10+,核心依赖如下:
模型下载
我们已将模型权重开源至主流模型平台,可通过以下地址获取: | 模型 | Hugging Face 地址 | |:——:|:——————-:| | Zhinao-ChineseModernBert | 🤗 | | Zhinao-ChineseModernBert-Embedding | 🤗 |
使用示例
1. Zhinao-ChineseModernBert 通用基座使用示例
基座支持Hugging Face Transformers直接加载,需微调后方可用于下游任务。详见clue_evaluator.py
2. Zhinao-ChineseModernBert-Embedding 语义嵌入模型使用示例
语义相似度计算示例
模型局限性与使用说明
许可证
本项目模型权重与代码基于 Apache 2.0 许可证 开源,可免费用于学术研究与商业用途,详细条款请查看LICENSE文件。
引用
如果本项目对您的研究或工作有帮助,请引用我们的项目:
致谢