docs(MAPLE.README): update doi url
English | 简体中文
MAPLE(Methylation-Anchor Probe for Low-signal Enrichment)是一项旨在提高低频、疾病特异性甲基化单倍型检测效率的技术。传统的杂交捕获方法依赖长而无偏的探针,需要极高的测序深度,并且大多数测序读长信息量有限。MAPLE 使用经过理性设计的超灵敏短探针,有选择性地富集这些稀有甲基化单倍型,实现更高的检测灵敏度,同时显著降低测序成本。
MAPLE 包含四个主要模块:
MAPLE 探针设计模块生成高度特异的甲基化靶向探针,用于后续富集和测序。它保证了 序列特异性 和 热力学稳定性。
主要步骤:
MAPLE_sequence_generator.py
MAPLE_probe_thermodynamics.py
MAPLE_parallel_blastn.py
MAPLE_select_best_probe.py
输入:
输出:
该模块处理靶向 NGS 测序数据,以量化探针性能并识别单倍型特异性甲基化模式。
MAPLE_NGS.sh
haplo_fraction.sh
MAPLE_cal_haplo_fraction.py
富集因子模型用于量化 探针富集效率,评估甲基化特异性探针相对于背景噪声捕获目标位点的效果。
主要特点:
Boost-Tree 分类器使用 梯度提升树(LightGBM),根据富集的甲基化单倍型预测癌症或非癌症状态,结合探针富集评分和单倍型模式作为特征。
本项目使用 Python 实现,要求 Python 3.8 或更高版本。您可以通过克隆仓库或下载 ZIP 包来安装项目。
pandas
numpy
BioPython
Bio.SeqUtils.MeltingTemp
Bio.Blast.Applications.NcbiblastnCommandline
primer3
pyfaidx
Bismark
fastp
samtools
MAPLE_stitch
matplotlib
matplotlib.backends.backend_pdf.PdfPages
scipy
optimize
stats.linregress
scikit-learn
metrics.r2_score
metrics
model_selection
lightgbm
bayes_opt
joblib
注意: 建议使用 Python ≥3.8 环境,并通过 pip 或 conda 安装依赖。
pip
conda
MAPLE enables ultra-sensitive detection of low-frequency cfDNA methylation haplotypes using short capture probes with cost-efficient performance. https://doi.org/10.1101/gr.280736.125
本项目采用 GPL-3.0-or-later 许可证 - 详情见 LICENSE 文件。
版权所有:中国计算机学会技术支持:开源发展技术委员会 京ICP备13000930号-9 京公网安备 11010802032778号
MAPLE: Methylation Anchor Probe for Low-signal Enrichment
English | 简体中文
介绍
MAPLE(Methylation-Anchor Probe for Low-signal Enrichment)是一项旨在提高低频、疾病特异性甲基化单倍型检测效率的技术。传统的杂交捕获方法依赖长而无偏的探针,需要极高的测序深度,并且大多数测序读长信息量有限。MAPLE 使用经过理性设计的超灵敏短探针,有选择性地富集这些稀有甲基化单倍型,实现更高的检测灵敏度,同时显著降低测序成本。
项目概览
MAPLE 包含四个主要模块:
1. MAPLE 探针设计
MAPLE 探针设计模块生成高度特异的甲基化靶向探针,用于后续富集和测序。它保证了 序列特异性 和 热力学稳定性。
主要步骤:
MAPLE_sequence_generator.py)构建目标区域所有可能的单倍型序列及其对应 DNA 链。
MAPLE_probe_thermodynamics.py)根据熔解温度、GC 含量和二级结构过滤探针,确保最佳杂交效率。
MAPLE_parallel_blastn.py)对基因组潜在非特异性位点进行检查,以减少非特异性结合。
MAPLE_select_best_probe.py)为每个单倍型选择特异性、覆盖率和热力学效率最优的探针。
输入:
输出:
2. MAPLE TAS 数据处理与单倍型识别
该模块处理靶向 NGS 测序数据,以量化探针性能并识别单倍型特异性甲基化模式。
主要步骤:
MAPLE_NGS.sh)包括序列修剪、参考基因组比对、探针评估和质控。
haplo_fraction.sh)计算每个探针和单倍型捕获片段的数量,以评估富集效率。
MAPLE_cal_haplo_fraction.py)确定每个单倍型的相对丰度,为下游分类和富集因子建模提供输入。
输入:
输出:
3. 富集因子模型(EFM)
富集因子模型用于量化 探针富集效率,评估甲基化特异性探针相对于背景噪声捕获目标位点的效果。
主要特点:
输入:
输出:
4. Boost-Tree 分类器
Boost-Tree 分类器使用 梯度提升树(LightGBM),根据富集的甲基化单倍型预测癌症或非癌症状态,结合探针富集评分和单倍型模式作为特征。
主要特点:
输入:
输出:
安装
本项目使用 Python 实现,要求 Python 3.8 或更高版本。您可以通过克隆仓库或下载 ZIP 包来安装项目。
依赖
MAPLE 探针设计 Python 包与工具
pandas– 数据处理与表格操作numpy– 数值计算BioPython– 序列处理、熔解温度计算、BLASTN 接口Bio.SeqUtils.MeltingTempBio.Blast.Applications.NcbiblastnCommandlineprimer3– 寡核苷酸热力学计算pyfaidx– FASTA 文件快速访问NGS 处理工具
Bismark– 亚硫酸盐测序比对fastp– FASTQ 预处理与质控samtools– BAM/SAM 文件处理与索引MAPLE_stitch– 内部二进制工具,用于拼接双端读段EFM 包与工具
pandas– 数据处理与表格操作numpy– 数值计算matplotlib– 可视化与绘图matplotlib.backends.backend_pdf.PdfPages– 多页 PDF 输出scipy– 优化与统计函数optimize– 曲线拟合stats.linregress– 线性回归scikit-learn– 模型评估工具metrics.r2_score– 计算拟合 R²癌症/非癌症分类器包与工具
pandas– 数据处理与表格操作numpy– 数值计算scikit-learn– 机器学习工具metrics– 性能指标(ROC-AUC、混淆矩阵)model_selection– 训练/测试集划分、交叉验证lightgbm– 梯度提升分类器bayes_opt– 贝叶斯优化超参数joblib– 模型保存与加载引用
MAPLE enables ultra-sensitive detection of low-frequency cfDNA methylation haplotypes using short capture probes with cost-efficient performance. https://doi.org/10.1101/gr.280736.125
许可
本项目采用 GPL-3.0-or-later 许可证 - 详情见 LICENSE 文件。