目录
目录README.md

fun-transformer

本课程涵盖了Transformer的核心组成部分,包含Transformer编码器和解码器的实现。 课程结合代码解读知识点,同时通过形象生动的例子,为学习者理解Transformer模型提供参考和借鉴。 实践项目无需依赖任何深度学习框架,完全从零开始,使用基础的Numpy等科学计算库实现Transformer,旨在深化学习者对模型本质的理解与掌握。 最后,使用Transformer模型实现在机器翻译任务中的应用,加深对模型的理解

课程大纲

章节 内容 代码实现
第一章 引言introduction 词嵌入低维映射到高维
第二章 Transformer简述Transformer 相对位置向量 , WordVec
第三章 Encoder结构Encoder 交叉注意力Cross-Attention
第四章 Decoder结构Decoder bertapply-bert、gptapply-gpt
第五章 项目实践 机器翻译项目案例、Transformer结构拆解、使用 NumPy 和 SciPy 实现通用注意力机制

目录

第一章 引言introduction

    1. 序列到序列(Seq2Seq)模型概述
    1. Encoder-Decoder模型概述
    1. Attention 的提出与影响

第二章 Transformer简述Transformer

    1. Attention 机制
    1. Transformer概述
    1. Transformer vs CNN vs RNN
    1. 输入嵌入(Input Embedding)
    1. Multi-Head Attention vs Multi-Head Self-Attention
    1. 词向量生成过程

第三章 Encoder结构Encoder

    1. 编码器(Encoder)
    1. 多头自注意力(Multi-Head Self-Attention)
    1. 交叉自注意力(Cross Attention)
    1. Cross Attention 和 Self Attention 主要的区别

第四章 Decoder结构Decoder

    1. 解码器(Decoder)
    1. 掩码(Mask)
    1. 模型的训练与评估
    1. 高级主题和应用
    1. Tokenization

第五章 Project

如果你对 Datawhale 很感兴趣并想要发起一个新的项目,欢迎查看 Datawhale 贡献指南

贡献者名单

姓名 职责 简介
罗清泉 项目负责人
刘腾藤 核心贡献者

关注我们

扫描下方二维码关注公众号:Datawhale

LICENSE

知识共享许可协议
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。

注:默认使用CC 4.0协议,也可根据自身项目情况选用其他协议

关于

通过带领大家解读Transformer模型来加深对模型的理解

18.0 MB
邀请码
    Gitlink(确实开源)
  • 加入我们
  • 官网邮箱:gitlink@ccf.org.cn
  • QQ群
  • QQ群
  • 公众号
  • 公众号

©Copyright 2023 CCF 开源发展委员会
Powered by Trustie& IntelliDE 京ICP备13000930号