目录
目录README.md

深入浅出Apache Spark系列课程

一、课程定位

  1. 核心目标
    本课程是Apache Spark 全阶段能力培养体系课,以“内核架构为根基、SQL 全链路优化为主线、实操落地为目标”,覆盖从基础认知到开源实践的完整学习路径。
  2. 受众人群
    课程打破“理论与实操脱节”的传统问题,适配多岗位需求:
    • 大数据初学者:提供体系化入门框架,打牢技术基础;
    • Spark 开发/运维人员:补全性能优化技术盲区,完善技术体系;
    • 数据分析师:提升 SQL 执行效率,优化分析流程;
    • 集群性能优化工程师:针对性解决业务级算力瓶颈,保障系统稳定性。 最终实现“懂原理、会优化、能落地、可开源”的能力闭环。

二、学习价值

  • 原理通透:吃透 Spark 内核 Driver-Executor 架构逻辑、SQL 从解析到执行的全链路机制,建立“问题-原理-解决方案”的技术映射思维,避免盲目调优。
  • 实操落地:通过案例跟练(如 SQL 解析 AST 生成、窗口函数优化)积累实战经验,可直接应用于生产环境,解决 TB 级数据计算延迟问题(平均性能提升 50%+)。
  • 能力进阶:掌握 5 类核心 SQL 优化思路(谓词下推、算子合并等),具备 Spark 源码解读与简单优化规则设计能力,为技术晋升或架构设计奠定基础。
  • 资源适配:借助 CCF 算力兑换的 Cyber AI 人工智能平台,免费完成 Spark 集群实操(无需自建环境),实现“理论学习-即时实操-效果验证”无缝衔接。

三、前置要求

要求类型 具体内容 说明
必备基础 1. 编程语言:Python/Scala 基础语法(能读懂简单循环、函数代码)
2. 数据库:标准 SQL 操作(掌握 SELECT/JOIN/GROUP BY/窗口函数基础)
支撑后续 SQL 优化代码跟练与 API 调用
可选基础 1. 分布式系统:HDFS 基本概念(如数据块、NameNode 角色)
2. 编译原理:语法树、词法分析基础认知
系列一/三课程会补充基础,无相关知识也可入门

四、内容体系

课程按“基础构建→SQL 核心→全链路优化”分为 7 个系列,形成完整技术闭环:

  1. 系列一:Apache Spark 内核原理(基础层)
    • 核心目标:建立 Spark 分布式计算认知框架
    • 关键内容:Spark 定位/特点/核心概念(RDD/DataFrame)、部署架构(Standalone/YARN/Mesos)
  2. 系列二:Apache Spark SQL 原理(核心层)
    • 核心目标:打通 SQL 与 Spark 内核的衔接逻辑
    • 关键内容:SQL 核心组件(Catalyst 优化器、SparkSession、Catalog)、DataFrame API 实操
  3. 系列三:Spark SQL 解析层优化(优化入口)
    • 核心目标:掌握 SQL 语法→AST 抽象语法树的转化优化
    • 关键内容:ANTLR4 词法/语法分析原理、ParseTreeVisitor 接口扩展实现、SQL 解析跟练
  4. 系列四:Spark SQL 分析层优化(逻辑计划)
    • 核心目标:优化逻辑计划树遍历效率
    • 关键内容:“树裁剪”技术(Stop earlier without traversing the entire tree)、高并发 SQL 优化案例
  5. 系列五:Spark SQL 表达式优化(计算单元)
    • 核心目标:提升 SQL 表达式计算效率
    • 关键内容:LIKE ALL/ANY 匹配优化、trim 函数逻辑改进、常量折叠(编译原理应用)
  6. 系列六:Apache Spark SQL 优化器(核心引擎)
    • 核心目标:掌握 Catalyst 优化器核心机制
    • 关键内容:下推优化(谓词/列剪裁/聚合)、算子消除与合并、表达式消除与替换、5 类优化思路实战
  7. 系列七:Spark SQL 执行层优化(实操执行)
    • 核心目标:解决执行层性能瓶颈
    • 关键内容:Offset Window Frame 优化(时序数据窗口计算)、Infer Window Group Limit 优化(减少数据 Shuffle)

五、资源支持

  1. 理论学习资源
    7 个系列配套课程视频,链接如下:

  2. 实操支持资源

    • 平台权限:访问 Apache Spark 官网,下载适合你操作系统的 Spark 版本(另可通过 CCF 算力兑换可额外获取 Cyber AI 平台使用权,免费获取 Apache Spark 集群环境);
    • 特别注意:CyberAI使用有效期为自部署完成日起30天。
关于

《深入浅出Apache Spark》系列课程由数新智能出品,共 7 个系列,覆盖 Spark 从基础原理到进阶优化的全链路内容,兼顾理论深度与实操性。 https://ncnlzbpct1d4.feishu.cn/docx/AewBd62gFoB9SKxb4nvcT6smnqe?from=from_copylink

50.0 KB
邀请码