技能构建规划表 (2026版)
数据分析师技能构建规划表 (2026版)
基于自己的职业思考,经过与gemini-2.5-pro的多轮探讨,形成技能规划,划分为 编程与工程、数学与统计、机器学习与MLOps、生成式AI、战略与沟通 五大类。
自评标准:
- 0 - 陌生 (Stranger): 听说过概念,未实际操作。
- 1 - 新手 (Novice): 理解基本原理,能在指导下完成简单任务。
- 2 - 胜任 (Competent): 独立完成日常工作,理解常见坑点。
- 3 - 精通 (Proficient): 能够优化架构,处理复杂边界情况,指导他人。
- 4 - 专家 (Expert): 深入理解底层原理,具备行业前瞻性视野。
1. 编程与工程 (Programming & Engineering)
核心目标:提升系统鲁棒性、计算效率。
| 二级领域 (Domain) | 三级技能 (Skill) | 关键要点/备注 | 掌握程度 (0-4) | Note |
|---|---|---|---|---|
| Python 数据栈 | 基础科学计算栈 | Numpy,Pandas,Scikit-learn,Matplotlib,向量化运算 | Pandas 🌟🌟,Numpy、Scikit-learn、Matplotlib 🌟 | |
| 软件工程实践 | 类型系统与代码质量 | Type Hinting,Pydantic,静态分析 | ||
| 软件工程实践 | 测试驱动开发 (TDD) | Unit Test,Integration Test,Pytest (fixture/parametrize) | ||
| 软件工程实践 | 设计模式 | 单例、工厂、装饰器、策略模式、解耦思维 | ||
| 软件工程实践 | 并发与性能 | Async/Await,I/O vs CPU密集型,内存管理 (Yield/Generator/GIL) | ||
| 后端与全栈 | 现代Web框架 | FastAPI (依赖注入,Pydantic集成) | 🌟 | |
| 后端与全栈 | 数据应用开发 | Streamlit,Chainlit | ||
| 后端与全栈 | 容器化与编排 | Docker (Dockerfile),Docker Compose | ||
| 数据工程 (DE) | 数据库设计 | Schema Design,范式与反范式,业务关系模型 vs 分析数仓模型 | ||
| 数据工程 (DE) | SQL | SQL基础,Join,Window Functions,CTE,Recursive Queries,Query Optimization | 🌟🌟 | |
| 数据工程 (DE) | 现代 SQL 开发 | dbt (Data Build Tool),Jinja for SQL,SQL Unit Testing,ORM | ||
| 数据工程 (DE) | 数据管道 | ETL 原理,Data Pipeline 设计 | 🌟🌟 |
2. 数学与统计 (Mathematics & Statistics)
核心目标:掌握因果推断与高阶实验设计。
| 二级领域 (Domain) | 三级技能 (Skill) | 关键要点/备注 | 掌握程度 (0-4) | Note |
|---|---|---|---|---|
| 统计推断 | 基础统计 | 描述性统计,概率分布 | 🌟🌟 | |
| 统计推断 | 假设检验 | A/B测试基础,统计显著性,混杂因素识别 | ||
| 统计推断 | 贝叶斯思维 | 先验概率更新,贝叶斯统计基础 | ||
| 因果推断 | 理论框架 | 潜在结果框架 (Potential Outcomes),处理效应 (ATE/ITE) | ||
| 因果推断 | 因果图 (Graphical Models) | DAGs,混杂因子,中介变量,对撞因子,辛普森悖论 | ||
| 因果推断 | 准实验设计方法 | 双重差分 (DID),倾向值匹配 (PSM),工具变量 (IV),断点回归 (RDD) | ||
| 实验设计 | 高级 A/B 测试 | 网络效应实验,长期影响评估,正交实验设计 | ||
| 实验设计 | 实验分析与诊断 | 样本量估算,功效分析 (Power Analysis),SRM (Sample Ratio Mismatch) 诊断 | ||
| 数学基础 | 基础数学工具 | 线性代数,微积分 (理解核心概念即可) | 🌟 |
3. 机器学习与 MLOps (Machine Learning & MLOps)
核心目标:理解原理,具备模型全生命周期管理能力,而非单纯的“调参”。
| 二级领域 (Domain) | 三级技能 (Skill) | 关键要点/备注 | 掌握程度 (0-4) | Note |
|---|---|---|---|---|
| 经典算法 | 集成学习 | Gradient Boosting 原理 (XGBoost/LightGBM/CatBoost) | 🌟 | |
| 经典算法 | 基础学习范式 | 监督学习 (回归/分类),无监督学习 (聚类) | 🌟 | |
| 模型工程 | 模型评估与权衡 | 交叉验证,ROC-AUC,偏差-方差权衡 | 🌟 | |
| 模型工程 | 可解释性 | SHAP,Feature Importance | 🌟 | |
| MLOps | 模型部署 | 模型容器化,REST API 封装,稳健性设计 | ||
| MLOps | 流程与监控 | CI/CD for ML,实验跟踪 (MLflow),模型监控与可观测性 | ||
| MLOps | 云平台与工具 | Kubernetes (概念),Google Vertex AI (或其他云平台) |
4. 生成式人工智能 (Generative AI)
核心目标:利用GenAI杠铃策略,提升生产力并探索新范式。
| 二级领域 (Domain) | 三级技能 (Skill) | 关键要点/备注 | 掌握程度 (0-4) | Note |
|---|---|---|---|---|
| Prompt Engineering | 结构化提示 | CoT (思维链),输出标准化 (JSON/Markdown) | 🌟 | |
| Prompt Engineering | Agent 开发 | Agent Workflow 设计,规划与反思模式 | 🌟 | |
| LLM 应用架构 | RAG | 检索增强生成原理,向量数据库基础 | 🌟 | |
| LLM 应用架构 | 工具调用 | Function Calling,Tool Use | 🌟 | |
| LLM 核心原理 | 模型微调与对齐 | Transformer 架构直觉,Fine-tuning,Alignment 概念 | ||
| 开发生态 | 开发框架 | LangChain,LangGraph | ||
| 业务应用 | 赋能现有流程 | 优化数据管道,自动化分析报告生成 |
5. 战略、思维与沟通 (Strategy,Thinking & Communication)
核心目标:构建主权个人的核心竞争力,连接技术与商业价值。
| 二级领域 (Domain) | 三级技能 (Skill) | 关键要点/备注 | 掌握程度 (0-4) | Note |
|---|---|---|---|---|
| 商业建模 | 战略思考 | 问题定义,业务痛点数学化,第一性原理 | 🌟 | |
| 商业建模 | 商业逻辑与指标 | 单位经济模型 (LTV/CAC),边际贡献,费米估算,北极星指标拆解 | 🌟 | |
| 本体论与系统 | 领域建模 | 实体-关系-行动 (ERA) 建模,图思维 (Graph Thinking) | ||
| 本体论与系统 | 闭环设计 | 闭环行动设计,对象的计算属性,语义层/行动层设计 | ||
| 沟通与影响力 | 数据叙事 | 金字塔原理,信噪比最大化 | 🌟 | |
| 沟通与影响力 | 可视化 | 可视化心理学,视觉编码 | 🌟 | |
| 沟通与影响力 | 软技能 | 个人品牌建设,商业敏锐度 |
应用
参考
- Google gemini-2.5-pro多轮问答;
附件
版本记录
2025-11-30,初稿;