数据分析师技能构建规划表 (2026版)

基于自己的职业思考,经过与gemini-2.5-pro的多轮探讨,形成技能规划,划分为 编程与工程数学与统计机器学习与MLOps生成式AI战略与沟通 五大类。

自评标准:

  • 0 - 陌生 (Stranger): 听说过概念,未实际操作。
  • 1 - 新手 (Novice): 理解基本原理,能在指导下完成简单任务。
  • 2 - 胜任 (Competent): 独立完成日常工作,理解常见坑点。
  • 3 - 精通 (Proficient): 能够优化架构,处理复杂边界情况,指导他人。
  • 4 - 专家 (Expert): 深入理解底层原理,具备行业前瞻性视野。

1. 编程与工程 (Programming & Engineering)

核心目标:提升系统鲁棒性、计算效率。

二级领域 (Domain) 三级技能 (Skill) 关键要点/备注 掌握程度 (0-4) Note
Python 数据栈 基础科学计算栈 Numpy,Pandas,Scikit-learn,Matplotlib,向量化运算 Pandas 🌟🌟,Numpy、Scikit-learn、Matplotlib 🌟  
软件工程实践 类型系统与代码质量 Type Hinting,Pydantic,静态分析    
软件工程实践 测试驱动开发 (TDD) Unit Test,Integration Test,Pytest (fixture/parametrize)    
软件工程实践 设计模式 单例、工厂、装饰器、策略模式、解耦思维    
软件工程实践 并发与性能 Async/Await,I/O vs CPU密集型,内存管理 (Yield/Generator/GIL)    
后端与全栈 现代Web框架 FastAPI (依赖注入,Pydantic集成) 🌟  
后端与全栈 数据应用开发 Streamlit,Chainlit    
后端与全栈 容器化与编排 Docker (Dockerfile),Docker Compose    
数据工程 (DE) 数据库设计 Schema Design,范式与反范式,业务关系模型 vs 分析数仓模型    
数据工程 (DE) SQL SQL基础,Join,Window Functions,CTE,Recursive Queries,Query Optimization 🌟🌟  
数据工程 (DE) 现代 SQL 开发 dbt (Data Build Tool),Jinja for SQL,SQL Unit Testing,ORM    
数据工程 (DE) 数据管道 ETL 原理,Data Pipeline 设计 🌟🌟  

2. 数学与统计 (Mathematics & Statistics)

核心目标:掌握因果推断与高阶实验设计。

二级领域 (Domain) 三级技能 (Skill) 关键要点/备注 掌握程度 (0-4) Note
统计推断 基础统计 描述性统计,概率分布 🌟🌟  
统计推断 假设检验 A/B测试基础,统计显著性,混杂因素识别    
统计推断 贝叶斯思维 先验概率更新,贝叶斯统计基础    
因果推断 理论框架 潜在结果框架 (Potential Outcomes),处理效应 (ATE/ITE)    
因果推断 因果图 (Graphical Models) DAGs,混杂因子,中介变量,对撞因子,辛普森悖论    
因果推断 准实验设计方法 双重差分 (DID),倾向值匹配 (PSM),工具变量 (IV),断点回归 (RDD)    
实验设计 高级 A/B 测试 网络效应实验,长期影响评估,正交实验设计    
实验设计 实验分析与诊断 样本量估算,功效分析 (Power Analysis),SRM (Sample Ratio Mismatch) 诊断    
数学基础 基础数学工具 线性代数,微积分 (理解核心概念即可) 🌟  

3. 机器学习与 MLOps (Machine Learning & MLOps)

核心目标:理解原理,具备模型全生命周期管理能力,而非单纯的“调参”。

二级领域 (Domain) 三级技能 (Skill) 关键要点/备注 掌握程度 (0-4) Note
经典算法 集成学习 Gradient Boosting 原理 (XGBoost/LightGBM/CatBoost) 🌟  
经典算法 基础学习范式 监督学习 (回归/分类),无监督学习 (聚类) 🌟  
模型工程 模型评估与权衡 交叉验证,ROC-AUC,偏差-方差权衡 🌟  
模型工程 可解释性 SHAP,Feature Importance 🌟  
MLOps 模型部署 模型容器化,REST API 封装,稳健性设计    
MLOps 流程与监控 CI/CD for ML,实验跟踪 (MLflow),模型监控与可观测性    
MLOps 云平台与工具 Kubernetes (概念),Google Vertex AI (或其他云平台)    

4. 生成式人工智能 (Generative AI)

核心目标:利用GenAI杠铃策略,提升生产力并探索新范式。

二级领域 (Domain) 三级技能 (Skill) 关键要点/备注 掌握程度 (0-4) Note
Prompt Engineering 结构化提示 CoT (思维链),输出标准化 (JSON/Markdown) 🌟  
Prompt Engineering Agent 开发 Agent Workflow 设计,规划与反思模式 🌟  
LLM 应用架构 RAG 检索增强生成原理,向量数据库基础 🌟  
LLM 应用架构 工具调用 Function Calling,Tool Use 🌟  
LLM 核心原理 模型微调与对齐 Transformer 架构直觉,Fine-tuning,Alignment 概念    
开发生态 开发框架 LangChain,LangGraph    
业务应用 赋能现有流程 优化数据管道,自动化分析报告生成    

5. 战略、思维与沟通 (Strategy,Thinking & Communication)

核心目标:构建主权个人的核心竞争力,连接技术与商业价值。

二级领域 (Domain) 三级技能 (Skill) 关键要点/备注 掌握程度 (0-4) Note
商业建模 战略思考 问题定义,业务痛点数学化,第一性原理 🌟  
商业建模 商业逻辑与指标 单位经济模型 (LTV/CAC),边际贡献,费米估算,北极星指标拆解 🌟  
本体论与系统 领域建模 实体-关系-行动 (ERA) 建模,图思维 (Graph Thinking)    
本体论与系统 闭环设计 闭环行动设计,对象的计算属性,语义层/行动层设计    
沟通与影响力 数据叙事 金字塔原理,信噪比最大化 🌟  
沟通与影响力 可视化 可视化心理学,视觉编码 🌟  
沟通与影响力 软技能 个人品牌建设,商业敏锐度    

应用

参考

  1. Google gemini-2.5-pro多轮问答;

附件

版本记录

2025-11-30,初稿;