适合零基础到初学者的实战型路线

Bioinformatics Starter Guide 生信入门实战指南

从零到一的六步进阶法

基于真实学习路径整理的一套系统化方法：先建立认知地图，再用工具跑通流程，最后补上代码与统计学基础。目标不是“知道很多名词”，而是能独立完成一套清晰、可靠、可解释的分析结果。

先看项目清单查看数据库地图

工具先行，代码后置
三级项目递进
从 Figure 到生物学故事

Learning Poster 先看终点，再补方法；
先复现，再创新。

把路线、产出和节奏一次说清，避免一上来就陷入代码细节。

6 主学习步骤

3 实战项目等级

8 关键章节模块

先建立认知地图

先搞清差异分析、富集分析、TCGA、免疫浸润到底是什么。

先用工具跑通流程

先看到标准输出长什么样，再去学代码为什么要这么写。

用三级项目递进

从 GEO 小数据集开始，逐步过渡到 TCGA 和单细胞分析。

补 R 语言与统计基础

带着问题学，更快理解包、函数和结果判读逻辑。

适合谁

刚入门、想少走弯路的人

不要求你先会 R，也不要求你先懂统计，只要求你愿意按步骤跑通一套完整案例。

核心节奏

先全局，再细节；先成品，再原理

先知道结果该长什么样，再去理解为什么这样做，学习效率会高很多。

最终产出

能独立讲清一套分析故事

不仅能跑代码，还能解释候选基因、通路、免疫浸润和预后之间的关系。

Chapter 01 / 概览

建立认知地图

在真正开始敲代码之前，先把生信分析里的“黑话”看懂。这个阶段最重要的不是记住每个参数，而是知道整个流程大概会经过哪些环节。

差异分析

寻找疾病与正常样本之间基因表达的显著差异，筛出值得继续追踪的候选基因。

TCGA

癌症基因组图谱数据库，样本量大、临床信息丰富，是癌症方向最常见的数据起点之一。

富集分析

把一组差异基因放回生物学背景中，看看它们共同关联的通路、功能和细胞过程。

免疫浸润

分析肿瘤微环境中不同免疫细胞的比例和构成，理解基因表达与免疫状态之间的关系。

数据预处理

包括质控、归一化、批次效应检查等，是避免“代码跑通但结果错误”的第一道防线。

可视化

火山图、热图、生存曲线、UMAP 这些图不是装饰，而是你解释结果逻辑的核心语言。

学习目标：先消除陌生感，再建立全局感。就像学武功先看整套招式长什么样，而不是一开始就纠结每根手指怎么发力。很多人上来就啃代码，最后只会感觉处处都难。

Starter Kit

数据资源地图

知道去哪里“挖矿”，决定了你能不能快速起步。公共数据库并不是越多越好，而是要知道每个库分别适合做什么。

数据库	类型	特点	适用场景
TCGA	肿瘤多组学	样本量大，配套临床信息齐全	癌症研究、生存分析、候选基因故事构建
GEO	综合性数据库	数据类型最丰富，适合练手与快速验证	小规模项目起步、方法学习、交叉验证
GTEx	正常组织数据库	正常组织对照的金标准	癌症 vs 正常对照、组织表达背景分析
ArrayExpress	综合性数据库	欧洲数据库，能补 GEO 不足	GEO 检索不到时的补充方案

Specialty

新兴数据库方向

如果你准备继续深入，可以按研究方向去补充专题数据库，而不是一股脑全学。

单细胞专项

Human Cell Atlas / Tabula Sapiens

适合做细胞类型注释、正常组织参考和单细胞表达背景比对。

查看官网

空间转录组

10x Visium 数据与 SpatialDB

适合做空间表达模式、组织区域分型和空间差异分析。

查看官网

蛋白组

CPTAC

和 TCGA 一起使用时价值很高，适合做转录组与蛋白组交叉验证。

查看官网

表观遗传

ENCODE / Roadmap Epigenomics

适合做染色质开放性、表观修饰和调控元件背景支持。

查看官网

代谢组

HMDB / MetaboLights

适合往代谢通路与代谢物注释方向扩展分析故事。

查看官网

微生物组

肠道菌群与人类微生物组数据库

适合拓展疾病与菌群组成、代谢和宿主相互作用的研究。

查看官网

使用原则：先用 GEO 小数据集练手，再上 TCGA 做大故事。GTEx 的价值在于它提供了高质量正常对照；没有正常对照的癌症分析，就像缺了阴性对照的实验。

Chapter 03 / 方法论

关键转折点：工具先行，代码后置

这是最反直觉但也最有效的一步。先用工具理解一套分析是怎样从数据变成 Figure，再去学代码为什么这么写，你会明显更快进入状态。

仙桃学术平台截图 — **工具平台入口示意** 像这样的可视化平台很适合先看清“功能模块”和“标准输出”，再回头理解代码。

操作路径

获取可用的平台或案例资源，选定一个疾病方向或基因，然后按一套完整教程复现分析流程。

量化目标

至少完整复刻 2-3 个基因或课题案例，做到“看懂每一步在解决什么问题”。

预期效果

你会得到一次明显的“顿悟时刻”——突然理解生信分析到底在围绕什么展开。

全局视角

先理解数据怎样一步步变成 Figure 1/2/3，而不是被零散命令牵着走。

问题意识

在复现过程中自然会冒出“为什么要归一化”“为什么先做 PCA”这类关键问题。

验证标准

你会先知道“正确结果长什么样”，以后遇到异常结果更容易判断哪里出了问题。

重要提示：不要泛泛地跑示例数据，一定要带着一个选题去复现。比如选定一个基因，从数据下载、差异分析、生存分析、免疫浸润一路跑到可视化。跑通 2-3 遍之后，很多此前抽象的概念会突然变得非常具体。

Chapter 03.5 / 实战

三级实战项目清单

最有效的学习方式不是“再看一遍教程”，而是做完一套、再做一套。项目难度要递进，每一级都要有明确产出。

入门级

预计 1 周

GEO 小数据集

数据集 GEO 小数据集（如 GSEXXXXX，n < 30）

目标跑通差异分析、可视化和富集分析的完整流程

数据下载与预处理
差异分析，找到 DEGs
火山图与热图可视化
GO / KEGG 富集分析

预期产出：一套完整的 Figure 1，至少包括 4-6 张子图。

进阶级

预计 2 周

TCGA 癌种项目

数据集 TCGA 某癌种（例如 LUAD）

目标从差异基因进一步走向预后、免疫和验证分析

差异分析与候选基因筛选
生存分析：KM 曲线与 Cox 回归
免疫浸润：CIBERSORT / xCell
候选基因验证与相关性分析

预期产出：Figure 1 + Figure 2，已经能够讲出一条相对完整的生物学故事线。

挑战级

预计 3 周

单细胞数据集

数据集单细胞数据（例如 10x dataset）

目标熟悉单细胞分析的标准链路与图形输出

质控、过滤和基本预处理
降维：PCA 到 UMAP / t-SNE
聚类与细胞类型注释
标记基因鉴定与可视化

预期产出：标准单细胞 Figure，包括 UMAP、热图以及关键 cluster 标记。

学习原则：把简单的做熟练，比把复杂的做半吊子更有价值。每完成一个项目，就尝试写一段 Methods。如果你写不出来，说明你还没有真正理解这套分析。

Chapter 04 / 代码基础

R 语言基础攻坚

到这一步，你已经知道“要做什么”，接下来才开始补“怎么做”。带着具体问题学 R，效率远高于纯语法式学习。

1. 核心内容

基础语法、数据框操作、向量和列表，以及 ggplot2 的基本绘图思路。

2. 效率工具

把 AI 当成解释器和陪练，而不是代写工具：用来解释报错、拆解代码和举例练习。

3. 学习目标

先做到“有印象、能查到、会改”，暂时不要追求一次学到精通。

4. 学习路径

先看教程理解概念，再亲手写代码，最后回到真实分析问题里应用。

5. 推荐资源

R for Data Science、R 语言实战以及具体分析包的官方文档。

6. 记住结论

遇到报错先看提示，再查文档和社区。会定位问题，比会背语法更重要。

环境配置清单

R (>= 4.2.0)
RStudio Desktop
tidyverse
DESeq2
limma
clusterProfiler
Seurat（单细胞方向）
scRNA-seq 相关扩展包

AI 使用建议：这一步的 AI 最适合做“超级助教”。例如你在案例里看到一个好看的箱线图，现在就可以问：“用 ggplot2 画分组箱线图并做统计检验”。前提是你已经知道自己想问什么、想得到什么。

Chapter 05 / 技术选型

为什么推荐先学 R 语言

不是说 Python 不重要，而是对于大多数常规生信分析任务，R 的生态、成熟度和图形能力更适合作为起点。

维度	R 语言	Python
生信生态	Bioconductor 积累深，包成熟且经过长期验证	新兴工具多，但传统生信专用包分布更零散
学习曲线	统计分析思路与代码表达更贴近	需要更多通用编程基础与工程化思维
可视化	ggplot2 高度成熟，图形表达非常稳定	matplotlib / seaborn 灵活，但常需要更多调参
适用场景	转录组、基因组、单细胞标准流程	机器学习、深度学习、多组学整合与工程化

R 工作环境截图 — **R 工作环境示意** 更贴近常规生信工作流，脚本、对象和图形输出能更快连成一条线。

Python 学习环境截图 — **Python 学习环境示意** 更适合往通用编程、工程化和后续扩展方向继续推进。

结论：如果你当前的目标是差异分析、GSEA、免疫浸润、生存分析这些标准任务，先把 R 语言这条主线走熟，再扩展 Python，会更稳也更高效。

Chapter 06 / 风险控制

避坑指南

生信分析最危险的地方在于：代码能跑通，并不等于结论可信。统计学、数据质量和验证意识，决定了你最终能不能做出靠谱结果。

陷阱	后果	避坑建议
批次效应未校正	假阳性和假阴性一起泛滥	数据合并前必须先做 PCA / 聚类检查
混淆 p-value 与 FDR	把大量假阳性当作真实结果	差异分析优先看 adjusted p-value
样本量过小	检验结果不稳定，无法支撑故事	n < 3 不做差异分析，n < 10 谨慎解读
数据泄露	模型和生存分析指标虚高	特征选择不能在划分训练 / 测试之前做

AI Boundary

AI 辅助的边界

AI 很强，但它最容易放大初学者对“结果可靠性”的误判。你不理解标准流程时，AI 给你的加速，很可能是在加速犯错。

信任危机

AI 写的代码可能看起来很完整，但小白往往无法判断统计学逻辑是否正确。

学术诚信风险

如果方法和参数都不理解，直接跑 AI 生成流程，很容易写出结论漂亮但站不住的文章。

能力陷阱

绕过基础去“复制结果”，一旦报错或结果异常，基本无从修正，也无法解释给别人听。

确认偏误

AI 会很配合地帮你圆故事，如果你没有验证意识，很容易只看见自己想看见的结果。

Correct Use

正确姿势

把 AI 放在正确的位置，它会非常强；放在错误的位置，它只会让你更快偏离正轨。

先掌握基础

先知道什么是标准流程，什么样的结果才算合理。

再用 AI 提效

让 AI 负责解释、提速、生成模板，而不是替你做关键判断。

始终验证

关键结果必须与文献、数据库或独立队列互相印证。

核心原则：只有当你已经看懂标准流程时，AI 才是加速器；如果你还没形成判断标准，它就会成为一个非常擅长“把错误说得像对的”工具。

Chapter 07 / 解读能力

从分析到故事：结果解读能力

分析不是终点。审稿人真正关心的，是你通过这些分析说明了什么生物学问题、提出了什么可解释的发现。

差异基因 → 候选基因筛选

先设定基本筛选标准，如 log2FC 与 FDR，再结合癌基因 / 抑癌基因背景做优先级排序。

富集分析 → 生物学功能关联

从 GO 和 KEGG 里判断这组基因更像在推动炎症、代谢、细胞周期还是免疫逃逸。

诊断模型 → 疾病识别能力

如果做 ROC，就要能解释 AUC 的意义、敏感性和特异性的平衡，而不只是“这个值高”。

预后分析 → 生存与风险

先看高低表达组是否分层，再判断它是不是独立预后因子，避免过度解读相关性。

免疫浸润 → 肿瘤微环境

观察免疫细胞比例变化和候选基因的相关性，判断是否具备免疫治疗或微环境解释价值。

整合 → 讲出完整故事

最后把表达、通路、免疫和预后串成一句话：这个基因在这个疾病中可能通过什么路径影响了什么结果。

Chapter 08 / 进阶方向

前沿趋势与进阶路径

入门之后真正的问题不是“再多学一点”，而是“该往哪条线深入”。先把 bulk RNA-seq 吃透，再决定是不是进入单细胞、空间组学或 AI for Bio。

领域	特点	入门难度	发文热度
单细胞测序	细胞级分辨率，适合做群体异质性分析	★★★★	🔥🔥🔥🔥🔥
空间转录组	保留空间位置信息，适合组织微环境研究	★★★★★	🔥🔥🔥🔥
多组学整合	把转录组、蛋白组、代谢组放到一起看	★★★★	🔥🔥🔥
AI for Bio	结构预测、药物设计、深度学习模型	★★★★★	🔥🔥🔥🔥🔥

第 1 阶段：掌握 bulk RNA-seq
第 2 阶段：单细胞基础分析
第 3 阶段：空间转录组 / 多组学
第 4 阶段：深挖一个方向

预印本

bioRxiv

新方法通常先在这里出现，适合跟踪热点方向和工具更新。

查看最新预印本

社区

GitHub / Stack Overflow / Biostars

排查报错、读源码、找 issue 和学习实际项目结构的最佳入口。

进入开发社区

课程

Coursera / edX 生信课程

适合系统补课，尤其是算法基础、统计学和多组学方向。

进入课程平台

公众号

生信技能树等中文内容源

适合跟进中文案例、分析套路和国内研究者的实践经验。

进入中文站点

进阶建议：单细胞和空间转录组确实是热点，但不要一上来就啃。先把 bulk RNA-seq 的差异分析、富集分析和结果解读做扎实，再上更复杂的层级，你会稳很多。

生信入门最大的误区，不是不会代码，而是顺序错了。

正确路径不是“先把所有语法学完”，而是先看见终点，再走路径；先复现，再创新；先理解，再编程。记住：代码能跑通，不等于结果正确。

看套路建地图先跑工具做项目补 R 语言避陷阱会讲故事再看前沿

Appendix / 速查

附录：必装包与常用数据库

最后把最常用的安装命令和数据库入口收在一起，方便你开始第一个项目时直接回查。

必装 R 包速查

# 基础数据操作
install.packages("tidyverse")

# 差异分析三剑客
if (!require("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
BiocManager::install(c("DESeq2", "limma", "edgeR"))

# 富集分析
BiocManager::install("clusterProfiler")

# 单细胞分析
BiocManager::install("Seurat")

# 免疫浸润
install.packages("IOBR")

Bioinformatics Starter Guide 生信入门实战指南

刚入门、想少走弯路的人

先全局，再细节；先成品，再原理

能独立讲清一套分析故事

建立认知地图

差异分析

TCGA

富集分析

免疫浸润

数据预处理

可视化

推荐起步材料

B 站《15天入门生物信息》

生信技能树案例库

在线分析平台与教学案例

数据资源地图

新兴数据库方向

Human Cell Atlas / Tabula Sapiens

10x Visium 数据与 SpatialDB

CPTAC

ENCODE / Roadmap Epigenomics

HMDB / MetaboLights

肠道菌群与人类微生物组数据库

关键转折点：工具先行，代码后置

操作路径

量化目标

预期效果

三级实战项目清单

入门级

进阶级

挑战级

R 语言基础攻坚

1. 核心内容

2. 效率工具

3. 学习目标

4. 学习路径

5. 推荐资源

6. 记住结论

环境配置清单

为什么推荐先学 R 语言

避坑指南

AI 辅助的边界

信任危机

学术诚信风险

能力陷阱

确认偏误

正确姿势

先掌握基础

再用 AI 提效

始终验证

从分析到故事：结果解读能力

差异基因 → 候选基因筛选

富集分析 → 生物学功能关联

诊断模型 → 疾病识别能力

预后分析 → 生存与风险

免疫浸润 → 肿瘤微环境

整合 → 讲出完整故事

前沿趋势与进阶路径

bioRxiv

GitHub / Stack Overflow / Biostars

Coursera / edX 生信课程

生信技能树等中文内容源

附录：必装包与常用数据库

必装 R 包速查

常用数据库入口