首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >ChIP-seq 数据分析图表汇总-1基础篇

ChIP-seq 数据分析图表汇总-1基础篇

作者头像
三兔测序学社
发布2026-05-26 20:42:15
发布2026-05-26 20:42:15
630
举报

ChIP-seq 数据分析图表汇总-1基础篇

一、测序数据与比对质量控制(QC)

1. 碱基质量分布图 (Per Base Sequence Quality Plot)

分析内容:评估下机原始数据(Raw Reads)中每一个测序循环(每个碱基位置)的测序质量得分(Phred Score),判断是否存在由于仪器或试剂导致的测序衰减。

图形类型:箱线图 / 折线图(Boxplot / Line Plot)

常用工具:FastQC

文献展现形式:X 轴为碱基位置(1-150 bp),Y 轴为质量得分质量(0-40)。通常前 10% 的区域为黄绿过渡色。文献中若测序质量好,折线和箱线中位数应持续保持在绿色合格区(>30 分)。

2. 序列重复水平图 (Sequence Duplication Levels Plot)

分析内容:统计序列在库中被重复测序的频次。高重复可能意味着 PCR 过度扩增、文库复杂度低或存在特定的超富集结合位点。

图形类型:折线图(Line Plot)

常用工具:FastQC、MultiQC

展现形式:X 轴为序列重复次数(1, 2, 3... >10k),Y 轴为对应的 Reads 百分比。用于提醒研究者是否需要在下游比对时进行 “De-duplication”(去重)处理。

举例说明

3. 基因组比对率统计图 (Mapping Statistics Plot)

分析内容:统计成功比对到参考基因组的 Reads 比例、未比对上的比例以及多位点比对(Multi-mapping)的比例。

图形类型:堆叠条形图 / 饼图(Stacked Bar Chart / Pie Chart)

常用工具:MultiQC / Bowtie2 报告

展现形式:通常作为附件中质控表格的可视化形式。一个高质量的 ChIP-seq 样品其唯一比对率(Uniquely mapped rate)通常要大于 70%~80%。

图例说明:双端测序比对分数,H3K27me3、H3K4me3、IgG(每组两个重复),每一个样本的唯一比对、多比对与无比对read的百分比。

4.文库复杂度 (Library Complexity)曲线图

分析内容: 评估测序文库的复杂度,旨在判断文库是否被过度测序或信息量不足。

图形类型:复杂度曲线图 (Complexity Curve)

常用工具: MultiQC Preseq

展示显示: X轴:总读段 数(Total molecules,包含重复序列),Y轴:唯一分子数(Unique molecules)。 参考线:虚线代表“完美复杂度文库”(总读段数 = 唯一读段数)。 曲线斜率:曲线越陡峭,说明随着测序深度的增加,能发现越多的新唯一序列,文库复杂度越高。 饱和现象:若曲线趋于平缓(浅斜率),表明文库复杂度已接近饱和,继续测序产生的新信息很少。

举例说明:

图例说明:若在100M读段时已捕获大部分唯一分子,但测序深度达到250M,则说明该文库被过度测序,未来实验可降低测序深度以节省成本。

5. 指纹图 / 累积丰度曲线图 (Fingerprint Plot / Accumulation Plot)

分析内容:通过对基因组划窗并计数 Reads,比较 ChIP 样品与 Input 对照组的富集显著性。 图形类型:反向累积折线图(Cumulative Expression Line Plot) 常用工具:deepTools (plotFingerprint) 展现形式:X 轴代表基因组按 Reads 富集度从小到大排序的百分比,Y 轴代表累积 Reads 占总 Read 数的比例。理想的 Input 样品由于是全基因组随机打断,其曲线接近y=x的对角直线。而成功的 ChIP 样品(如转录因子结合)由于只结合极少数位点,大部分基因组区域没有信号,曲线会在后半段突然 “陡峭上升”,形成明显的漏斗状间隙。

举例说明

图片解读:

样本

曲线特征

解读

Input vs H3K4me3(左图)

H3K4me3 曲线在 X≈0.9 处急剧上升,与 Input 线间隙极大

高质量窄峰富集:仅约 3% 的基因组区域包含了 97% 的 reads,说明结合信号高度集中,是理想的转录起始位点标记

Input vs H3K36me3(中图)

Input 曲线几乎完美贴合对角线

Input 样本质量极佳,reads 分布高度随机;H3K36me3 曲线在 X≈0.8 处开始上升,富集效果中等

Input vs H3K27me3(右图)

H3K27me3 曲线与 Input 线几乎重合,间隙很小

宽峰修饰的典型表现:由于H3K27me3的结合区域是大片的异染色质,reads 分布均匀,因此与 Input 差异不明显,不能直接判定实验失败

图片来源:https://nf-co.re/cutandrun/3.0/docs/output#32-library-complexity

二、样本相关性与全局分布

6. 样本间相关性热图 (Sample Correlation Heatmap)

分析内容:评估生物学重复(Replicates)之间的一致性,以及不同实验条件 / 不同抗体样品之间的聚类关系。

图形类型:矩阵热图(Matrix Heatmap)

常用工具:deepTools (plotCorrelation) / DiffBind

展现形式:矩阵的行和列均为样本名,格子颜色对应皮尔森(Pearson)或斯皮尔曼(Spearman)相关系数。文献中通常要求同组的生物学重复聚类在一起,且相关系数R>0.85以上。

举例说明

图例说明:ChIP-seq 样本间的相关性热图,通过皮尔森相关系数展示了不同实验样本(包括转录因子 CTCF、SMC3、ZNF143,组蛋白修饰 H3K4me1、H3K4me3、H3K36me3、H3K27me3,以及 Input 对照组)的聚类关系与生物学重复一致性:同组的生物学重复样本(如 CTCF_r1 与 CTCF_r2、H3K4me3 与 H3K4me1 等)呈现出极高的相关性(红色区域,系数接近 1)并被聚在同一分支,Input 组也形成了独立的聚类,而不同类型的样本(如转录因子、组蛋白修饰、Input)则清晰分群,说明样本重复性良好、分组合理,无明显批次效应或异常样本。图片来源:https://compgenomr.github.io/book/chip-quality-control.html

7. 主成分分析图 (PCA Plot)

分析内容:将全基因组的 ChIP-seq 信号强度矩阵降维,在低维空间直观展示样本间差异,确认是否存在批次效应或异常样本。

图形类型:二维 / 三维散点图(2D/3D Scatter Plot)

常用工具:deepTools (plotPCA) / R 包 (ggplot2)

文献展现形式:X 轴为 PC1(贡献度最大),Y 轴为 PC2。距离近的点代表生物学行为相似,通常在文章第一或第二张大图(Figure 1/2)中用来证明样本分组的合理性。

举例说明

图例说明:主成分分析(PCA)图展示了样本(人类原始生殖细胞 hPGC 与体细胞 hSoma)依据细胞类型、性别及发育阶段呈现的分离特征。该分离现象由两种差异化组蛋白修饰 H3K4me3 与 H3K27me3 的数据结构主导。Gao, R., Zeng, S., Yang, D.,, Chen, J. (2023) Resetting histone modifications during human prenatal germline development. Cell Discovery 9(1). https://doi.org/10.1038/s41421-023-00519-1

8. 全基因组染色质覆盖图 / 环形图 (Genome-wide Coverage / Circos Plot)

分析内容:将 ChIP-seq 的信号密度分布投射到全基因组的所有染色体上,宏观展示蛋白结合或组蛋白修饰的染色体偏好性。

图形类型:染色体核型环形图 / 密度轨迹图(Circos Plot / Linear Ideogram)

常用工具:Circos / R 包 (ChIPseeker / Gviz)

文献展现形式:外圈为染色体刻度线,内圈通过颜色深浅或线条高低代表 ChIP-seq 信号的分布。常用于展示全基因组大范围的表观修饰(如 H3K27me3 的异染色质大范围覆盖区)。

举例说明:

举例说明:通过 ChIP-seq 分析确定的 BDF5 全基因组分布图 外圈: 展示 32 MB 大小的 L. mexicana(墨西哥利什曼原虫)基因组的 Circos 环形图。其中的 34 条染色体由灰色片段表示。内圈: 展示了 BDF5 ChIP-seq 的实验结果。图中橙色条块表示 BDF5 富集度 >0.5 log2fold 的区域;蓝色曲线则在对数刻度(log2 fold)上展示了 BDF5::6xHA 在洗脱样本中相对于输入染色质的富集情况,数值为 3 次 ChIP 重复实验的平均值。在这条蓝色曲线上,还通过彩色圆圈标注了特定的基因组特征,例如链转换区(SSR)、tRNA 基因和 rRNA 基因。内嵌图(Inner panel): 图例以及展示与峰值(peaks)相关的基因组特征的堆叠柱状图。Jones NG, Geoghegan V, Moore G, et al. Bromodomain factor 5 is an essential regulator of transcription in Leishmania. Nat Commun. 2022;13(1):4071. Published 2022 Jul 13. doi:10.1038/s41467-022-31742-1

三、 Peak 鉴定与局部可视化

9. 基因组浏览器轨迹图 / 峰图 (Genome Browser Track Plot)

分析内容:最经典的 ChIP-seq 展示图。在指定的基因位点或基因组区域上,直观展示 ChIP 与 Input 的 Reads 堆叠丰度(波峰),用于验证具体的靶基因。

图形类型:基因组坐标密度面积图(Area/Track Plot)

常用工具:IGV (Integrative Genomics Viewer) / UCSC Genome Browser

展现形式:通常横轴为基因组位置和基因结构模型。纵轴为归一化后的信号强度(如 RPKM 或 CPM)。ChIP 组在特定启动子或增强子处有高耸的 “山峰”(Peak),而对应的 Input 组在相同位置表现为平坦的背景噪音,下方常带有 MACS2 等工具切出的 “Peak Bar”(通常显示为黑色或彩色小方块)。

举例说明:

图例说明: IGV 基因组浏览器轨迹图展示了 HNRNPA1 基因位点上的 ChIP-seq 信号:IP1 和 IP2 两组生物学重复样本的正负链 reads 信号在该 区间形成了清晰的富集峰,而对应的 Input 对照组信号在此区域表现为平坦的背景噪音,同时下方的 Peak bed 文件也标注了两组 IP 样本去除input背景后的结合峰与两组IP共有的结合峰,直观证明了目标蛋白在 HNRNPA1 基因附近存在特异性的、重复性良好的结合信号。图片来源https://eclipsebio.com/eblogs/how-to-use-igv-1/

10. Peak 长度分布直方图 (Peak Width Distribution Histogram)

分析内容:统计鉴定出的所有富集区域(Peaks)的长度(bp),用以区分 “窄峰(Narrow Peaks)” 和 “宽峰(Broad Peaks)”。

图形类型:直方图 / 密度图(Histogram / Density Plot)

常用工具:MACS2 / R 包 (ChIPseeker)

文献展现形式:X 轴为 Peak 的长度(碱基数),Y 轴为 Peak 的数量。诸如转录因子(CTCF、p53)通常呈现集中在 200-500 bp 的窄峰分布;而活跃转录组蛋白修饰(H3K36me3)则呈现数个 kb 宽度的平缓宽峰。

举例说明:

图例说明:(d) 比较了在涡虫干细胞优先表达的基因(蓝色)与广泛表达的基因(黄色)的启动子处, H3K4me3 峰(peaks)宽度的对比图。干细胞基因处的 H3K4me3 峰显著宽于具有广泛表达模式的基因处的峰,p < 2.2 × 10⁻¹⁶(Welch 双样本 t 检验)。(e) 展示由宽 H3K4me3 峰(蓝色)与窄峰(黄色)标记的基因平均表达量的对比图;其中“宽峰”定义为最宽的 10% H3K4me3 MACS2 识别峰,“窄峰”定义为最窄的 10% H3K4me3 MACS2 识别峰;由宽峰与窄峰标记的基因在表达量上的差异具有统计学显著性,p < 2.2 × 10⁻¹⁶(Welch 双样本 t 检验)。

四、 Peak 基因组区域注释与富集特征

11. Peak 基因组元件分布饼图 (Genomic Features Distribution Pie Chart)

分析内容:统计鉴定的结合位点主要分布在基因组的哪些功能元件上(启动子、内含子、外显子、基因间区、5'/3' UTR 等)。

图形类型:饼图 / 条形图(Pie Chart / Bar Chart)

常用工具:R 包 ChIPseeker::plotAnnoPie / ChIPseeker::plotDistToTSS / HOMER

文献展现形式:用于宏观定性。例如,如果研究的是转录因子,文献图表中启动子(Promoter,通常定义为 TSS 上下游 1kb-3kb)占的比例会显著高于基因组随机分布;如果研究的是增强子结合蛋白,则内含子(Intron)和基因间区(Intergenic)比例会更高。

举例说明:

图例说明:展示ChiP-seq峰的基因组分布特征,呈现其在启动子区、非翻译区、外显子、内含子及基因间区等不同基因组位置的占比构成。Zhang, S., Feng, X., Li, C., ..., Wang, G. (2024) Mediator MED23 controls oligodendrogenesis and myelination by modulating Sp1/P300-directed gene programs. Cell Discovery 10(1). https://doi.org/10.1038/s41421-024-00730-8

12. 维恩图 / 集合图 (Venn Diagram / UpSet Plot)

分析内容:对比不同转录因子之间,或者同一转录因子在不同处理条件下(如对照组 vs 药物处理组)共有和特有的结合位点(Peaks)数量。

图形类型:维恩图 / 矩阵交集图(Venn Diagram / UpSet Plot)

常用工具:Intervene / R 包 (UpSetR)

文献展现形式:交叉重叠部分代表协同结合区域。当样本数量大于 3 或 4 组时,传统维恩图会变得极难阅读,文献现在更倾向于使用 UpSet Plot,其通过下方矩阵的点线连接和上方的条形图清晰展现多组交集。

举例说明

图例说明:通过维恩图(a)和 UpSet 图(b)展示了三种组蛋白修饰(H3K27ac、H3K4me3、H3K27me3)的 ChIP-seq 峰集合交集关系,维恩图显示 H3K27ac 与 H3K4me3 的共有峰(17978 个)、三者共同交集峰(7530 个)以及各修饰的特有峰数量,UpSet 图则更清晰地量化了所有交集组合的峰数,揭示了不同修饰间的共定位模式:H3K27ac 和 H3K4me3 作为活跃转录标记存在大量共定位峰,而抑制性标记 H3K27me3 既有大量特有峰也与活跃标记存在交集,直观呈现了这些组蛋白修饰在基因组上的分布特征与相互关联。图片来源:Khan A, Mathelier A. Intervene: a tool for intersection and visualization of multiple gene or genomic region sets. BMC Bioinformatics. 2017 May 31;18(1):287. doi: 10.1186/s12859-017-1708-7. PMID: 28569135; PMCID: PMC5452382.

13. TSS 附近信号热图 (TSS Coverage Heatmap)

分析内容:将所有基因的转录起始位点(TSS)对齐,展示结合信号在转录起始位点上下游(如±3 kb)的全局强度变化与聚类情况。

图形类型:矩阵富集热图(Density Heatmap)

常用工具:deepTools (plotHeatmap)

文献展现形式:每一行代表一个基因,中心点为 TSS,颜色由深到浅代表信号由强到弱。通常配合 K-means 聚类,将基因分为 “高富集”、“中富集” 和 “无富集” 几类,用来直观展现该蛋白与转录起始的密切程度。

图例说明:两组样本(Sample 1 和 Sample 2)的 TSS 附近信号富集分析,上方的元基因谱折线图显示两组样本的 ChIP-seq 信号均在转录起始位点(TSS)附近呈现出尖锐的单峰分布,且 Sample 1 的峰高明显高于 Sample 2;下方的热图以基因为行、TSS 上下游 ±3kb 区域为列,用颜色强度直观呈现了信号的全局分布,两组样本的信号都高度集中在 TSS 处,且 Sample 1 的整体信号强度显著强于 Sample 2,说明该蛋白 / 修饰在转录起始位点附近存在特异性富集,且 Sample 1 的富集水平明显高于 Sample 2

14. 特定区域信号热图

分析内容:计算所有基因在特定位点如增强子区域或者转录因子结合区域上的平均测序信号丰度趋势。

图形类型:多线折线图 与热图

常用工具:deepTools plotHeatmap / plotProfile R替代: ChIPseeker::tagHeatmap / ChIPseeker::plotAvgProf

文献展现形式:X 轴为相对基因的位置(如−3kb到+3kb),Y 轴为平均信号强度。

举例说明:

图例说明:通过元基因谱折线图与 增强子信号热图,对比了 DMSO 对照组与 LLC0150 处理组中 AR、FOXA1 及 H3K27Ac 三种 ChIP-seq 信号在 15,000 个 AR/FOXA1 共享增强子区域的富集情况,结果显示 LLC0150 处理后,AR、FOXA1 的结合峰高度显著下降,H3K27Ac 的增强子活性信号也明显减弱,说明药物处理显著抑制了 AR/FOXA1 在共享增强子上的结合及相应的增强子活性。图片来源Parolia, A., Eyunni, S., Verma, B. K., , Asangani, I. A. (2024) NSD2 is a requisite subunit of the AR/FOXA1 neo-enhanceosome in promoting prostate tumorigenesis. Nature Genetics 56(10), 2132-2143. https://doi.org/10.1038/s41588-024-01893-6

五、 Motif 分析(序列基序挖掘)

15. Motif 序列标志图 (Motif Logo Plot)

分析内容:在转录因子的 Peak 富集区域内,通过算法寻找具有特定序列偏好性的高度保守 DNA 短序列(基序),以推断转录因子直接结合的 DNA 核心密码。

图形类型:字形堆叠图 / 标志图(Sequence Logo)

常用工具:HOMER · MEME-ChIP · RSAT peak-motifs · XSTREME • R: ggseqlogo / seqLogo

文献展现形式:横轴为碱基位置(通常 8-15 bp),纵轴表示信息熵(Bits,最高为 2)。每个位置上的碱基字母(A, T, C, G)大小代表其保守性。文献中会给出预测的p-value或E-value,并与已知转录因子数据库(如 JASPAR)进行比对验证是否为该因子的经典结合基序。

举例说明:

图例说明:展示了胚胎干细胞(ESC)与表皮干细胞(EpiSC)各自特有 ChIP-seq 峰中的转录因子结合基序富集结果,上方 ESC 特有峰显著富集了多能性核心调控因子 KLF4、SOX2、ESRRB 的经典结合基序(均伴随极高显著性 p 值),这些因子在 ESC 中呈高表达(蓝色代表 EpiSC vs ESC 的 log₂FC 为负,即 ESC 表达更高);下方 EpiSC 特有峰则富集了 OCT6、ZIC2、OTX2 等与上皮 / 分化相关的转录因子基序,且这些因子在 EpiSC 中表达上调(红色代表 log₂FC 为正),直观揭示了两种细胞状态下由不同核心转录因子驱动的特异性调控网络。图片来源:Sun, Z., Lin, Y., Islam, M. T., ..., Helin, K. (2023) Chromatin regulation of transcriptional enhancers and cell fate by the Sotos syndrome gene NSD1. Molecular Cell 83(14), 2398-2416.e12. https://doi.org/10.1016/j.molcel.2023.06.007

16. Motif 基因组位点中心富集曲线图 (Motif Centrality / Density Plot)

分析内容:检验预测出的 Motif 是否真正位于 MACS2 呼出的 Peak 中心(Summits)。如果 Motif 偏离中心,可能是假阳性或间接结合。

图形类型:对称折线图(Symmetric Line Plot)

常用工具:CentriMo (MEME Suite) / HOMER

文献展现形式:X 轴为距离 Peak 中心的距离(如−250 bp到+250 bp),Y 轴为 Motif 的出现概率。一个真实的直接结合因子,其曲线应当在中心(0 点)呈现出尖锐的对称单峰。

举例说明:

图例说明: ELK1 和其他 ETS 因子基序(motif)在他莫昔芬(tamoxifen)处理过的 MCF10A-ER-Src 细胞的 FOS ChIP-seq 峰中相对富集。图 A 展示了 ELK1_DBD 基序在经过处理细胞(实线)与未经处理细胞(虚线)的 FOS ChIP-seq 峰中的中心富集情况。处理时长为 4 小时。图 B 展示了富集差异最显著的 8 个 ETS 因子基序的序列标识图:图片来源:Lesluyes T, Johnson J, Machanick P, Bailey TL. Differential motif enrichment analysis of paired ChIP-seq experiments. BMC Genomics. 2014 Sep 2;15(1):752. doi: 10.1186/1471-2164-15-752. PMID: 25179504; PMCID: PMC4167127.

六、 差异结合与高级下游分析

17. 差异结合位点火山图 (Differential Binding Volcano Plot)

分析内容:在多组学比较中,展示两组样本之间在全基因组范围内哪些结合位点(Peaks)的信号强度发生了显著上调或下调。

图形类型:散点图(Scatter / Volcano Plot)

常用工具:DiffBind / R 包 (DESeq2 / EdgeR) 文献展现形式:X 轴为差异倍数(log2 Fold Change),Y 轴为显著性(−log10p-value或q-value)。显著变化的 Peak 会用红色(上调)或蓝色(下调)高亮标注。

举例说明:

图例说明: CTCF ChIP-seq 的差异结合位点火山图,展示了 CTCF 敲除(KO)组与野生型(WT)组相比的结合峰变化:X 轴为结合信号的 log₂倍数变化,Y 轴为 FDR 校正后的显著性(-log (FDR)),红色点代表显著上调的结合峰(共 8,597 个),蓝色点代表显著下调的结合峰(共 615 个),灰色点为无统计学差异的位点,整体显示 CTCF 敲除后,大部分位点的结合信号显著增强,少数位点结合减弱,提示 CTCF 敲除对其全基因组结合模式产生了广泛且偏向性的影响。图片来源:Sun D, Zhu Y, Peng W, Zheng S, Weng J, Dong S, Li J, Chen Q, Ge C, Liao L, Dong Y, Liu Y, Meng W, Jiang Y. SETDB1 regulates short interspersed nuclear elements and chromatin loop organization in mouse neural precursor cells. Genome Biol. 2024 Jul 3;25(1):175. doi: 10.1186/s13059-024-03327-2. PMID: 38961490; PMCID: PMC11221086.

18.差异结合位点 MA 图(MA Plot for Differential Binding)

分析内容:在多组学比较中,展示两组样本之间全基因组范围内 (Peaks/bins)的信号强度差异,同时校正信号丰度对差异倍数的影响,识别显著上调或下调的结合区域。

图形类型:散点图(Scatter Plot,MA 图变体)

常用工具:DiffBind / R 包(DESeq2 / EdgeR)

文献展现形式:X 轴为两组样本的平均对数标准化 reads 数(反映位点整体信号丰度),Y 轴为 log₂倍数变化(log₂FC)。

举例说明:

图例说明:展示 MCM2-2A 组与野生型组之间 H3K27me3 修饰的结合差异。横轴为对数归一化平均计数值(A 值),纵轴为以 2 为底的对数倍数变化值(M 值)。错误发现率低于 10%、达到显著性阈值的数据点标记为红色。Wenger, A., Biran, A., Alcaraz, N., ..., Groth, A. (2023) Symmetric inheritance of parental histones governs epigenome maintenance and embryonic stem cell identity. Nature Genetics 55(9), 1567-1578. https://doi.org/10.1038/s41588-023-01476-x

19.结合信号分布小提琴图

分析内容:将 ChIP-seq 数据与不同处理组关联,对比不同蛋白结合位点上的信号强度分布,探究不同形式的 NFIB 对 EWS-FLI1 及 NFIB 自身结合信号的调控作用。

图形类型:小提琴图(Violin Plot,内嵌中位数线)

常用工具:R 包(ggplot2)

文献展现形式:X 轴为不同处理分组,Y 轴为 log₂转换后的 ChIP 信号强度,通过小提琴轮廓的宽窄体现数据分布密度,内嵌横线为中位数;

举例说明:

图例说明:该图中 X 轴分为空载体 EV、NFIB 野生型 、NFIB IDR 结构域缺失突变体 三组;Y 轴为 log₂(V5 ChIP-seq 信号强度),分别统计 EWS-FLI1(上方)和 NFIB(下方)结合位点的信号分布;结果显示 NFIB野生型组的信号强度显著高于 EV 组和 NFIB IDR 结构域缺组(均标注 ***,差异极显著),直观证明 NFIB 的 IDR 结构域对增强其自身及 EWS-FLI1 的染色质结合至关重要。图片来源:Xing YH, Dong R, Lee L, Rengarajan S, Riggi N, Boulay G, Rivera MN. DisP-seq reveals the genome-wide functional organization of DNA-associated disordered proteins. Nat Biotechnol. 2024 Jan;42(1):52-64. doi: 10.1038/s41587-023-01737-4. Epub 2023 Apr 10. PMID: 37037903; PMCID: PMC10791585.

20. 靶基因功能富集气泡图 / 条形图 (GO / KEGG Enrichment Plot)

分析内容:将 ChIP-seq 鉴定的 Peak 分配给最近的靶基因后,对这些靶基因进行基因本体论(GO)功能分类或生物通路(KEGG)富集分析,探究该蛋白调控的生物学功能。

图形类型:气泡图 / 横向条形图(Dot Plot / Bar Plot)

常用工具: clusterProfiler /CHIPseeker/ DAVID

文献展现形式:X 轴通常为 Gene Ratio(富集比例)或−log10(p-value),Y 轴为功能通路条目。气泡的大小代表富集在该通路下的靶基因数目,气泡颜色深浅代表显著性。

举例说明

图例说明:CHIP-seq peak关联基因的GO/KEGG富集分析气泡图。Fan, T., Xiao, C., Deng, Z. et al. Signatures of H3K4me3 modification predict cancer immunotherapy response and identify a new immune checkpoint-SLAMF9. Respir Res 26, 17 (2025). https://doi.org/10.1186/s12931-024-03093-6

汇总表格

序号

图形名称

常用工具

用途与分析内容

1

碱基质量分布图

FastQC

评估原始测序数据每个循环的碱基质量(Phred Score),判断测序仪器或试剂是否存在衰减问题。

2

序列重复水平图

FastQC, MultiQC

统计序列在文库中的重复频次,用于判断文库复杂度及是否需要进行去重(De-duplication)处理。

3

基因组比对率统计图

MultiQC, Bowtie2

展示成功比对到参考基因组的 Reads 比例(唯一比对、多位点比对、未比对),评估测序质量。

4

文库复杂度曲线图

Preseq, MultiQC

评估文库的复杂度,判断文库是否被过度测序(饱和)或信息量不足,指导测序深度。

5

指纹图 / 累积丰度曲线图

deepTools

比较 ChIP 样品与 Input 对照组的富集显著性,区分窄峰(转录因子)和宽峰(组蛋白修饰)信号。

6

样本间相关性热图

deepTools, DiffBind

评估生物学重复之间的一致性,以及不同样本/条件下的聚类关系(Pearson/Spearman 相关系数)。

7

主成分分析图 (PCA)

deepTools, R (ggplot2)

将全基因组信号降维,直观展示样本间差异,确认是否存在批次效应或异常样本。

8

全基因组染色质覆盖图 / 环形图

Circos, R (ChIPseeker)

宏观展示蛋白结合或组蛋白修饰在全染色体上的分布偏好性(如异染色质区域覆盖)。

9

基因组浏览器轨迹图 / 峰图

IGV, UCSC Browser

在特定基因位点展示 ChIP 与 Input 的 Reads 丰度(波峰),用于验证靶基因的特异性结合。

10

Peak 长度分布直方图

MACS2, R (ChIPseeker)

统计富集区域(Peaks)的长度分布,用于区分“窄峰”(转录因子)和“宽峰”(组蛋白修饰)。

11

Peak 基因组元件分布饼图

ChIPseeker, HOMER

统计结合位点在启动子、内含子、外显子等基因组功能元件上的分布比例。

12

维恩图 / 集合图

Intervene, R (UpSetR)

对比不同转录因子或不同处理条件下共有和特有的结合位点数量,展示协同结合模式。

13

TSS 附近信号热图

deepTools

将所有基因的转录起始位点(TSS)对齐,展示结合信号在 TSS 上下游的全局强度变化与聚类。

14

特定区域信号热图

deepTools, R (ChIPseeker)

计算特定区域(如增强子)的平均测序信号丰度趋势,对比不同处理组的信号差异。

15

Motif 序列标志图

HOMER, MEME-ChIP

展示 Peak 区域内高度保守的 DNA 短序列(基序),推断转录因子直接结合的核心密码。

16

Motif 基因组位点中心富集曲线图

CentriMo, HOMER

检验预测的 Motif 是否位于 Peak 中心(Summits),验证结合位点的真实性(直接结合 vs 间接结合)。

7

差异结合位点火山图

DiffBind, R (DESeq2)

展示两组样本间全基因组结合位点的差异(log2FC vs -log10 p-value),高亮显著上调/下调的 Peak。

18

差异结合位点 MA 图

DiffBind, R (DESeq2)

展示结合位点信号强度差异与整体丰度的关系,校正信号丰度对差异倍数的影响。

19

结合信号分布小提琴图

R (ggplot2)

对比不同处理分组(如突变体 vs 野生型)在特定 Peak 上的 ChIP 信号强度分布差异。

20

靶基因功能富集气泡图

clusterProfiler, DAVID

对 Peak 关联的靶基因进行 GO/KEGG 富集分析,探究该蛋白调控的生物学功能和通路。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 三兔测序学社 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • ChIP-seq 数据分析图表汇总-1基础篇
    • 一、测序数据与比对质量控制(QC)
      • 1. 碱基质量分布图 (Per Base Sequence Quality Plot)
      • 2. 序列重复水平图 (Sequence Duplication Levels Plot)
      • 3. 基因组比对率统计图 (Mapping Statistics Plot)
      • 4.文库复杂度 (Library Complexity)曲线图
      • 5. 指纹图 / 累积丰度曲线图 (Fingerprint Plot / Accumulation Plot)
    • 二、样本相关性与全局分布
      • 6. 样本间相关性热图 (Sample Correlation Heatmap)
      • 7. 主成分分析图 (PCA Plot)
      • 8. 全基因组染色质覆盖图 / 环形图 (Genome-wide Coverage / Circos Plot)
    • 三、 Peak 鉴定与局部可视化
      • 9. 基因组浏览器轨迹图 / 峰图 (Genome Browser Track Plot)
      • 10. Peak 长度分布直方图 (Peak Width Distribution Histogram)
    • 四、 Peak 基因组区域注释与富集特征
      • 11. Peak 基因组元件分布饼图 (Genomic Features Distribution Pie Chart)
      • 12. 维恩图 / 集合图 (Venn Diagram / UpSet Plot)
      • 13. TSS 附近信号热图 (TSS Coverage Heatmap)
      • 14. 特定区域信号热图
    • 五、 Motif 分析(序列基序挖掘)
      • 15. Motif 序列标志图 (Motif Logo Plot)
      • 16. Motif 基因组位点中心富集曲线图 (Motif Centrality / Density Plot)
    • 六、 差异结合与高级下游分析
      • 17. 差异结合位点火山图 (Differential Binding Volcano Plot)
      • 18.差异结合位点 MA 图(MA Plot for Differential Binding)
      • 19.结合信号分布小提琴图
      • 20. 靶基因功能富集气泡图 / 条形图 (GO / KEGG Enrichment Plot)
    • 汇总表格
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档