首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >如何使用GCTA分析考虑kinship的二分类性状:--fastGWA-mlm-binary

如何使用GCTA分析考虑kinship的二分类性状:--fastGWA-mlm-binary

作者头像
邓飞
发布2026-05-19 11:27:33
发布2026-05-19 11:27:33
1010
举报

大家好,今天介绍一下如何使用GCTA分析二分类性状,特别适合群体间有亲缘关系的情况。

1,适合性状

二分类性状,比如疾病,患病编码为1,疾病编码为2,比如是否发芽,是否抗病等等,这些性状在遗传研究中非常常见,传统的GWAS软件,一般对这类二分类性状都是用Logistic回归,比如plink软件的实现方法(plink分析二分类Logistic的GWAS模型,表型值编码以及OR值意义)(plink分析二分类性状的GWAS),这类分析,只能矫正群体结构(通过PCA放到协变量中),不能考虑个体间的亲缘关系(kinship)。

2,为什么Logistic模型不适合分析

第一个就是假阳性膨胀,亲属间表型相似,很容易把亲缘相关作为基因相关导致假阳性。

第二个是效力不足(power),人层分层和隐形相关无法有效控制

第三,对于极端不平衡数据,比如罕见病,case/control = 1:100时,普通Logistic几乎失效。

像这种情况,必须使用GLMM(广义线性混合模型),把群体结构和SNP作为固定因子,kinship作为随机因子。

3,如何用GCTA的--fastGWA-mlm-binary分析二分类性状

该方法发表在2021年的NG上面,权威可靠。下面是具体分析流程,亲测有效。

代码语言:javascript
复制
## 1. 构建全基因组亲缘关系矩阵(GRM)
gcta --bfile ../geno/qc \
      --make-grm \
      --out geno_grm \
      --make-grm-alg 1
  • 输入:质控后 PLINK 基因型(bed/bim/fam);
  • 输出:geno_grm.grm.bin等,n×n 全密度 kinship 矩阵;
  • --make-grm-alg 1:用标准算法,稳定可靠。
代码语言:javascript
复制
## 2. 构建稀疏GRM(核心加速步骤)
gcta --grm geno_grm \
      --make-bK-sparse 0.05 \
      --out sp_grm
  • --make-bK-sparse 0.05:保留K_ij>0.05的个体对,其余的删除;
  • 输出:sp_grm.sparse.bin,稀疏矩阵
代码语言:javascript
复制
## 3. fastGWA-GLMM二分类GWAS(核心命令)
gcta --bfile ../geno/qc \
        --grm-sparse sp_grm \
        --fastGWA-mlm-binary \
        --pheno ../pheno/phe_.txt \
        --qcovar ../geno/pca3.txt \
        --out re
  • --grm-sparse:指定稀疏 kinship 矩阵;
  • --fastGWA-mlm-binary:调用极速 GLMM 二分类模型;
  • --pheno:表型文件(FID/IID/ 表型,0 = 对照,1 = 病例);
  • --qcovar:协变量(PCA 前 3 个主成分,校正群体结构);
  • 输出:re.fastGWA.gz,直接可用的 GWAS 结果。

4,总结

二分类性状 GWAS 用 GLMM 控制 kinship,而--fastGWA-mlm-binary通过稀疏矩阵 + 算法革新,解决了传统 GLMM“慢、卡、不准” 的痛点,是当前大样本、不平衡二分类性状 GWAS 的最优选择

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 育种数据分析之放飞自我 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档