如何使用GCTA分析考虑kinship的二分类性状：--fastGWA-mlm-binary

邓飞

发布于 2026-05-19 11:27:33

1010

大家好，今天介绍一下如何使用GCTA分析二分类性状，特别适合群体间有亲缘关系的情况。

1，适合性状

二分类性状，比如疾病，患病编码为1，疾病编码为2，比如是否发芽，是否抗病等等，这些性状在遗传研究中非常常见，传统的GWAS软件，一般对这类二分类性状都是用Logistic回归，比如plink软件的实现方法（plink分析二分类Logistic的GWAS模型，表型值编码以及OR值意义）（plink分析二分类性状的GWAS），这类分析，只能矫正群体结构（通过PCA放到协变量中），不能考虑个体间的亲缘关系（kinship）。

2，为什么Logistic模型不适合分析

第一个就是假阳性膨胀，亲属间表型相似，很容易把亲缘相关作为基因相关导致假阳性。

第二个是效力不足（power），人层分层和隐形相关无法有效控制

第三，对于极端不平衡数据，比如罕见病，case/control = 1:100时，普通Logistic几乎失效。

像这种情况，必须使用GLMM（广义线性混合模型），把群体结构和SNP作为固定因子，kinship作为随机因子。

3，如何用GCTA的--fastGWA-mlm-binary分析二分类性状

该方法发表在2021年的NG上面，权威可靠。下面是具体分析流程，亲测有效。

## 1. 构建全基因组亲缘关系矩阵（GRM）
gcta --bfile ../geno/qc \
      --make-grm \
      --out geno_grm \
      --make-grm-alg 1

输入：质控后 PLINK 基因型（bed/bim/fam）；
输出：geno_grm.grm.bin等，n×n 全密度 kinship 矩阵；
--make-grm-alg 1：用标准算法，稳定可靠。

## 2. 构建稀疏GRM（核心加速步骤）
gcta --grm geno_grm \
      --make-bK-sparse 0.05 \
      --out sp_grm

--make-bK-sparse 0.05：保留K_ij>0.05的个体对，其余的删除；
输出：sp_grm.sparse.bin，稀疏矩阵

## 3. fastGWA-GLMM二分类GWAS（核心命令）
gcta --bfile ../geno/qc \
        --grm-sparse sp_grm \
        --fastGWA-mlm-binary \
        --pheno ../pheno/phe_.txt \
        --qcovar ../geno/pca3.txt \
        --out re