大家好,今天介绍一下如何使用GCTA分析二分类性状,特别适合群体间有亲缘关系的情况。
1,适合性状
二分类性状,比如疾病,患病编码为1,疾病编码为2,比如是否发芽,是否抗病等等,这些性状在遗传研究中非常常见,传统的GWAS软件,一般对这类二分类性状都是用Logistic回归,比如plink软件的实现方法(plink分析二分类Logistic的GWAS模型,表型值编码以及OR值意义)(plink分析二分类性状的GWAS),这类分析,只能矫正群体结构(通过PCA放到协变量中),不能考虑个体间的亲缘关系(kinship)。
2,为什么Logistic模型不适合分析
第一个就是假阳性膨胀,亲属间表型相似,很容易把亲缘相关作为基因相关导致假阳性。
第二个是效力不足(power),人层分层和隐形相关无法有效控制
第三,对于极端不平衡数据,比如罕见病,case/control = 1:100时,普通Logistic几乎失效。
像这种情况,必须使用GLMM(广义线性混合模型),把群体结构和SNP作为固定因子,kinship作为随机因子。
3,如何用GCTA的--fastGWA-mlm-binary分析二分类性状

该方法发表在2021年的NG上面,权威可靠。下面是具体分析流程,亲测有效。
## 1. 构建全基因组亲缘关系矩阵(GRM)
gcta --bfile ../geno/qc \
--make-grm \
--out geno_grm \
--make-grm-alg 1geno_grm.grm.bin等,n×n 全密度 kinship 矩阵;--make-grm-alg 1:用标准算法,稳定可靠。## 2. 构建稀疏GRM(核心加速步骤)
gcta --grm geno_grm \
--make-bK-sparse 0.05 \
--out sp_grm--make-bK-sparse 0.05:保留K_ij>0.05的个体对,其余的删除;sp_grm.sparse.bin,稀疏矩阵## 3. fastGWA-GLMM二分类GWAS(核心命令)
gcta --bfile ../geno/qc \
--grm-sparse sp_grm \
--fastGWA-mlm-binary \
--pheno ../pheno/phe_.txt \
--qcovar ../geno/pca3.txt \
--out re--grm-sparse:指定稀疏 kinship 矩阵;--fastGWA-mlm-binary:调用极速 GLMM 二分类模型;--pheno:表型文件(FID/IID/ 表型,0 = 对照,1 = 病例);--qcovar:协变量(PCA 前 3 个主成分,校正群体结构);re.fastGWA.gz,直接可用的 GWAS 结果。4,总结
二分类性状 GWAS 用 GLMM 控制 kinship,而--fastGWA-mlm-binary通过稀疏矩阵 + 算法革新,解决了传统 GLMM“慢、卡、不准” 的痛点,是当前大样本、不平衡二分类性状 GWAS 的最优选择。