中文

English

尊龙凯时全基因组关联分析探秘:揭示生物医疗新进展

发布时间:2025-07-27   信息来源:尊龙凯时官方编辑

经过前两期的讲解,我们已了解GWAS分析所需的数据类型及数据质控方法,现迎来了核心内容:关联分析。GWAS分析通常会建立回归模型,以检验标记与表型之间的关联性。其中:① 零假设(H0)是标记的回归系数为零,表明标记(即SNP)对表型没有影响。② 备择假设(H1)则是标记的回归系数不为零,表示标记(即SNP)与表型存在关联。在第一期中提到,表型数据的类型包括数量性状、质量性状和分级性状。在进行关联分析之前,我们需要选择合适的分析方法,以匹配不同类型的表型,并通常对p值进行校正以减少假阳性。

1. 连续性状

连续性状是指在群体中呈现连续分布的性状,如身高、体重和血压等。可以选择的方法包括T检验和线性回归。使用命令:plink --bfile test --assoc --out result_assoc(不校正p值),或plink --bfile test --assoc --adjust --out result_assoc(校正p值),需注意,校正后会生成一个带有*assocadjusted后缀的文件。对于线性回归,可以使用plink --bfile test --linear --out result_linear(不校正p值),或plink --bfile test --linear --adjust --out result_linear(校正p值),协变量可通过--covar参数添加。

尊龙凯时全基因组关联分析探秘:揭示生物医疗新进展

2. 阈值性状

阈值性状指表型值的数据为二元数据:1和2(其中0和-9表示缺失)。常见的如对照组(1)与实验组(2)。可选的方法包括卡方检验和逻辑斯蒂回归。使用命令:plink --bfile test --assoc --out result_assoc(不校正p值),或plink --bfile test --assoc --adjust --out result_assoc(校正p值)。对于逻辑回归,命令为plink --bfile test --logistic --out result_logistic(不校正p值),或plink --bfile test --logistic --adjust --out result_logistic(校正p值),同样地,协变量需使用--covar参数进行添加。

3. 分级性状

分级性状是指通过人为观察进行分类的离散型变量,例如对植物抗病性的评价。在此转变定义时,依赖于经验。例如,可以根据叶片病斑面积将其定义为连续性状,也可以设置阈值为高、中、低等分级性状。可选的方法包括卡方检验和逻辑斯蒂回归,命令同上,协变量一如既往需使用--covar参数进行设置。

在经过这些步骤后,我们终于获得了期盼的显著性结果。接下来,可对结果表格进行p值筛选,以过滤假阳性,并进行可视化展示,如著名的Q-Q图和曼哈顿图。关于如何进行这些可视化将留待下一期揭晓。此外,如需深入探索生物医学领域中的数据分析与结果解释,欢迎关注尊龙凯时,我们将不断为您提供更有价值的内容及服务。