在群体遗传学研究中,LD连锁不平衡分析是最常见的分析内容和关联分析的基础LD衰减和单体型框图将出现在许多关于GWAS遗传进化的文章中。如果你不太熟悉,是时候补课了。oh ~ ~
LD概念
当一个基因座中的特定等位基因和另一个基因座中的特定等位基因同时出现的概率大于随机分布在群体中的两个等位基因同时出现的概率时,这两个基因座被称为连锁不平衡
LD计算方法
D是LD(连锁不平衡)的基本单位,它衡量观察到的单体型频率与平衡状态下的预期频率之间的偏差虽然D能很好地表达LD的基本含义,但它不适合表达实际的LD强度,尤其是不同研究的LD值的比较,因为它严格依赖于等位基因频率。在几种常用于测量LD的符号中,最重要的是D’和r2,它们都是基于D的,各有其特点和用途
LD的计算方法如下:
1,有两个基因座(A、B),等位基因分别为A、A、B、B,对应频率为f(a)、f(A)、f(B)和f(b)
2,这两个基因座有四个单倍型AB、aB、ab、Ab,对应频率为f(AB)、f(aB)、f(Ab)和f(Ab)255
当Dab≠0时,处于联动不平衡状态
LD度量:
当Dab >时;0,| D ' | =(Dab)2/分钟(f(AB),f(AB));
当Dab & lt0,| D ' | =(Dab)2/分钟(f(Ab),f(Ab));
2 R2 =(Dab)2/(f(A)* f(A)* f(B)* f(B));
D'=0,r2=0,处于完全连锁平衡状态;当
d' = 1且R2 = 1时,处于完全联动的不平衡状态;从0到1测量的
越高,LD越高。如果两个基因座是连锁的,连锁程度就越强。
r2和d '比较
R2和d '反映了LD的不同方面R2包括重组和突变,而d’只包括重组历史d’可以更准确地估计重组差异,但当样本较少时,可能观察不到低频等位基因组合,导致对LD强度的高估,因此d’不适合小样本群体研究;在
LD衰减图中通常使用R2来表示人口的LD水平;在单倍体中;“d”通常用于定义块;迁移、突变、选择、有限的群体规模和其他导致等位基因频率变化的因素都会导致LD的变化。
用于计算LD的主流软件和方法
plink 2:
(https://www.cog-genomics.org/plink2)
haploview:
(https://Www.broadinstitute.org/haploview/haploview)
plink用于计算R2值的命令行(基于vcf):
参见更多代码
-vcf指定输入文件为vcf格式。如果是bed格式,请使用-b文件连接文件前缀。如果数据是ped或map格式,请使用- map连接。地图文件。- ped连接到。ped文件
-允许无性别表示允许指定maf阈值
-MAF而没有性别信息-MAF指定MAF阈值
-GENO指定缺失率阈值,与我们的完整性含义相反。对应于0.2的完整性是0.8
-r2意味着计算的r2值
-LD-窗口意味着计算LD的间隔。计算R2值
haploview的命令行是
Java-jar Haploview . jar-nogui-memory 10240-info test . hap map . info-ped file test . hap map . ped-out test-max distance 500-Mingeno 0.5-MinmAf 0.05-m Issing截止0.5-HW截止0-dprime
ld不同物种或同一物种的不同亚组之间的激光二极管衰减速度差异很大。因此,通常用一个标准——“激光二极管衰减距离”来描述激光二极管的衰减速度
LD衰减距离通常指平均LD系数r2衰减到一定程度时对应的物理距离"一定尺寸"是这一定义的重点,但没有特别统一的标准,不同的条款标准也不同。通用标准包括:
a)LD系数降低到最大值的一半;
b)LD系数降至0.5以下;
c)LD系数降至0.1以下;
d)LD系数降至基线水平(注意,不同物种的基线值不同)
,所以下次在文章中看到“LD衰变距离是XXkb”时,不要忘记看看文章中使用的标准。
自然生物技术30,105–111(2012)doi:10.1038/NBT . 2050
值获取:成对计算指定距离范围内所有SNPs的r2值。根据该区间,应用
LD的平均衰减距离< br>
1判断GWAS所需的标记数量,确定GWAS的检测效率和准确性。
GWAS标记=基因组大小/LD衰减距离
2,辅助分析进化和选择
对同一连锁群,缓慢的LD衰减表明该群被选择一般来说,野生种群的ld衰减快于驯化和改良种群,异花授粉植物的LD衰减快于自花授粉植物。例如,玉米:当地品种1kb,自交系2kb,商业自交系100kb
单体型区(单体型区)
单体型区,即连锁不平衡区,指同一染色体上处于连锁不平衡状态的连续区单体嵌段分析可用于筛选标记单核苷酸多态性,确定候选基因的范围等。
自然遗传学48,927–934(2016)doi:10.1038/ng . 3596;
植物生物技术杂志2017年3月29日。doi: 10.1111/pbi.12734
如果GWAS检测到显著的相关区间,则通过进一步绘制局部LD单倍型框图,可以进一步判断单核苷酸多态性与目标基因之间是否存在强LD关系。上面的
显示了这个美丽的数字,下次我们会给你一个详细的介绍,爱学习的同学不要错过哦~