24 / 05 / 24

INDEL 和重排

怎么理解下面描述中 inde 和 重排的区别?NOTE that the cutoff for rearrangement vs indel is taken from BWA-MEM, whether it produces a single gapped-alignment or two separate alignments

在生物信息学中,特别是在基因组序列比对和变异检测的领域,"indel"和"rearrangement"是两个常用的术语,它们分别代表了不同类型的基因组变异。

1. *Indel (Insertion/Deletion)*:

- Indel是指在基因组序列中发生的插入(insertion)或删除(deletion)事件。

- 插入是指在参考序列中添加了新的核苷酸序列。

- 删除是指在参考序列中移除了一部分核苷酸序列。

- Indels通常较小,长度可以从单个核苷酸到几十个核苷酸不等。

2. *Rearrangements (Rearrangement)*:

- 重排是指基因组序列中发生的较大范围的结构变异,包括倒位(inversion)、易位(translocation)、复制(duplication)等。

- 这些变异涉及到基因组中较大片段的移动或重新排列,可能会影响基因的功能和表达。

- 重排通常涉及到较长的序列,其长度可能跨越数个基因甚至更大的区域。

在描述中提到的"cutoff for rearrangement vs indel"是指在比对和分析过程中,用于区分这两种变异类型的阈值。这个阈值通常由比对算法(如BWA-MEM)决定,它基于比对结果来确定一个序列变异是被分类为indel还是重排。

- 如果BWA-MEM产生了单个带有间隔(gapped)的比对,这通常意味着它检测到了一个indel变异。

- 如果BWA-MEM产生了两个独立的比对,这可能表明存在一个重排,因为重排涉及到序列的较大范围移动,可能需要通过多个比对来解释。

简而言之,indel和重排的区别在于它们影响基因组序列的范围和类型。Indels通常是小的插入或删除,而重排涉及到更大规模的序列移动或结构变化。BWA-MEM的阈值用于在比对过程中区分这两种类型的变异。

For samples (e.g., CCLE cell lines) that lacked a paired normal sample, we used HCC1143BL WGS as the normal / constitutional reference sample. 怎么理解这里 constitutional 的含义?

在生物医学研究中,特别是在癌症基因组学领域,"constitutional"这个术语通常用来描述与个体的遗传构成相关的特征或变异。当提到"constitutional reference sample"时,它指的是一个代表个体正常遗传背景的参考样本,这个样本不包含特定疾病(如癌症)的变异。

在这段描述中,"CCLE cell lines"指的是癌症细胞系,而"lacked a paired normal sample"意味着在进行某些类型的基因组分析时,没有可用的正常细胞样本与之配对。在这种情况下,研究人员会使用一个替代的正常样本作为参考,以帮助识别和比较癌症细胞系中的变异。

"HCC1143BL WGS"是一个特定的样本名称,其中"WGS"代表全基因组测序(Whole Genome Sequencing)。这意味着HCC1143BL样本的整个基因组已经被测序,并且其数据被用作正常或"constitutional"的参考。

因此,这里的"constitutional"可以理解为:

- 代表正常遗传背景的样本。

- 不包含特定疾病(如癌症)的变异。

- 用于与疾病样本进行比较,以识别疾病相关的遗传变异。

简而言之,"constitutional reference sample"是一个代表个体正常遗传状态的样本,它被用作分析和比较疾病相关变异的基准。

怎么理解 BND style vcf

在生物信息学中,VCF(Variant Call Format)是一种用于存储基因组变异信息的文件格式。VCF文件包含了基因组中变异的详细信息,例如SNPs(单核苷酸多态性)、indels(插入和删除)以及其他类型的结构变异。

BND风格(BND-style VCF)是一种特定类型的VCF文件,它专门用于描述易位(translocations)和倒位(inversions)等染色体结构变异。BND代表"Breakend",因为这些变异涉及到染色体的断裂和重新连接。BND风格的VCF文件通常包含以下特点:

1. *Breakend Information*: BND风格的VCF文件会详细记录变异的断裂点(breakends)。对于易位,这包括两个断裂点,每个断裂点都与一个特定的染色体和位置相关联。

2. *SVTYPE*: 文件中的每个变异都会有一个SVTYPE字段,用于指示结构变异的类型,例如BND、DEL(删除)、DUP(复制)、INV(倒位)等。

3. *IMPRECISE*: 如果变异的确切断裂点未知,IMPRECISE字段会被设置为1,表示变异的位置可能不够精确。

4. *EVENT*: 对于涉及多个断裂点的变异,如易位,EVENT字段会用来标识这些断裂点是否属于同一个变异事件。

5. *PAR*: 对于易位,PAR字段会指示易位是否是相互的(相互易位)。

6. *补充信息*: BND风格的VCF文件还可能包含其他补充信息,如变异的证据强度、样本特定的变异信息等。

BND风格的VCF文件对于研究染色体结构变异非常重要,因为它们提供了一种标准化的方式来记录和共享这些复杂的变异信息。这种格式使得研究人员能够更有效地分析和比较不同样本中的结构变异,从而深入理解它们在疾病发生和发展中的作用。

结构变异的类型中的BND是指什么?

在基因组变异的上下文中,"BND"通常指的是"Breakend",它是一种特殊的结构变异类型,用来描述染色体的断裂和连接。BND变异涉及到染色体上的两个断裂点,这些断裂点可以是染色体内部的(内部断裂点)或者是不同染色体之间的(跨染色体断裂点)。BND变异通常与以下类型的结构变异相关:

1. *Translocation (易位)*: 染色体的一部分断裂并连接到另一个非同源染色体上。易位可以是相互的(reciprocal translocation),意味着两个染色体交换了部分;或者是非相互的(non-reciprocal translocation),其中一个染色体丢失了部分,而另一个染色体获得了这部分。

2. *Inversion (倒位)*: 染色体的一部分断裂,旋转180度后重新连接。倒位变异不涉及其他染色体,是染色体内部的重排。

3. *Insertion (插入)*: 染色体的一部分断裂并插入到染色体的另一位置。这可能是同一染色体内的位置(内部插入)或者是不同染色体之间(跨染色体插入)。

4. *Deletion (删除)*: 染色体的一部分被移除,但断裂点仍然保持开放。

5. *Duplication (复制)*: 染色体的一部分被复制并插入到染色体的另一位置。

在BND风格的VCF文件中,BND变异会被特别标注,以便于识别和分析。这种变异的记录方式允许研究人员更精确地定位变异发生的确切位置,这对于理解变异对基因表达和功能的影响至关重要。BND变异在癌症基因组学、遗传病研究以及进化生物学等领域都有重要的研究价值。

举个例子?

好的,让我给你举一个BND变异的例子,以说明它在基因组变异中的表现形式。

假设我们有一个人类基因组的参考序列,并且我们检测到了一个易位变异(translocation),其中染色体1的一部分与染色体2的一部分发生了交换。以下是这个变异的简化表示:

*参考序列*:

```

Chromosome 1: ...ATGCATGC... (位置 10000)

Chromosome 2: ...TGCATGCA... (位置 20000)

```

*变异后的序列*:

```

Chromosome 1: ...ATGC... (位置 10000) [断裂点1]

Chromosome 2: ...TGCA... (位置 20000) [断裂点2]

```

在这个例子中,染色体1在位置10000处断裂,染色体2在位置20000处断裂,然后染色体1的片段与染色体2的片段交换位置。这种变异可以用BND风格的VCF记录如下:

#CHROM POS ID REF ALT QUAL FILTER INFO chr1 10000 . N <BND> . . SVTYPE=BND;EVENT=chr2:20000;IMPRECISE;CHR2=chr2;END=20000 chr2 20000 . N <BND> . . SVTYPE=BND;EVENT=chr1:10000;IMPRECISE;CHR2=chr1;END=10000

在这个VCF记录中:

- #CHROM 表示变异发生的染色体。

- POS 表示变异发生的位置。

- ID 是变异的唯一标识符,这里用点.表示没有特定的ID。

- REF 是参考序列中的碱基,这里用N表示没有特定的参考碱基,因为这是一个断裂点。

- ALT 表示变异的类型,这里用<BND>表示这是一个断裂点。

- QUALFILTER 通常用于表示变异的质量和是否通过过滤标准,这里用.表示这些信息未提供或不适用。

- INFO 包含了额外的变异信息,包括:

- SVTYPE=BND 表示这是一个断裂点变异。

- EVENT 描述了与这个断裂点相关的另一个断裂点,例如chr2:20000表示与染色体2的位置20000相关联的事件。

- IMPRECISE 表示这个变异的位置可能不够精确。

- CHR2END 提供了另一个断裂点所在的染色体和位置。

这个例子展示了如何使用BND风格的VCF来记录和描述一个易位变异,这种变异涉及到两个染色体上的断裂点。通过这种方式,研究人员可以更准确地识别和分析结构变异。

怎么理解 svaba 产生的结果文件呢?

#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT /data3/wsx/share/cellline_control/bam/SRR28305168.bam /data3/wsx/share/GC/bam/SNU16.bam chr1 1030701 218409399:1 C ]chr1:1030974]C 18 PASS DISC_MAPQ=22;EVDNC=DSCRD;IMPRECISE;MAPQ=22;MATEID=218409399:2;MATENM=-1;NM=-1;NUMPARTS=0;SCTG=chr1:1030701(-)-chr1:1030974(+)__1_1029001_1054001D;SPAN=273;SVTYPE=BND GT:AD:DP:GQ:PL:SR:DR:LR:LO 0 14 0/0:0:27:7.5:0,7.5,82.5:0:0:7.59:0 0/1:14:98:18.8:18.8,0,226.7:0:14:-18.67:29.22 chr1 1030974 218409399:2 T T[chr1:1030701[ 18 PASS DISC_MAPQ=22;EVDNC=DSCRD;IMPRECISE;MAPQ=22;MATEID=218409399:1;MATENM=-1;NM=-1;NUMPARTS=0;SCTG=chr1:1030701(-)-chr1:1030974(+)__1_1029001_1054001D;SPAN=273;SVTYPE=BND GT:AD:DP:GQ:PL:SR:DR:LR:LO 0 14 0/0:0:27:7.5:0,7.5,82.5:0:0:7.59:0 0/1:14:98:18.8:18.8,0,226.7:0:14:-18.67:29.22

SVABA是一种用于检测结构变异(如易位、倒位、插入和删除等)的生物信息学工具。SVABA产生的结果文件通常遵循VCF(Variant Call Format)格式,这是一种用于描述基因组变异的标准格式。下面我将解释你提供的结果文件中的一些关键部分:

1. *列标题*: 这是VCF文件的列标题,包括染色体名(CHROM)、位置(POS)、ID、参考序列(REF)、变异序列(ALT)、质量(QUAL)、过滤状态(FILTER)、附加信息(INFO)等。

2. *样本信息*: 列标题之后通常会列出样本信息,如FORMAT列,后面跟着的是样本的BAM文件路径。

3. *变异记录*:

- chr1 1030701 218409399:1 C ]chr1:1030974]C 18 PASS ...: 这行记录了一个变异,其中chr1是变异发生的染色体,1030701是变异的位置,218409399:1是变异的唯一标识符,C是参考序列,]chr1:1030974]C是变异序列,表示一个BND类型的变异。

- chr1 1030974 218409399:2 T T[chr1:1030701[ 18 PASS ...: 这行记录了与上面变异配对的另一个断裂点。

4. *INFO列*:

- DISC_MAPQ=22: 发现变异时使用的最小映射质量。

- EVDNC=DSCRD: 变异证据的类型,这里是"discordant read pairs",即不一致的配对读段。

- IMPRECISE: 表示变异的位置可能不精确。

- MAPQ=22: 映射质量。

- MATEID=218409399:2: 配对断裂点的ID。

- MATENM=-1: 配对断裂点的染色体名称,这里是未知。

- NM=-1: 配对断裂点的位置,这里是未知。

- NUMPARTS=0: 变异的部分数,这里是0,表示没有额外的部分。

- SCTG: 变异的详细描述,包括断裂点的染色体、位置和方向等。

- SPAN: 变异跨度的长度。

- SVTYPE=BND: 结构变异类型,这里是BND,表示断裂点。

5. *FORMAT列和样本数据*:

- GT:AD:DP:GQ:PL:SR:DR:LR:LO: 这是FORMAT列,定义了样本数据的格式,包括基因型(GT)、等位基因深度(AD)、总深度(DP)、基因型质量(GQ)、等位基因的Phred分数(PL)、正向读段的比对位置(SR)、反向读段的比对位置(DR)等。

- 后面跟着的是每个样本的这些数据的值,例如0/0:0:27:7.5:0,7.5,82.5:0:0:7.59:0表示一个样本的基因型是0/0(没有变异),等位基因深度是0,总深度是27,基因型质量是7.5等。

这个结果文件显示了SVABA检测到的一个BND类型的结构变异,包括两个断裂点的详细信息和样本的基因型数据。通过这些信息,研究人员可以进一步分析和研究变异的性质和影响。


Powered by Gridea