生物信息学
植物营养学术交流

生物信息基础知识

简单的名词解释,有兴趣可以去谷歌一下

1.什么是生物信息学
Genome informatics is a scientific discipline that encompasses all aspects of genome information acquisition, processing, storage, distribution, analysis, and interpretation.

它是一个学科领域,包含着基因组信息的获取、处理、存储、分配 、分析和解释的所有方面。

操作层面

生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测。
哲学层面
生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它是当今乃至本世纪自然科学和技术科学领域中“基因组”、“信息结构”和“复杂性”这三个重大科学问题的有机结合。

2.转录组芯片normalize

3.怎么发现新基因?选用什么数据库?原理是什么

利用EST数据库(dbEST)发现新基因和新SNPs(Single Nucleotide Polymorphisms)(EST,表达序列标签,能够克隆的全长基因序列的一部分)

从基因组DNA序列中预测新ORF. 电脑克隆原理:当测序获得一条EST序列时,它来自哪一个基因的哪个区域是未知的(随机的),所以属于同一个基因的不同EST序列之间常有交叠的区域。根据这种“交叠”现象,就能找出属于同一个基因的所有EST序列,进而将它们拼接成和完整基因相对应的全长cDNA序列。

4.fdr假阳性检验

5.根据基因序列构建进化树的计算步骤
序列相似性比较.就是将待研究序列与 DNA 或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有 BLAST 、FASTA 等. 序列同源性分析.是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有 CLUSTAL等. 构建系统进化树.根据序列同源性分析的结果,重建反映物种间进化关系的进化树。为完成这一工作已发展了多种软件包,像PYLIP,MEGA 等. 稳定性检验.为了检验构建好的进化树的可靠性,需要进行统计可靠性检验,通常构建过程要随机地进行成百上千次,只有以大概率( 70 %以上)出现的分支点才是可靠的。通用的方法使用 Bootstrap 算法.相应的软件已包括在构建系统进化树所用的软件包当中。
困难和克服方法.解决lgt (Lateral Gene Transfer )基因问题,基因的横向迁移。利用数据库(举例)排除掉lgt基因,或者用全基因组/蛋白质组序列建树

6.snp解释
Single Nucleotide Polymorphisms,单核苷酸多态性,不同个体,比如病人和正常人,基因组上的变异主要是一个核苷酸的差异。两个三个也算。
为什么重要
SNP研究是基因组领域理论成果走向应用的关键步骤。是联系基因型和表现型之间关系的桥梁。用于临床医学检验,寻找药物靶点
snp数据库举例
SNP Consortium’s database
NCBI SNP database
The Human Genic Bi-Allelic Sequences Database (HGBASE)

7.系统生物学 

定义 对基因和蛋白进行整体分析
1.整合全部组学信息,基因组蛋白组表观组
2.利用整合的信息构建描述整个系统的数学模型
3.预测在在正常情况和外界扰动下系统的演化和未来行为.
本质:既考虑元件自身作用又考虑相互作用,所以适用于生物调控网络
蛋白组
二级质谱通过将小肽序列打成二肽三肽等长度的碎片例子,进而拼接出小肽序列。一级质谱将长的肽链打成小肽,将蛋白包含的小肽种类放入数据库比对出蛋白种类。

8.非编码序列定义

非编码序列不编码蛋白质,非编码rna是非编码序列的转录本,有功能的非编码rna在基因组中的位置称为非编码基因
非编码序列在基因组中的比例
在人类基因组中占97%
非编码序列多少被转录了
编码蛋白序列,人:基因组的 ~2-3 %,线虫:基因组的 ~25 %.基因组的转录水平,人:基因组的 ≧ 90 % (40-50X), 线虫:基因组的~70% (2-3X). 绝大部分的转录产物是非编码RNA非编码基因,物种间最主要的差别也是非编码RNA.

举例

SINEs(Short Interspersed Nuclear Elements 短散在元件) as enhancers or silencers of the adjacent genes.Xist 基因调控x染色体失活(剂量补偿效应). microrna调控基因表达. 蛋白质通过非编码rna的调控途径导致疯牛.malat-1这种非编码rna基因的突变导致非小细胞肺癌.

 

9.转录本表达量表示方法
RPKM (Reads Per Kilobase of transcript per Million mapped reads)

实例:假设一个物种的基因组上只有两个基因,基因G1的外显子长8 Kb,基因G2的外显子长2 Kb。对该物种的一个样本做RNA-seq,共得到23 millions 的read,其中能够比对到G1的read 有16 million 个,能够比对到G2的有4 million 个.计算G1和G2的RPKM。

10.contig scaffold的概念 n50 l50的概念

contig 由一组相互重叠的序列(reads)组成的没有孔隙的连续片段A contig (from contiguous) is a set of overlapping DNA segments that together represent a consensus region of DNA
scaffold 由contig和gap组成的一部分基因组序列,gap,知道长度和位置但是不知道序列的区域A scaffold is a portion of the genome sequence reconstructed from end-sequenced whole-genome shotgun clones. Scaffolds are composed of contigs and gaps. scaffold按序列长度排序并从大到小编号,不同的scaffold在后续精度更高基因组版本中融合
n50 将contig/scaffold按长度从长到短排序,从最长的开始算,直到contig们的序列长度之和>50%所有contig长度和,的最后那个contig的序列长度.
l50 最后那个contig的序号
ng50 将实际测序总长替换为已知或者估计的基因组长度

11.sensitivity sn

灵敏度,真正存在的外显子中被正确预测出来的比例

Specificity sp

特异性,所有预测出来的外显子中是真正存在的外显子的比例

12.rna二级结构计算和预测

自身和临近碱基配对后自由能和最低

The nearest neighbor model is used to predict the Gibbs free energy change of RNA secondary structure formation. The free energy of each motif depends on only the sequence of that motif and the most adjacent base pairs. The total free energy is the sum of the increments.

13. lncRNA

长度>200

没有编码蛋白的能力,没有长的ORFs( >33aa)

Size: At lease > 200 nt, usually > 500 nt

Without the capacity to encode normal proteins (Without long ORFs (usually > 33 aa)) Could encode small peptide可以编码小肽

open reading frame

可读框(open reading frame, ORF)是以起始密码子开始,在三联体读框的倍数后出现终止密码子之间的一段序列。可读框有可能编码一条多肽链或一种蛋白质。当没有已知蛋白质产物时,该区域被称为可读框,而当确知该可读框编码某一蛋白时,它就被称为编码区,即一个可读框是潜在的编码区。很多情况下,可读框即指某个基因的编码序列。

14. genotype

the genetic constitution of the organism

phenotype

the composite of an organism’s observable characteristics or traits

Trait (性状)- is a distinct variant of a phenotypic characteristic of an organism that may be inherited, be environmentally determined or be a combination of the two.

15.snp分类

按位置分:

Intragenic SNPs are often categorized by function – are they in a coding region, an intron, part of the mRNA, outside the mRNA but still in the gene locus

Extragenic SNPs may be considered simply

‘genomic’ or might be labeled relative to the nearest gene, i.e. 5’ or 3’ to a gene. An ‘extragenic’ SNP may affect regulatory regions important in gene expression or other DNA functions such as DNA replication.

missense mutation 改变了氨基酸的突变,导致蛋白编码不完整,经常会是编码的蛋白失去功能

按功能分:

coding nonsynonymous(非同意) Missense, nonsense, frame shift

coding synonymous(同意)

Intronic –splice site

mRNA UTR 5′ UTR or 3′ UTR

(gene) locus region (5′ or 3′ to the gene)‘near gene’ usually means within ~2000 bp of gene

genomic/extragenic (distant from any gene)

Missense mutation: A point mutation in which a single nucleotide change results in a codon that codes for a different amino acid.

Nonsense mutation: A point mutation that results in a stop codon (nonsense codon) in a transcribed mRNA, which encodes incomplete and usually nonfunctional protein product.

16. cohort

a group of people who share a common characteristic or experience within a defined period (e.g., are born, are exposed to a drug or vaccine or pollutant, or undergo a certain medical procedure).

17.linux命令

grep: searches files for specified words or patterns.

-v display those lines that do NOT match.

-n precede each matching line with the line number.

-c print only the total count of matched lines.

-e Interpret pattern as an extended regular expression.

wc: word count, line, character and byte count.

-l: how many lines in the file

赞(1)
转载请联系:superxyz@qq.vip.com南农肥料网 » 生物信息基础知识

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

南农肥料网,为您提供最贴心的服务

欢迎关注知乎主页欢迎关注github主页