生物信息学
植物营养学术交流

在ubuntu下搭建转录组分析平台

xyz阅读(987)

植物基因组目录

中国春的基因组
https://urgi.versailles.inra.fr/download/iwgsc/
相关介绍:https://wheat-urgi.versailles.inra.fr/Seq-Repository/Assemblies
International Wheat Genome Sequencing Consortium(IWGCS):https://www.wheatgenome.org/

 

转录组软件目录

trinityrnaseq
https://github.com/trinityrnaseq/trinityrnaseq/wiki

CD-HIT
http://weizhongli-lab.org/cd-hit/

cufflinks
http://cole-trapnell-lab.github.io/cufflinks/

tophat
https://ccb.jhu.edu/software/tophat/index.shtml

 

bioconda使用方法

上述生信软件大多数可以用bioconda安装在虚拟环境中,便于管理

bioconda切换源
http://blog.sciencenet.cn/blog-623545-1077088.html
conda命令使用方法
https://zhuanlan.zhihu.com/p/22678445

 

Ubuntu系统设置

Ubuntu切换软件源
https://segmentfault.com/a/1190000008459472
利用proxychains在终端使用socks5代理(参考链接)

  1. proxychains安装
  2. 编辑proxychains配置
  3. 将 socks4 127.0.0.1 9095 改为你的vpn端口,比如 socks5 127.0.0.1 1080
  4. 使用方法
    在需要代理的命令前加上 proxychains4 ,如:

在ubuntu内调整分区
使用Gparted,安装方法:apt install Gparted
解决virtualbox共享文件夹问题
http://blog.csdn.net/longintchar/article/details/63252812

使用sublimetext3 配置轻量级Java环境

xyz阅读(1029)

  • 安装JDK并在环境变量中添加Java的路径

命令行代码:

setx JAVA_HOME “C:\Program Files\Java\jdk1.8.0_152”

set path_=%Path%

setx “Path” “%path_%;%JAVA_HOME%\bin”

参考链接

  • 打开Sublime Text 3的安装目录->Data->Packages->User,打开User文件夹,创建Java.sublime-build,内容如下

  • 新建测试文件Hello.java

  • 编译系统选择Java,先按下ctrl+b,在弹出的选项中选择Java,即编译出class文件,再按下ctrl+shift+b,在弹出的选项中选择Java-run,运行编译出的class文件

  • 配置完成,以后java文件 ctrl+b编译,ctrl+shift+b运行

R 如何面向对象

xyz阅读(752)

S4 标准,后面还有RC,R6

 

生物信息基础知识

xyz阅读(1131)

简单的名词解释,有兴趣可以去谷歌一下

1.什么是生物信息学
Genome informatics is a scientific discipline that encompasses all aspects of genome information acquisition, processing, storage, distribution, analysis, and interpretation.

它是一个学科领域,包含着基因组信息的获取、处理、存储、分配 、分析和解释的所有方面。

操作层面

生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测。
哲学层面
生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它是当今乃至本世纪自然科学和技术科学领域中“基因组”、“信息结构”和“复杂性”这三个重大科学问题的有机结合。

2.转录组芯片normalize

3.怎么发现新基因?选用什么数据库?原理是什么

利用EST数据库(dbEST)发现新基因和新SNPs(Single Nucleotide Polymorphisms)(EST,表达序列标签,能够克隆的全长基因序列的一部分)

从基因组DNA序列中预测新ORF. 电脑克隆原理:当测序获得一条EST序列时,它来自哪一个基因的哪个区域是未知的(随机的),所以属于同一个基因的不同EST序列之间常有交叠的区域。根据这种“交叠”现象,就能找出属于同一个基因的所有EST序列,进而将它们拼接成和完整基因相对应的全长cDNA序列。

4.fdr假阳性检验

5.根据基因序列构建进化树的计算步骤
序列相似性比较.就是将待研究序列与 DNA 或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有 BLAST 、FASTA 等. 序列同源性分析.是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有 CLUSTAL等. 构建系统进化树.根据序列同源性分析的结果,重建反映物种间进化关系的进化树。为完成这一工作已发展了多种软件包,像PYLIP,MEGA 等. 稳定性检验.为了检验构建好的进化树的可靠性,需要进行统计可靠性检验,通常构建过程要随机地进行成百上千次,只有以大概率( 70 %以上)出现的分支点才是可靠的。通用的方法使用 Bootstrap 算法.相应的软件已包括在构建系统进化树所用的软件包当中。
困难和克服方法.解决lgt (Lateral Gene Transfer )基因问题,基因的横向迁移。利用数据库(举例)排除掉lgt基因,或者用全基因组/蛋白质组序列建树

6.snp解释
Single Nucleotide Polymorphisms,单核苷酸多态性,不同个体,比如病人和正常人,基因组上的变异主要是一个核苷酸的差异。两个三个也算。
为什么重要
SNP研究是基因组领域理论成果走向应用的关键步骤。是联系基因型和表现型之间关系的桥梁。用于临床医学检验,寻找药物靶点
snp数据库举例
SNP Consortium’s database
NCBI SNP database
The Human Genic Bi-Allelic Sequences Database (HGBASE)

7.系统生物学 

定义 对基因和蛋白进行整体分析
1.整合全部组学信息,基因组蛋白组表观组
2.利用整合的信息构建描述整个系统的数学模型
3.预测在在正常情况和外界扰动下系统的演化和未来行为.
本质:既考虑元件自身作用又考虑相互作用,所以适用于生物调控网络
蛋白组
二级质谱通过将小肽序列打成二肽三肽等长度的碎片例子,进而拼接出小肽序列。一级质谱将长的肽链打成小肽,将蛋白包含的小肽种类放入数据库比对出蛋白种类。

8.非编码序列定义

非编码序列不编码蛋白质,非编码rna是非编码序列的转录本,有功能的非编码rna在基因组中的位置称为非编码基因
非编码序列在基因组中的比例
在人类基因组中占97%
非编码序列多少被转录了
编码蛋白序列,人:基因组的 ~2-3 %,线虫:基因组的 ~25 %.基因组的转录水平,人:基因组的 ≧ 90 % (40-50X), 线虫:基因组的~70% (2-3X). 绝大部分的转录产物是非编码RNA非编码基因,物种间最主要的差别也是非编码RNA.

举例

SINEs(Short Interspersed Nuclear Elements 短散在元件) as enhancers or silencers of the adjacent genes.Xist 基因调控x染色体失活(剂量补偿效应). microrna调控基因表达. 蛋白质通过非编码rna的调控途径导致疯牛.malat-1这种非编码rna基因的突变导致非小细胞肺癌.

 

9.转录本表达量表示方法
RPKM (Reads Per Kilobase of transcript per Million mapped reads)

实例:假设一个物种的基因组上只有两个基因,基因G1的外显子长8 Kb,基因G2的外显子长2 Kb。对该物种的一个样本做RNA-seq,共得到23 millions 的read,其中能够比对到G1的read 有16 million 个,能够比对到G2的有4 million 个.计算G1和G2的RPKM。

10.contig scaffold的概念 n50 l50的概念

contig 由一组相互重叠的序列(reads)组成的没有孔隙的连续片段A contig (from contiguous) is a set of overlapping DNA segments that together represent a consensus region of DNA
scaffold 由contig和gap组成的一部分基因组序列,gap,知道长度和位置但是不知道序列的区域A scaffold is a portion of the genome sequence reconstructed from end-sequenced whole-genome shotgun clones. Scaffolds are composed of contigs and gaps. scaffold按序列长度排序并从大到小编号,不同的scaffold在后续精度更高基因组版本中融合
n50 将contig/scaffold按长度从长到短排序,从最长的开始算,直到contig们的序列长度之和>50%所有contig长度和,的最后那个contig的序列长度.
l50 最后那个contig的序号
ng50 将实际测序总长替换为已知或者估计的基因组长度

11.sensitivity sn

灵敏度,真正存在的外显子中被正确预测出来的比例

Specificity sp

特异性,所有预测出来的外显子中是真正存在的外显子的比例

12.rna二级结构计算和预测

自身和临近碱基配对后自由能和最低

The nearest neighbor model is used to predict the Gibbs free energy change of RNA secondary structure formation. The free energy of each motif depends on only the sequence of that motif and the most adjacent base pairs. The total free energy is the sum of the increments.

13. lncRNA

长度>200

没有编码蛋白的能力,没有长的ORFs( >33aa)

Size: At lease > 200 nt, usually > 500 nt

Without the capacity to encode normal proteins (Without long ORFs (usually > 33 aa)) Could encode small peptide可以编码小肽

open reading frame

可读框(open reading frame, ORF)是以起始密码子开始,在三联体读框的倍数后出现终止密码子之间的一段序列。可读框有可能编码一条多肽链或一种蛋白质。当没有已知蛋白质产物时,该区域被称为可读框,而当确知该可读框编码某一蛋白时,它就被称为编码区,即一个可读框是潜在的编码区。很多情况下,可读框即指某个基因的编码序列。

14. genotype

the genetic constitution of the organism

phenotype

the composite of an organism’s observable characteristics or traits

Trait (性状)- is a distinct variant of a phenotypic characteristic of an organism that may be inherited, be environmentally determined or be a combination of the two.

15.snp分类

按位置分:

Intragenic SNPs are often categorized by function – are they in a coding region, an intron, part of the mRNA, outside the mRNA but still in the gene locus

Extragenic SNPs may be considered simply

‘genomic’ or might be labeled relative to the nearest gene, i.e. 5’ or 3’ to a gene. An ‘extragenic’ SNP may affect regulatory regions important in gene expression or other DNA functions such as DNA replication.

missense mutation 改变了氨基酸的突变,导致蛋白编码不完整,经常会是编码的蛋白失去功能

按功能分:

coding nonsynonymous(非同意) Missense, nonsense, frame shift

coding synonymous(同意)

Intronic –splice site

mRNA UTR 5′ UTR or 3′ UTR

(gene) locus region (5′ or 3′ to the gene)‘near gene’ usually means within ~2000 bp of gene

genomic/extragenic (distant from any gene)

Missense mutation: A point mutation in which a single nucleotide change results in a codon that codes for a different amino acid.

Nonsense mutation: A point mutation that results in a stop codon (nonsense codon) in a transcribed mRNA, which encodes incomplete and usually nonfunctional protein product.

16. cohort

a group of people who share a common characteristic or experience within a defined period (e.g., are born, are exposed to a drug or vaccine or pollutant, or undergo a certain medical procedure).

17.linux命令

grep: searches files for specified words or patterns.

-v display those lines that do NOT match.

-n precede each matching line with the line number.

-c print only the total count of matched lines.

-e Interpret pattern as an extended regular expression.

wc: word count, line, character and byte count.

-l: how many lines in the file

newifi d1 在padavan 固件下启用ipv6

xyz阅读(1921)

参考这篇文章: Padavan /Openwrt /LEDE下实现ipv6 nat /napt66

在newifi d1这个路由器上有些小区别

在3.4.3.9-099_7-11-12及后续的padavan版本,已经自带了napt66.ko模块只需要在/opt/etc/init.d/S01system的func_start()内加入代码并禁用ip6tables即可:

1.首先在终端中登陆路由器

在终端中输入:

vi /opt/etc/init.d/S01system

2.在func_start()中插入

insmod /lib/modules/$(uname -r)/kernel/net/napt66/napt66.ko wan_if=eth3

3.禁用ip6tables

自定义设置 – 脚本 – 防火墙规则中,加入

ip6tables -F

ip6tables -P INPUT ACCEPT

ip6tables -P FORWARD ACCEPT

ip6tables -P OUTPUT ACCEPT

4.外部网络(WAN) – IPv6设置按照引用的参考文章中的设置

5.重启路由器

搞定~

 

在Python中使用R(windows环境)

xyz阅读(1104)

1.在r中运行如下代码

前提:已安装jupyter,代码的目的在于为jupyter-notebook添加R的kernel

2.安装rpy2

建议在http://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载相应版本的wheel文件用pip安装

3.设置用户环境变量

在path项中添加r程序的bin文件夹目录,比如 C:\Program Files\R\R-3.4.2\bin

添加R_HOME ,R_LIBS_USER 环境变量,填入目录如下图所示,R_LIBS_USER项为R包的路径

添加R_USER项填入你的用户名

 

 

4.测试代码

jupyter-notebook下的测试代码

生成图片

Python下的测试代码

在工作目录下生成图片:

利用Sublime text 3 配置r语言开发环境

xyz阅读(3140)

1.安装r

首先去r官网下载r安装包并安装好,然后将r的安装路径添加到环境变量

范例:C:\Program Files\R\R-3.4.1\bin\x64

2.安装Sublime text 3以及相关的包

安装好Sublime text 3 以及SublimeREPL,SublimeTmpl,R-Box(实现自动补全)这三个包

安装方法参考之前配置Python开发环境的文章:

利用Sublimetext 3搭建Python开发环境,并安装Biopython

由于SublimeREPL插件自身的问题,它没有在默认配置里面写入r的安装路径,我们必须手动设置。在Preferences(首选项)->Plugin settings(插件设置)->SublimeREPL->Setting User中加上如下代码

 

3.设置热键

热键设置方法参考2.中引用的之前的文章

设置范例

运行r的命令行

运行写好的r脚本

4.r脚本模板设置

根据SublimeREPL官方说明,在Preferences(首选项)->Plugin settings(插件设置)->SublimeREPL->Setting User中加上如下代码

在Preferences(首选项)->Plugin settings(插件设置)->SublimeREPL->Setting Default中加上如下代码

模板文件设置参考2.中引用的之前的文章

模板写法参考

这样就可以实现按下ctrl+alt+shift+r新建r语言脚本文件了。

南农肥料网,为您提供最贴心的服务

欢迎关注知乎主页欢迎关注github主页