科学普及

前沿科普

6-14 Weblogo:DNA序列自己的“脸”

日期:2006-06-14  访问次数:3551

蛋白结合位点常常是以“共有性序列”(consensus sequences)表示的,比如说TATA(A/T)A(A/T),这种方式表述了在任意位置的大部分核苷酸,但是没有说明清楚许多可变的情况。因此,人们发明了多种序列表述方法。

早在1991年,美国健康研究院NIH生物学家Tom Schneider发明了一种可变的,图标形式的记录方法:sequence logos。他利用每个位置的高度来表示其保守程度,这样特征高度就反映了相对的变化频率,比如说一个consensus sequence位置上可能是C或者T,sequence logos上C的高度代表了其通常比T出现的频率多5倍。

但是之后有些科学家比如来自加州大学伯克利分校的Steven Brenner认为Schneider的这种方法“非常不适合生物学家运用”,因此在1994年,一位从英国剑桥大学的研究生Brenner发明了一种称之为Weblogo的序列表述Web版本,这一方法经过了他10年的时间完善,在2004年终于得以公布。

这个Weblogo基于多序列比对信息,把多序列的保守信息通过图形表示出来。每个logo由一系列碱基(氨基酸)组成,在每一个序列位置上用总高度表示此位置上的序列保守性,用碱基(氨基酸)字母的高度表示出现的频率。比较于sequence logos方法,Weblogo改进了特异fonts产出的能力——可以从position weight matrices而不是aligned sequences建立logo,并且也将基因组序列偏爱性(比如GC含量)考虑在内。(来源:生物谷)