  
- 积分
- 97
- 威望
- 97
- 包包
- 3142
|
下一代序列分析:竞赛已经开始
1 i7 y8 y) J: a: X. c" \ n' _0 J/ o9 X
Andreas von Bubnoff2 e5 a7 @9 L, ]" v7 F! r2 E( B; @
! k7 {6 M! w! }- Q. k
Cell 132, 721 – 723, March 7, 2008
7 @9 E9 e& p! ?/ l( l6 [
8 t& \/ b. r, B6 N( X6 q
4 Y3 T: T) W; E {2 f+ X! d* }' L% ?" T, P" N
1000美元的基因组可能还要等很多年,但是随着比传统桑格更快速更便宜的下一代序列分析(NGS)技术的出现,对几百个甚至几千个人基因组进行大规模序列分析正迅速成为现实。
: L6 A- w3 k( ]+ F \& B: [# Y# ~2 I# ]8 r6 }: k2 L Z
5 p" [4 W" e9 u* E2 z: o
& I$ p0 m& f% R y8 x |3 f% j 使用常规桑格序列分析仪器对人基因组30亿个碱基对的序列分析用了3到4年,价格约为3亿美元。但是比常规桑格仪器要快速和便宜200倍的下一代序列分析(NGS)技术在商业上的成功,引发了开展新的序列分析大项目的旋风。哈佛医学院的George Church说:“200倍的价格下降并不会经常出现。”Church是Knome公司的共同创建人。Knome去年11月宣布将提供价格为35万美元的人全基因组序列分析。Church还启动了“个人基因组计划”,目标是在两年内对100000个人的基因组的相关区域进行序列分析。
: C t) p; H' n2 [ \" \6 p x8 [ y6 C- w
一个包括国立卫生研究院在内的国际集团1月宣布了“1000个基因组”计划,目标是从包括非洲、日本、中国、美国和意大利等国家和地区的世界范围内对1000个人的基因组进行序列分析。英国Wellcome基金会桑格研究所是该国际集团的一部分,该研究所的Richard Durbin说:“这种项目在几年前是不可想象的。”1000个基因组项目的另一个参与者,中国深圳的北京基因组学研究所已启动了它自己的对100个中国人基因组的序列分析。位于马里兰州Rockville的J. Craig Venter研究所的创建人和主席Craig Venter说,他的研究所计划使用新技术,明年将对10到50个人基因组进行序列分析,在10年内对10000个人基因组进行序列分析。另外,一个名为太平洋生物科学的公司几星期前宣布,他们正在开发下一代序列分析仪器,最终可在4分钟内以1倍(1x)覆盖率对双倍体人基因组进行序列分析。该公司计划在2010年前销售该仪器系列的第一代产品。对以前不曾有过的大量人基因组进行更便宜更快速的DNA序列分析的竞赛正在启动。
$ q; Q+ E% E5 r4 K& @
% e/ i" Q/ H$ t! f购置硬件
! Q' a# a( F; E
; K' W( s+ p: @$ [ 有几家公司拥有商业化的NGS平台。目前由Roche拥有的454生命科学公司自2005年开始销售NGS序列分析仪器。另一个该类仪器是2007年1月开始商业化的Illumina公司的基因组分析仪。去年10月,Applied Biosystems (ABI)正式推出了他们的NGS序列分析仪。第四个公司是Helicos BioSciences,它在上个月宣布得到了第一份定单。
1 @/ A) ~' o. A* Q- X$ E, R0 y4 U0 h; X# s0 M1 j- ^9 s
除了购买商业平台,用户也可使用George Church提供的组件构建自己的NGS系统。Church把他的开放资源方法比拟为Linux操作系统。据Church估算,构建这样一个自己的NGS系统约需花费120000美元,这是大多数商业NGS平台价格的四分之一。5 s9 J( ]6 ?! ?4 Q4 [
) M _) C; ?# z$ \2 ~3 a9 z8 \" R
大多数NGS技术删除了在传统桑格序列分析中使用的细菌克隆步骤,而采用对分离到的单个DNA分子进行扩增,并以大规模的平行方式对这些DNA分子进行分析。NGS技术将几十万或几千万的单链DNA分子固定在诸如玻片或玻珠的固相表面上。对454平台而言,要使DNA单链与玻珠连接,然后对每个有DNA的玻珠进行处于油中的单独水滴的PCR,产生每条DNA链的克隆。然后使玻珠与DNA聚合酶混合,将混合后的玻珠放入放入含有一百多万个微孔的板上,使每个微孔中有一个玻珠。然后使核苷酸依序流过微孔,随着每一种核苷酸的加入和DNA互补链的形成,焦磷酸得以释放,可通过化学闪光进行检测。( Z" S* i; m1 q! D3 J
; S& B1 n! s0 `; W& L 不同的NGS平台有几方面的不同,例如阅读长度和在平行序列分析中可分析的DNA分子数量会有所不同。传统的桑格序列分析仪器分析末端标记的DNA链,可以同时读出100个DNA分子的800个碱基。虽然NGS能平行阅读更多的DNA分子,但阅读长度较短。例如,454公司的GS FLX仪器可阅读400000个长度为250碱基的DNA分子。Illumina公司的基因组分析仪和ABI公司的SOIiD平台可以阅读几千万个长度为30 – 50碱基的DNA分子。在加拿大温哥华的基因组科学中心的生物信息学主任Steven Jones说,上述三个平台的每个碱基的价格有所不同,用454公司仪器得到的序列比传统的桑格技术要便宜10倍,Illumina和ABI公司的序列则要便宜100倍。
6 H! |* P( t+ a3 l7 w1 m: ]8 o2 a6 M6 H0 f# c' f
开辟新的研究途径
) d6 T7 F$ S$ }4 @% r" F" c* K1 w) _( w2 Y1 D+ j
NGS技术使许多雄心勃勃的序列分析项目成为可能。德国Leipzig的马普进化和人类学研究所的项目主任Svante Paabo说,完全是因为有了高通量序列分析技术,才使穴居人的基因组序列分析成为可能。这个课题的巨大挑战是在穴居人骨中,只有1%—6%的DNA属于穴居人,其余的DNA来自细菌污染。Paabo认为,用454仪器进行序列分析的关键是确实要在玻珠上进行单个DNA分子的PCR。他指出的这一点使更稀有的DNA得到检测的机会。Paabo还指出:“DNA聚合酶必须与玻珠上的单一分子一起反应。”如果使用传统序列分析,DNA要先在一个混合物中进行扩增,要与几百万个非人类DNA进行竞争。, ^# E2 x9 o# M {* j2 b% W
t: x8 S1 F7 F" s Paabo说,454序列仪有相对较长的序列阅读,阅读长度为250碱基,这是古DNA的理想阅读长度。原因是至少要有长度为30碱基对的高质量阅读才能保证细菌序列不呈现与人序列的明显匹配。Paabo的研究小组2006年报道,在筛选了总数为2000万个碱基对后,得到了100万个穴居人DNA碱基的序列。Paabo计算出在一台454仪器上,要有2000次运行才能得到穴居人全基因组的1x覆盖。Paabo说,他可以很快发表使用来自克罗地亚的原始穴居人样品以及另外两个来自德国和西班牙的样品,得到的1%—2%穴居人基因组序列。) ~. V# J7 k$ T2 M6 \$ U
2 L. z+ L: x, g, m4 r# X p 454平台具有的相对较长的阅读也可用来进行细菌16S rRNA基因区域的序列分析,以便研究细菌的多样性。Woos Hole海洋生物学实验室的Mitchell Sogin说,他之所以使用454平台是因为需要有长度至少为100碱基的片段,以便可靠地测定某个序列怎样与已知细菌rRNA序列相关联。Sogin说,我们需要有100碱基对级别的连续信息来完成研究。他注意到,对他的分析来说,用454平台进行序列分析比传统序列分析要便宜100倍。例如,在2006年Sogin对来自海水的130000个16S rRNA基因进行了序列分析,发现每一升海水至少含有25000个不同种类的微生物。科罗拉多大学的Rob Knight也使用454仪器对细菌16S rRNA基因片段进行序列分析。Knight与圣路易斯华盛顿大学的Jeffrey Gordon合作,对肥胖双胞胎和正常双胞胎的肠中细菌多样性进行比较。Knight说,之所以使用双胞胎是要找出来自双胞胎个体和来自遗传的饮食和环境影响因素,目标是得到同时发生肥胖或不同时发生肥胖的双胞胎,研究系统变化。
9 s! p' `( z2 T2 f2 ]' H9 o, X
Y/ e. J" s N' ~: G 尽管对某些研究项目来说,454仪器的较长阅读长度是最好的选择,但对另一些项目来说,Illumina仪器产生的较短阅读长度是更好的选择,后者包括与染色质免疫沉淀(ChIP)测定结合的序列分析(在ChIP中,用抗体分离与蛋白质结合的DNA分子)。不久之前这些DNA的分析还是要通过在微阵列芯片上与DNA探针的杂交(称为ChIP芯片)。然而,最近有几项研究通过一种名为ChIP-Seq的新方法,使用Illumina的NGS平台对分离到的所有DNA进行序列分析和计算。在马里兰州Bethesda的国立心脏、肺和血液研究所的Keji Zhao及其研究团队使用ChIP-Seq对20种不同类型的组蛋白修饰进行了第一个人全基因组范围的定位。Zhao说,Illumina的仪器非常适于ChIP-Seq,因为每次可阅读3000万个DNA,而454仪器每次只能对几十万个DNA进行序列分析。Zhao还说:“我们最需要的是序列数目。我们只需要用25个碱基对便可鉴定基因组中的任何单一序列。”
{& z8 q0 L. Z: e* R& d
3 X: k2 P0 K0 N" e, u3 k% {; Z* | NGS可用于对已完成序列分析和拼装的基因组中的基因进行序列分析(非从头开始的序列分析),例子之一是ChIP-Seq。对这种应用来说,较短的阅读是足够的,因为阅读长度只需要满足在已拼装的基因组中找到单一匹配。但是NGS阅读长度对从头开始序列分析则不够长,因为很难对短的阅读序列进行拼装,所以传统的桑格序列分析仍有一席之地。国立人类基因组研究所的Jeffery认为,目前使用的新方法无法像桑格技术一样对人类基因组进行有效的拼装。MIT和哈佛大学Broad研究所所长Eric Lander也对此表示赞同,他认为新序列分析技术目前还不能对哺乳动物基因组进行拼装。, N( u, q% D0 n R3 G: T" r
; G- R) e1 e1 S9 g1 A
但是麻省剑桥的Broad研究所的基因组测序和分析课题的共同负责人Chad Nusbaum指出,使用454仪器至少可以进行细菌序列的从头拼装。Nusbaum还指出,在用传统方法对细菌进行序列分析时,经过6—8x覆盖,可达到很好的拼装,而使用454序列分析仪时,得到很好的拼装需要有15x覆盖。Nusbaum认为,因为需要额外的覆盖,所以454序列仪比传统桑格序列分析方法便宜不到10倍。他还指出,由于Illumina仪器的阅读长度更短,目前还不能进行从头拼装,但很快可以做到。Nusbaum正在结合使用传统序列分析和454及Illumina平台,对细菌病原李斯特菌的基因组进行从头序列分析。! L3 S) r8 |9 S8 z+ o n! K: I
" E- k8 R/ N- Z4 v
下一代序列分析正在个人化" Y3 Q' F1 W$ a7 D# m: f5 g% O
6 @ k" v: |! m
2006年10月,X奖基金会宣布为第一个在10天内,以每个基因组1万美元的成本和99.999%的精确度,对100个人基因组的98%进行序列分析的团队,提供总计1千万美元的奖金。基因组学X奖科学顾问委员会的共同主席Venter说,目前的技术离该目标还很远。他强调:“我不认为任何现有的商业技术有赢得X奖的机会。”0 E1 k6 J$ C+ N
& P) B1 y4 t3 R2 ^) W& Z8 I m; @/ w Broad研究所的David Altshuler指出,对一个人基因组进行序列分析的价格目前是几十万美元。Lander说,1000美元的基因组序列分析需一代人或更长的时间。也有一些人较为乐观。随着诸如纳米孔序列分析等下二代序列分析技术的出现,一些人认为1000美元基因组在10年内可实现。Venter说:“如果将情况进行统计学计算,5年之内便可出现1000美元基因组。”Church强调指出,这种价格可以使每个人都进行全基因组的序列分析。由于突然有成千上万的人可以负担对其自身基因组进行分析以及对与医学相关或不相关的特性进行研究,这将有大量的序列分析工作有待完成。他还指出,世界上有60亿人,每个人有60亿碱基对。他相信大多数序列分析是与已得到拼装的人基因组蓝图作比较,进行再次序列分析。5 v: f+ K0 e& I) v0 R* H/ B
- f, Q/ G' F8 I6 Y1 ~7 o9 ~8 c Venter认为,在完成更多更详尽的个人从头序列分析之前,还不能马上将工作集中到再次序列分析上。我们对不同的人基因组之间存在的变化还了解不多。为了提高已有序列草图的质量,Venter使用了精度较高、有较长阅读的传统桑格序列仪。他最近发表了他自己基因组序列的改良草图,对两套染色体的覆盖为99%。Lander指出,由于基因组之间的不同,对多人进行比较很重要,以便找出哪些变化有相关性。他说:“你所要做的是研究许多人的基因组,你最后可以说,瞧,我在相同基因中找到了一个突变。”
6 D0 u+ ?5 u2 ~& q; d" o [
4 i4 @% r- U4 MSNP的价格?! O$ Y4 T# N& F7 @3 X" f# E
. X8 S8 v* |" I% L: U4 ?6 U4 N
NGS技术也可用于证实和深化在全基因组关联研究中鉴定的单核苷酸多态性(SNP)和某些疾病的关联。至今已鉴定了包括风湿性关节炎、前列腺癌、1型和2型糖尿病在内的100多种关联。目前一些研究在对病人进行从HapMap项目得到的SNP(HapMap项目已在人基因组中鉴定了几百万个SNP)的微阵列测试。这些研究面临的主要挑战是找出可引起疾病的相关生物学变化。为应付这项挑战,Altshuler使用Illumina NGS平台,在几百个健康人和糖尿病患者中对与2型糖尿病相关的SNP周围的区域进行“深化序列分析”。Altshuler说:我们正在对许多人的糖尿病基因座周围区域进行序列分析,不仅要找出一般SNP,也要找出罕见(改变的)SNP,以便更全面地理解SNP怎样变化,怎样影响疾病。他指出,我们对实际发生的遗传变化的真实原因尚一无所知,这意味着,我们可使用序列分析找出每个可能的变化,识别引起疾病的突变。在另一个研究项目中,在Albuquerque的新墨西哥州立大学的Jeremy Edward计划使用NGS对几千个黑素瘤患者的整条6号染色体进行序列分析。他说:“我们在尝试找出与黑色素瘤患者低生存率有关的新SNP。” @. w4 x+ @: b' E5 z
. E0 ^: H" o7 A; U) a3 V' v
Altshuler注意到其他序列分析结果也可用于改进目前使用的SNP微阵列。他指出,由于技术的发展,在未来几年会有几百人或几千人得到序列分析,这将使目前的SNP芯片升级,在芯片上将有全部的普通遗传变化。序列分析在足够便宜时,将取代SNP芯片。Altshuler还指出,目前测试1百万个SNP的价格为几百美元,大大低于一个人基因组序列分析所需要的几十万美元。Altshuler认为,如果能以几百美元的价格对人进行精确序列分析,序列分析肯定会取代基因定型分析。
) H0 G: S' r$ z$ }4 P! h' S
* G- N8 K( L8 S% n# ]9 D Church希望在他的“个人基因组计划”中,能在两年内对100000个人的基因组的1%进行序列分析,他认为这是得到有统计意义数据所需要的数目。该计划将使遗传信息与物理性质和医学特性相关联,序列分析将集中在编码区域。Church指出,影响医学特性的突变中有95%可影响编码区域。进入该计划的第一批10个志愿者已提供了血液、唾液和皮肤样品,普通大众进入该计划也指日可待。6 S5 e! m- V$ O- r
- j. Z' U& n$ \4 F7 g" N' f对未来发展的浅见4 R; k+ O- p, p/ \# ?) \
8 K9 r f" ^1 i7 C0 q6 ~% [3 U& T4 i 将来的序列分析会是什么样?公司和研究机构都在开发下二代序列分析技术。例如,纳米孔序列分析检测将单个DNA分子从微孔中拉出时的电流变化。加州大学Santa Cruz分校的David Deamer正在开发纳米孔序列分析,他认为该技术可获得很长的阅读长度,因为可从小孔中拉出长度为几千碱基的DNA。Deamer预测该序列分析装置会很便宜,批量生产后的价格约为几千美元。纳米孔序列分析也可节约制备样品的费用,因为只需要纯化DNA,不需要扩增步骤。Deamer的研究小组使用由细菌蛋白组成的天然纳米孔,其他人使用人工纳米孔拉出DNA链。Deamer预期纳米孔序列分析可在一年后进行演示,但要超过目前的NGS平台的速度还需要几年时间。Deamer说:“我们的目标是1000美元基因组。”; e$ x* I, L; W4 D# u
6 Q' Z. x; H9 N, Y7 m. z! o8 P2 d 目前还不清楚谁会赢得1000美元基因组的竞赛或赢得X奖,但是正如Lander指出的,比赛是第一个冲过终点线的人获胜,但这不是科学发展的方式。Lander补充道:“随着序列分析技术的提高,可以满足不断增长的需求和任务。在ChIP-Seq之后,下一个最简单的问题是突变探测。最困难的问题是基因组的从头拼装。目前每个人都在进行这方面的工作。”Lander本人对技术没有特别的偏好,他说:“我在所有的技术中都看到了潜在的优点。各种不同的方法都可为科学服务。所有的技术都可为科学进步做出贡献,一定要不断开发新技术。”$ P" ?( B$ F. d3 | s% x( N
7 C# W5 C& k+ C本文转自建人先生原创,感谢 |
|