0

基因组语言

中国,大连——上周,一家名叫Complete Genomics的公司公布了基因组排序服务的10名新客户。该公司并未对具体价格进行说明,但称其目标是在一年内实现以5,000美元的价格提供这项服务。

让我印象深刻的不是声明本身,而是首席执行官的名字Cliff Reid,我在20世纪80年代就认识一个Reid,他当时在一家名叫Verity的内容搜索公司担任CEO。我几乎立即就想到了这两者间的联系。从某种意义上讲,基因是构成人类(或其他任何生物)的指令性语言。而语言则是表达意义的符号。当然,这个人正是我在20世纪80年代认识的那个Cliff Reid。

Aleppo

A World Besieged

From Aleppo and North Korea to the European Commission and the Federal Reserve, the global order’s fracture points continue to deepen. Nina Khrushcheva, Stephen Roach, Nasser Saidi, and others assess the most important risks.

到目前为止,Complete Genomics用9100万美元募集款取得了令人振奋的成绩。它已经建成了一家基因组排序工厂,并计划在未来几年内再建成几家。许多学术和商业研究机构都需要这样的工厂,有这种需求的还包括其他几个国家。

我对这背后的含义颇感兴趣。目前,基因就像是用无法读懂的语言写成的小说。其中承载着海量的信息,但我们无法读懂其中的含义。想象你拿到一本俄文版托尔斯泰的 《战争与和平》 (假设你不懂俄语),并试图搞明白这个故事在讲些什么。但那是不可能的。在Reid加盟Verity的时候,这差不多能够代表人们对于自然语言的理解。

另一方面,我们已经开始理解某些词汇——也就是看似与过往某些事件相关的特定的遗传变异。具体到基因领域,这些事件代表的是疾病和健康问题。正如通常需要几种因素共同作用才会造成事故一样,同样也需要若干种遗传变异,再加上周围环境因素的共同作用,才会诱发某种疾病。基因常常共同作用,有时在个人饮食或行为因素的辅助下,才会导致健康问题。

人类在基因组领域面临两大挑战。其一是单纯发现可能导致特定疾病的独立或者组合基因。仅这一点就会大有用处。如果掌握了足够的数据,我们就能搞清同一种“疾病”实际上是一系列机能失调之和,某些已知的治疗方法会对其中这样或那种疾病产生效果,还有些疾病可能根本无法治愈。

在这方面,单纯的对比关系即可解决问题。赫赛汀用于治疗由BRCA基因引发的乳腺癌患者很有效果,但却对其他类型的乳腺癌患者不起作用。我们不清楚这其中的原因,但却清楚这样一种关系。

第二大挑战是理解基因怎样通过相互作用或与其他因素互动来引发健康问题,从而在了解疾病发生发展进程的基础上,发明新的预防和治疗措施。当然,这项挑战难度更大也更有趣。从某种意义上讲,这相当于匹配词汇和理解文意之间的区别。

因此Reid在新的市场中找到机会并不值得奇怪。Complete Genomics及其竞争者将会创造海量数据。CGI的优势不仅在于能廉价排列基因组序列,还在于能提炼数据,一一列出所有基因变异。换言之,在多数研究中问题不仅围绕着整个基因组,也是围绕着任何个人基因与标准之间的相对差异。

这种差异既有共性的方面,例如蓝色眼睛和棕色眼睛的差异,也有克罗恩氏症易感人群和非易感人群之间的差异。此外还有单纯因基因“遭受破坏”而导致的差异,它不是一种变异,而仅仅是一种错误。其中的绝大多数都没有危害,真正有危害的变异存活时间太短,也因此不为人知。

研究人员的任务是从所有数据中找到其中的意义。这一过程不过才刚刚开始,可能要持续多年才会结束。在有些研究人员寻找统计关系的同时,还有些人在研究基因之间的相互作用。

无论哪种研究人员,了解基因组序列都非常重要。但没有相关的病历记录基因就没有任何意义,这就像是俄文小说——或者任何一种文字的小说——如果没有对俄国历史的相应了解,单纯分析小说并没有多少意义。

需要征得基因排序对象的许可才能得到病历记录。此外还需要大量数据处理,病历记录才能便于使用。其中许多信息根本没有记录。还有许多信息仍然以纸为载体,或者存在于扫描影像、保险公司记录和药房交易。人们用标准的语言描述疾病,但在许多情况下包含这种语言的记录可以还需要挖掘。

当前许多发达国家建立电子病案的行动将直接改进医疗卫生状况,此外还能大大提高信息流动性,从而为基因和其他医学研究提供帮助。

Support Project Syndicate’s mission

Project Syndicate needs your help to provide readers everywhere equal access to the ideas and debates shaping their lives.

Learn more

现在我们有能力以越来越低的成本实现基因组排序,同时我们正逐步实现相关医疗信息的电脑化存取。像Complete Genomics这样的企业正在开发软件,处理这方面的信息。

当然,现在仍然有海量信息有待搜集和处理,同时还需要开展海量的研究和发现工作。但我们很难不对医学知识日新月异的发展持乐观态度。五年内的挑战是通过更有效的预防手段、药物和更好的护理将所有已经掌握的知识应用到实际中去。