“基因银行” 谁的霸权


  生物经济,是技术投入高、资本投入高的经济形态,是在农业经济、工业经济、信息经济之后出现的新的经济模式。在生物经济时代,生产资料是各种生物遗传资源,包括植物种子、动物种苗、微生物种苗、功能基因。生物遗传资源作为生物经济的战略资源,争夺它们的激烈程度不亚于对化石能源等其他生产资料的争夺。

  转基因生物新品种的生产环节产业链可以分为四个环节: 1.采集环节,采集少量的遗传资源样品,2.基因信息分析环节, 3.合成环节,大规模制造生物产品,4.销售环节。基因信息分析环节最关键。发达国家依靠其在工业时代和信息时代取得的技术和资金优势,使用地球上大部分遗传资源,通过控制基因信息产业来控制生物经济,发展中国家却受技术、资金的制约,大都仍处于遗传资源无偿提供者的地位 1。

  基因信息央行

  在基因研究的前期,基因研究人员需要访问分布于多个数据源,使用不同的工具查询相关信息,汇集表达不一的查询结果,才能确定是否获得了新基因,研究者在获取已有基因信息上往往被困于“不能取出”的数据迷宫之中。基因研究人员获得了新基因之后,由于信息存贮所采用的格式、文本类型、软硬件系统的不统一,难以将新基因的信息上传到数据库中,陷入“不能存入”的尴尬境地,不能及时把自己的成果公开,难以证明自己的发现权。 是否是第一发现人是科研人员获得的诺贝尔奖的重要条件,因此,在生物科技领域,发现权之争非常激烈。 1983-1991,法国和美国科学家就艾滋病病毒发现权的争议,就轰动了全世界。

  美国国立卫生研究院全国生物技术研究中心(national center for biotechnology information, NCBI)整合及完善了信息资源管理体系,建立了基因银行数据库(GeneBank),该数据库最大的特点就是:赋予基因信息以流动性,基因信息能被自由获取和储存,就像到银行存取款一样方便。这也是该数据库被命名为“基因银行”的原因之一。

  基因测序者在得到基因序列之后,登陆GeneBank,与其中已有的基因序列进行对比,来确定是否获得了新的基因序列,来确定新旧基因的相识程度。新基因序列在该数据库上被公开后,会被给予一个基因登记号,以表明基因测序者所享有的发现权,从而完成新基因的认定过程。

  GeneBank的独门绝技是生物云计算, 用户可以在线提交分析需求,并自主设计参数完成分析结果,利用BLAST等数据分析软件进行序列对比、物种分类。GeneBank已经成为世界权威的基因序列登记库,已经被科学共同体所接受,发表学术论文往往需要提供基因登记号。

  除NCBI之外, 欧洲生物信息学研究所( EBI) 建立了核酸序列数据库EMBL、日本信息生物学中心( CIB) 建立了核酸序列数据库DDBJ、瑞士生物信息研究所和欧洲生物信息学研究共同建立了蛋白质序列数据库SWISS-PROT。 这些基因教父们掌握了基因测序产业所生产的基因信息,建立了基因信息一级数据库,从事基因信息认定产业。

  NCBI、EBI、 CIB,就相当于首次发行货币所形成的全球三大中央银行:美联储、欧洲央行、日本央行,“基因登记号”就是他们发行的“货币”,基因测序工程师只能用基因信息去换取,NCBI们是基因市场的建设者和监督者,垄断了新基因的公开发布渠道,在赋予基因信息以流动性的时候,掌握了全球的基因信息,可以说是霸权在握。

  如《信息霸权的国际政治学思考———兼论美国的信息霸权》是这样界定的“信息霸权是指信息技术发达国家利用技术优势(如制网权) 妨碍、限制或压制他国对信息的自主动用,以谋求政治、经济和军事等利益。”,信息霸权巩固了信息发达国家在国际政治领域上的主导地位,而对发展中国家而言,则造成了对其主权的强烈冲击 2。

  美国依靠人们日常使用的谷歌、雅虎、亚马逊、推特等网络服务公司在信息传播、发布等领域里建立起全球主导地位,使得全世界网络用户几乎完全受制于美国跨国公司提供的信息服务。由此美国确立其信息垄断地位,对全球的信息进行严密控制,从而自然实现对全世界信息的统治,在全世界建立和推行全球信息霸权。美国政府正是通过对信息发布方式、信息传播渠道的垄断,实现了对信息的最终界定和掌控,但是,百度打破了谷歌公司对搜索技术领域垄断 3。

  包括中国国家知识产权局 (SIPO)在内的全球各大专利局, 在新颖性的地域认定时,将现有技术的范围确定为全世界范围为公众所知的技术,这就包括了在互联网上所公开的GeneBank的基因序列,这就强化了GeneBank等在基因专利审查中的所实际享有的必须检索的数据库的地位,简单地说,不检索GeneBank,基因专利审查就很难进行下去。

  我国建立了中国专利生物序列检索系统,该系统是从国家知识产权局受理的专利申请中抽取基因序列而形成的,由于国家知识产权局尚没有和NCBI等进行数据交换,该系统是中国专利审查必须检索的数据库。

  对于具备国防利益的基因的保密专利申请,必须高度警惕基因信息霸权。如果在互联网上直接输入生物序列进行检索,就存在相应序列被某些网站截留而泄密的可能性,因此,在专利审查时需要修改生物序列,使用不同的序列进行检索,对于编码蛋白质的核苷酸序列,可以在不同区域插入或缺失多个核苷酸形成新的序列,设置降低gap罚分,然后进行检索。

  基因信息的来源

  新基因出自于基因测序工程师之手,他们将通过重高性能计算机测定的基因序列,提交给NCBI进行认定,从而换取一个基因登记号。显然,基因测序产业是基因认定产业的上游产业。

  塞莱拉(Celera Genomics)生物工程公司,是全球基因测序产业的领跑者,该公司不但拥有世界上最优秀的生物工程学家,而且拥有众多的信息技术专家。该公司的总裁克雷格·文特尔认为:“要解决未来的生物技术问题,必须借助强大的计算机功能”。

  深圳华大基因是中国基因测序产业的领跑者,早在2003年8月18日,曙光信息产业( 北京) 有限公司与华大基因联合推出国内第一款完全拥有自主知识产权的生物信息专用计算机,该计算机的基因组数据库中有人类基因组、农业基因数据库和微生物基因组数据库,已在1%人类基因组计划、水稻基因组草图和完整图绘制、SARS 病毒基因组研究中承担了大量关键的科研任务,为华大基因的基因测序工作立下了汗马功劳。

  2011年6月2日,深圳华大基因、德国汉堡大学医学院、中国疾病预防控制中心和军事医学科学院微生物流行病研究所测定了对德国爆发的大肠杆菌的基因组图谱,将其上传至NCBI ,登记号SRA037315.1,供全球分享。该大肠杆菌与2002年从中非艾滋病患者腹泻标本中分离的肠侵袭性大肠杆菌55989菌株的同源性超过93%, 通过基因水平转移获得了多种耐药基因,导致抗生素治疗无效,而具备高致病性 4。

  虽然深圳华大基因的新发现的大肠杆菌基因还要依靠NCBI的认定,但是,深圳华大基因已经开始试水基因认定产业,推出了生物数据资源中心CLiMB(Comprehensive Library for Modern Biotechnology) 5,这是中国企业创建基因信息央行的大胆实验。

  基因信息分行

  随着人类基因组、植物基因组计划的实施,核酸、蛋白质等生物数据的数量正以前所未有的速度迅速增加,GenBank 等数据库的容量均以几何级数的速度不断扩容。

  基因研究人员主要是通过手动操作在网上获取生物医学信息,加之对数据结构以及数据项含义的不熟悉、网络硬件条件的限制,致使查询效率低。如何从海量的基因信息一级市场中钩吊出有效的数据,这成为了基因信息研究的热点。

  数据挖掘与生物信息学的结合技术, 使得从一级基因信息数据库中提取有用的序列、结构、功能等信息成为可能,使得二级基因信息数据库得以建构。这种二级生物信息数据库就相当于基因信息分行。

  2011年7月6日,华大基因(BGI)和BioMed Central(简称BMC ,生物医学中心)共同主办的《GigaScience》杂志的执行编辑Scott Edmunds正式对外宣布该杂志已经开始接收数据,该期刊主要采用全文文献与大型数据库相结合的模式,为广大科学工作者提供前沿、有效的数据以及生物学发现等资源,并公开了首个可引用的数据库—德国大肠杆菌数据库,包括了最近流行的德国致病性大肠杆菌O104菌株等的基因组序列和组装数据, 华大基因在其官网上指出:大肠杆菌O104菌株的基因组序列还存放在NCBI上 6。 显然,德国大肠杆菌数据库就属于基因信息分行。

  中国多项科研基金支持基因信息数据挖掘技术,这可以说是基因信息分行建设的实验。例如:中国科学院上海生科院系统生物学重点实验室生物信息中心的许庆炜等,在国家科技支撑计划课题(2008BAI64B01)的支持下,对生物医学文献热点数据自动化抽取工具HotDataSpider 进行了研究 7;北京科技大学信息工程学院的杨炳儒等,在国家科技成果重点推广计划资助项目( 2003EC000001)和国家自然科学基金资助项目( 60675030) 的支持下,对生物信息数据挖掘技术的典型应用进行了研究 8;江苏省农业科学院农业资源与环境研究所的栾德琴等,在国家863计划(编号: 2006AA10Z1E7-1, 2006AA10Z243-3)和江苏省农业科学院科研基金(编号: 6510716) 的支持下,对基因本体论在生物信息数据库中的应用进行了研究 9;北京大学心血管基础研究所的尚彤、 清华大学电子工程系的刘贝等,在国家重点基础研究发展规划项目(G2000056907) 的支持下,以NCBI的GenBank 数据库和EBI维护的Swiss2Prot数据库分别作为一级和二级数据库的信息来源,编写了专用软件从网上获取数据,并且进行分类整理,建立了心衰/ 高血压相关基因和蛋白数据库 10。

  基因信息的知识产权问题

  基因信息一级数据库版权争议问题不严重。由政府或由其它公共基金出资开发的Genbank、EMBL、DDBJ和蛋白质三维结构数据库PDB等一级生物信息数据库,免费为公众开放,以推动生物信息的传播与交流。但是,因经济紧张的原因,蛋白质序列数据库SWISS-PROT 已开始向商业用户每年收取数千至数万美元不等的费用。

  基因信息二级数据库上的版权问题比较复杂。基因信息二级数据库一般是利用生物信息软件对原始数据的创造性的再加工,具备独特的结构编排,在一般情况下享有版权保护。有人认为对于政府出资兴建的基因信息二级数据库,不具备版权,也应当免费为公众开放。一旦基因信息二级数据库引用本身具有版权的文献和数据, 原始数据人的权利保护是需要研究的问题 11。

  从生物信息的两级数据库上可以看出,中国在基因信息的获取、加工、利用上并没有太多优势,外国公司已经在利用其生物信息技术优势,通过专利来控制中国的生物产业。美国孟山都公司利用我国上海的野生大豆,绘制了大豆的遗传连锁图谱,并提交国际PCT专利申请,在国际上进行跑马圈地 12。中国的大豆产业已经“沦陷”,这显然是外国公司变相收取的“基因铸币税”造成的后果。

  对此,中国以专利法中规定披露遗传资源来源的条款来加以应对。专利法第5条第2款:对违反法律、行政法规的规定获取或者利用遗传资源,并依赖该遗传资源完成的发明创造,不授予专利权。但是,该条款在实践中究竟能发挥多大的作用,这尚有待观察。

  结语

  因人才短缺、资金不足、配套不完善等种种困难,我国生物信息产业的发展与国际水平还存在不少差距,但是,当面对外国基因信息霸权的挑战,我国更要迎难而上,这需要科技人员在基因测序、数据库建设、网络开发、网络安全等核心技术上掌握自主知识产权,需要政府进行顶层设计建立中国基因信息央行。

  国家级基因信息技术中心和数据服务中心——中国基因信息央行是一项系统工程,横跨生物、信息、知识产权、国家安全、法律、资金运作等多个领域,并非个别企业或院校所能实现和完成的,更需要政府在人、财、物上进行统筹协调、大力扶持,才能成功。

  无论这个过程多么曲折,笔者认为:中国一定要建立起自己的基因信息央行,要象独立发行人民币一样独立发布基因登记号,这才能完善中国基因信息管理体系,中国的科研单位才能摆脱为外国基因信息央行提供基因来源的尴尬地位,中国的生产单位才能摆脱给外国基因公司交纳“基因铸币税”的被动局面。