“末代港督”彭定康 .pdf_文库网wenkunet.com

资源描述

1、 1 GSA 和 BIGD 填补我国生物信息资源服务的空白北京大学生命科学学院、北京大学国家蛋白质和植物研究重点实验室、北京大学生物信息中心，北京 100871， Genomics Proteomics and Bioinformatics 期刊（ GPB） 2017 年第一期发表了一篇数据库专题论文 “基因组序列归档库” （ Genome Sequence Archive, 简称 GSA） 1。作者来自中国科学院北京基因组研究所大数据中心（ Big Data Center, Beijing Institute of Genomics, 简称BIGD），文中对他们开发的 G

2、SA 平台作了简要介绍。该平台旨在收集、整合和发布国内外用户递交的原始序列数据。 GSA 项目是基因组所大数据中心正在进行的几个主要研究开发项目之一，该中心由近 50 位年轻的生物信息学研究开发人员组成。除 GSA 项目外，还开展了多项面向生物信息资源服务的课题 2。应 GPB 编辑部邀请，笔者写了一篇短文，简单回顾国际生物信息数据库创建历史，并向读者推荐 GSA 平台和 BIGD 团队的工作。文章以Preview 形式发表在同一期的 GPB 上，原文为英文 3；特撰写此中文稿，以飨国内读

3、者。最近半个多世纪以来，分子生物学取得了长足的进展。 DNA 双螺旋的发现、遗传密码的破解、中心法则的提出，为分子生物学研究奠定了坚实的理论基础。与此同时，费雷德里克桑格（ Frederick Sanger）等先后建立了蛋白质、 tRNA 和 DNA 序列测定方法，约翰肯德鲁（ John Kendrew）和马克斯佩鲁茨（ Max Perutz）解决了 X-射线晶体衍射解析蛋白质三维空间结构的难题。这些开拓性的研究，为日后分子生物学数据积累提供了必不可少的技术储备。蛋白质序列数据库最早从事蛋白质序列收集的是美国国家生物医学研究基

4、金会（ National Biomedical Research Foundation，简称 NBRF）的生物信息学先驱玛格蕾特戴霍芙（ Margaret Dayhoff）博士（ https:/en.wikipedia.org/wiki/Margaret_Oakley_Dayhoff）。 1965 年，她把当时能收集到的 65 个蛋白质信息编纂成册，并以蛋白质序列和结构图册（ Atlas of protein sequence and structure）为名公开发表，并在以后的几年中不断更新再版。这就是国际上第一个蛋白质序列数据库“蛋白质信息资源”（ Prote

5、in Information Resource，简称 PIR）的雏形。基于收集到的蛋白质家族序列，戴霍芙构建了氨基酸替换计分矩阵 PAM，至今仍广泛用于序列比对和数据库相似性搜索。 PIR 于 1984 年正式上线，用户可通过电话网络进行查询。两年后，瑞士日内瓦大学在读研究生埃姆斯贝洛克（ Amos Bairoch）开始对蛋白质序列进行人工注释（ https:/en.wikipedia.org/wiki/Amos_Bairoch），为每个序列条目添加功能和相关文献等信息，并在此基础上创建了著名的“瑞士蛋白质序列数据库 ”（ Swiss-Prot）。

6、 2 蛋白质结构数据库第一个蛋白质结构数据库（ Protein Data Bank，简称 PDB）创建于 1971 年。与蛋白质序列数据库分别诞生于美国和欧洲不同， PDB 的建立是欧美两国合作者共同努力的结果。1971 年，英国剑桥晶体学数据中心（ Crystallographic Data Center）和美国布鲁克海文国家实验室（ Brookhaven National Laboratory）在自然：新生物学（ Nature: New Biology）发布短讯，宣告该数据库系统开始运行 4。双方各自保存相同的数据文件，并免费向用户发布。1998 年，美国结构生物信

7、息学研究协作组（ Research Collaboratory for Structural Bioinformatics，简称 RSCB）成立，负责蛋白质结构数据库运行，称 RSCB PDB。核酸序列数据库 70 年代末，由桑格等建立的 DNA 测序方法日趋成熟，核酸序列开始积累。欧美各国有识之士敏锐地意识到，大规模测序很快就会到来，建立核酸序列数据库的任务已经提上议事日程。 1979 年，美国能源部下属洛斯阿拉莫斯国家实验室（ Los Alamos National Laboratory）沃特高德（ Walter Goad）领导的计算生物学研究组开始利用计

8、算机收集核酸序列，并开发序列分析计算机软件，著名的序列局部比对 Smith-Waterman 算法也因此应运而生。获美国国立健康研究院（ National Institute of Health, 简称 NIH）以及科学基金会（ National Science Foundation，简称 NSF）、能源部（ Department of Energy，简称 DOE)和国防部（ Department of Defense，简称 DOD）等部门资助，核酸序列数据库 GenBank 开始运行。就在同一年，位于德国海德堡的欧洲分子生物学实验室（ European Molecular Bi

9、ology Laboratory，简称EMBL）发布了欧洲版的核酸序列数据库 EMBL-Bank，有时也简称 EMBL。美国国家生物技术信息中心 NCBI 八十年代中后期，核酸、蛋白质序列和蛋白质结构数据库已经积累了相当可观的数据，而基于中小型和微型计算机的序列和结构分析软件也不断涌现。与此同时，由美国科学基金会资助的为科研教育服务的计算机网络 NSFNet 也开始投入使用。 1988 年 11 月，由已故参议员克劳德裴帕尔（ Claude Pepper）提议，位于美国首都华盛顿北郊的美国国家生物技术信息中心（ National Center for

10、 Biotechnology Information，简称 NCBI）成立。 NCBI 隶属美国国家医学图书馆（ National Library of Medicine，简称 NLM），而 NLM 则是美国国家健康研究院（ National Institutes of Health，简称 NIH）的一个下属机构。 NCBI 成立初期，仅 8名人员，经过近 30 年的建设， NCBI 已发展成国际上最大的生物信息中心，著名的数据库搜索软件 BLAST 主要开发者之一大卫李普曼（ David Lipman）担任主任至今。 NCBI 拥有上百个数据库和软件工具，包括著

11、名的生物医学文献摘要数据库 PubMed、参考序列数据库RefSeq、数据库相似性搜索软件 BLAST 等。 1989 年，核酸序列数据库 GenBank 也由 NCBI接管。 3 欧洲生物信息学研究所 EBI 欧洲生物信息学研究所成立于 1994 年，坐落在英国剑桥南部 12 英里维康基金会（ Wellcome Trust）基因组园区内。 EBI 是欧洲分子生物学实验室 EMBL 的一个下属单位，主要经费来自欧盟，研究人员主要来自西欧各国。经过 20 多年的建设， EBI 已经成为仅次于 NCBI 的国际生物信息中心，为欧洲各国和世界各地用户提供生物信息资源服务，并从事生物

12、信息研究开发。除核酸序列数据库 EMBL 外， EBI 还有许多特色数据库，如基因组数据库 ENSEMBL、蛋白质家族和结构域数据库 InterPro、基因本体数据库 Gene Ontology 等。三大国际数据库联盟由美国政府部门资助的国家级生物信息中心 NCBI 和由欧盟资助的生物信息机构 EBI的成立，为生物信息资源服务提供了人员和经费保障，促成了国际数据库联盟的建立。 2003年， EBI 的蛋白质结构数据库 PDBe，日本蛋白质结构数据库 PDBj 和美国蛋白质结构数据库 RSCB PDB 共同组成国际蛋白质结构数据库联盟 wwPDB（ http:/w

13、ww.wwpdb.org/）。 2005年， NCBI、 EBI 和 1987 年成立的日本核酸序列数据库 DDBJ 达成协议，建立国际核酸序列数据库联盟（ International Nucleotide Sequence Database Collaboration，简称 INSDC，http:/www.insdc.org/）。同年， EBI 的 TrEMBL 与 Swiss-Prot 和 PIR 一起，组成了国际上统一的蛋白质序列数据库 UniProt（ http:/www.uniprot.org/）。 TrEMBL 是核酸序列数据库 EMBL中的编码区翻译所得的蛋白质序列。互联

14、网诞生和大数据时代到来 20世諯緌(凱搀钨讀缁钫垮節貔%頀h椀！崁圃垃圃椃紃蔃蔃蔃睝祑鹶镓遒搀漀挀砀瀀椀挀最椀昀睝祑鹶镓遒搀漀挀砀尀尀搀搀愀戀攀昀愀搀挀挀攀昀戀爀稀樀瀀最樀伀椀夀渀氀焀刀匀最伀倀欀唀欀椀倀砀嘀圀圀挀伀唀瀀唀眀椀伀睝礀鸀销遒晧昀搀昀挀戀昀昀戀昀昀戀挀挀戀u栀倀%儀匀洀愀氀氀椀爀搀匀Q盄緌盄胔-鑻棙h缀封嘃嚃嘃栃簃萃萃萃睝祑鹶镓遒搀漀挀砀瀀椀挀最椀昀睝祑鹶镓遒搀漀挀砀尀尀搀搀愀戀攀昀愀搀挀挀攀昀戀爀稀樀瀀最樀伀椀夀渀氀焀刀匀最伀倀欀唀欀椀倀砀嘀圀圀挀伀唀瀀唀眀椀伀睝礀鸀销遒晧昀搀昀挀戀昀昀戀昀昀戀挀挀戀u栀倀%儀匀洀愀氀氀椀爀搀匀錀Q帨T搱粠帨胔-T鑻棙撀i缀$药复合托盘投资建设项目建议书(立项申请).docxpic1.gif复合托盘投资建设项目建议书(立项申请).docx2019-1018272c851e-c17a-49b6-8698-1e5de72a8e16hni6hsT2Np

展开阅读全文