一、GenBank是一个包含了目前所有公开了的核酸序列和蛋白序列的大型公共数据库。该数据库由美国国家生物技术信息中心(NCBI),国际核酸序列数据库协作(INSDC)共同维护。GenBank和其合作者收到来自世界各地的实验室超过10万个不同生物体的序列。自成立30年以来,GenBank已成为最重要,最有影响力的研究数据库,在几乎所有的生物领域,被数以百万计的引用。GenBank数据量持续以指数速度增长,每18个月翻一番。目前为在2013年2月生产的194版本,其中包含了超过162万条序列,超过150亿个核苷酸碱基。序列直接提交自独立实验室,或批量提交自大规模测序中心。简单翻译自:http://en.wikipedia.org/wiki/GenBank期待中文版wiki... 二、下载Gnebank数据。NCBI介绍:http://www.ncbi.nlm.nih.gov/genbank/ftp/ 1. ftp介绍文档中一段文字有提及参考序列数据的获取(下载前看清楚,什么是你需要的) GenBank releases do not include sequence records that originate from third-parties (TPA) or from NCBI's Reference Sequence (RefSeq) project. Rather, GenBank is the archival/primary resource drawn upon by those other efforts. For information about TPA and RefSeq, please refer to: http://www.ncbi.nih.gov/genbank/TPA.html http://www.ncbi.nlm.nih.gov/RefSeq 2. 下载后将数据做索引,就可以随机读取了,我之前做了全genbank的索引(二进制),索引数据库大小约10GB左右,相比于全部500+GB,欣然接受,然后你就有自己的本地genbank数据库啦! 三、 其他错误。 1. 格式错误。在生物领域,人总是被动的,总是遇到各种无法预知的情况,当然,这也是生物学令人着迷的地方,在使用本地genbank数据的时候,发现有一条数据BioPython读取错误,NM_023037,而genbank网页获取的又没有错误:
|
生物信息学 | bioinfomatic >