NCBI
NCBI (National Center for Biotechnology Information,美國國立生物技術信息中心)于1988年11月4日建立,是NIH(美國國立衛生研究院)的NLM(國立醫學圖書館)的一個分支。目的是通過提供在線生物學數據和生物信息學分析工具來幫助人類更好的認知生物學問題。 目前有將近40個在線的文庫和分子生物學數據庫,包括:PubMed, PubMed Central, and GenBank等。網址: https://www.ncbi.nlm.nih.gov/
一、任務
為儲存和分析分子生物學、生物化學、遺傳學知識創建自動化系統;
從事研究基于計算機的信息處理過程的高級方法,用于分析生物學上重要的分子和化合物的結構與功能;
促進生物學研究人員和醫護人員應用數據庫和軟件;
努力協作以獲取世界范圍內的生物技術信息。
二、內容
1.文獻數據庫
包括:PubMed,PubMed Central,Books等
2.序列資源庫
包括人,小鼠,果蠅,線蟲等各種物種的基因組數據庫
包含DNA,RNA,蛋白等各種類型的數據
如:SNP,GEO,SRA等
3.常用序列分析工具
Entrez – 數據挖掘的工文本條件查詢工具(Text Term Searching) 來自于超過10萬個種物的核酸和蛋白序列數據,連同蛋白三維結構,基因組圖譜信息和文獻信息檢索 網址:https://www.ncbi.nlm.nih.gov/gquery/
BLAST – 序列比對工具
https://blast.ncbi.nlm.nih.gov/Blast.cgi
4.數據下載與上傳
數據下載接口:ftp://ftp.ncbi.nlm.nih.gov/
上傳的工具有:Sequin,tbl2asn等,鏈接地址:https://www.ncbi.nlm.nih.gov/guide/data-software/
5.其他合作項目
比較常用的就是檢索文獻,檢索序列,比對序列。了解更多內容可以參考官網手冊:https://www.ncbi.nlm.nih.gov/books/NBK143764/
參考資料
https://baike.baidu.com/item/NCBI/3598184?fr=aladdin
https://www.ncbi.nlm.nih.gov/books/NBK143764/
?
1.1 NCBI GEO
基因表達數據庫(GEO,Gene Expression Omnibus database,https://www.ncbi.nlm.nih.gov/geo/ )是由NCBI負責維護的一個數據庫,設計初衷是為了收集整理各種表達芯片數據,但是后來也加入了甲基化芯片,lncRNA,miRNA,CNV芯片等各種芯片,甚至高通量測序數據,是目前最大、最全面的公共基因表達數據資源。所有的數據均可以在ftp站點下載:ftp://ftp-trace.ncbi.nih.gov/geo/.
一、GEO數據庫基礎知識
GEO Dataset (GDS) 數據集的ID號
GEO Series (GSE) study的ID號
GEO Platform (GPL) 芯片平臺
GEO Sample (GSM) 樣本ID號
這些數據都可以在ftp里面直接下載。
二、數據上傳
上傳的方式:
網頁
Excel表格
軟件
MINiML格式上傳
詳細上傳方法,參見:https://www.ncbi.nlm.nih.gov/geo/info/submission.html
提交Affymetrix芯片數據到GEO數據庫 http://www.biotrainee.com/thread-810-1-1.html
三、數據挖掘
Entrez GEO-DataSets
官網: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=gds
收錄整個實驗數據,可以通過技術類型,作者,物種和實驗變量等信息來進行搜索。一旦相關數據被查詢到,可以通過提供上面的小工具做一些分析,比如:熱電圖分析,表達分析,亞群的影響等
2.Entrez GEO-Profiles
官網:https://www.ncbi.nlm.nih.gov/geoprofiles/
收錄單個基因的表達譜數據??梢酝ㄟ^基因名字,GenBank編號,SAGE標簽,GEO編號等來進行搜索
3.GEO BLAST
GEO Blast界面容許用戶根據核酸序列的相似性來搜索相關的GEO-Profiles 所有的BLAST結果中“E”的標簽代表這個數據跟GEO-Profiles表達數據相關。
數據下載
我們一般是拿到了GSE的study ID號,然后直接把什么的url修改一下,就可以看到關于該study的所以描述信息,是用的什么測序平臺(芯片數據,或者高通量測序),測了多少個樣本,來自于哪篇文章! 所有需要的數據均可以下載,而且都是在上面的ftp里面可以根據規律去找到的,甚至可以自己拼接下載的url鏈接,來做批量化處理!
例如:用GSE75528,則在https://www.ncbi.nlm.nih.gov/geo/ 官網上直接搜索GSE75528 或直接輸入 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE75528 修改這個url最末尾的GSE號碼就可以進入自己想去的任何研究的GEO頁面。
如果是芯片數據,那么就需要自己仔細看GPL平臺里面關于每個探針對應的注釋信息,才能利用好別人的數據。 如果是高通量測序數據,一般要同步進入該GSE對應的SRA里面去下載sra數據,然后轉為fastq格式數據,自己做處理!
?
1.2 NCBI SRA
跟GEO類似,NCBI的SRA(Sequence ReadArchive,https://www.ncbi.nlm.nih.gov/sra/ )數據庫是專門用于存儲二代測序的原始數據,包括 454, IonTorrent, Illumina, SOLiD, Helicos and CompleteGenomics等。 除了原始序列數據外,SRA現在也存raw reads在參考基因的aligment information。
該數據庫也是International Nucleotide Sequence Database Collaboration (INSDC) 的一部分。INSDC包含:NCBI Sequence Read Archive (SRA), European Bioinformatics Institute (EBI), 和 DNA Database of Japan (DDBJ)。數據提交給其中任何一個數據庫中后,數據都是共享的。
一、數據庫結構
每個數據庫都有自己最小的可發表單元。例如:PubMed最小可發表單元是一篇文獻,SRA中最小可發表單元是一次實驗(標簽為:SRX#)。
NCBI中SRA數據結構的層次關系:Studies,Experiments, Samples,Runs:
Studies是就實驗目標而言的,一個study可能包含多個experiment。
Experiments包含了樣本,DNA source,測序平臺,數據處理等信息。
一個experiment可能包含一個或多個runs。
Runs 表示測序儀運行所產生的reads.
SRA數據庫用不同的前綴加以區分:ERP or SRP for Studies, SRS for samples, SRX for Experiments, and SRR for Runs。
二、數據上傳
登陸NCBI賬號
注冊你的項目和生物樣本
注冊項目:https://www.ncbi.nlm.nih.gov/bioproject/
注冊樣本:https://www.ncbi.nlm.nih.gov/biosample/
上傳SRA數據
上傳SRA metadata (關于該項目、實驗的等信息)
上傳序列數據
更詳細的說明,參見 https://www.ncbi.nlm.nih.gov/sra/docs/submit/
三、數據下載
如果要下載每個study對應的runs的所有數據,我們需要下載安裝SRA Toolkit!
鏈接地址: http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software
SRA toolkit常用命令的說明文檔見:
http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc。
這里我們需要使用prefetch命令進行下載
$prefetch SRR776503 SRR776505 SRR776506下載完成后,會在你的工作主目錄下生成一個ncbi的文件夾。
sra子文件夾中的.sra文件就是對應的runs文件。 ‘.sra’的后綴是SRA數據庫對fastq文件的特殊壓縮。使用前,我們需要將其解壓為fastq文件。SRA Toolkit 包含了解壓函數fastq-dump :$fastq-dump SRR776503.sra
通過命令行來下載
for ((i=204;i<=209;i++)) ; do wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP017/SRP017311/SRR620$i/SRR620$i.sra; done ls *sra |while read id; do ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 $id;d參考資料
http://www.biotrainee.com/thread-800-1-1.html
https://www.ncbi.nlm.nih.gov/sra/docs/
?
1.3 NCBI dbSNP
單核苷酸多態性(single nucleotide polymorphism,SNP) 主要是指在基因組水平上由單個核苷酸的變異所引起的DNA序列多態性。它是人類可遺傳變異中最常見的一種,占所有已知多態性的90%以上。dbSNP(The Single Nucleotide Polymorphism database) 是一個公共的核酸多態性的數據庫,它是關于單堿基替換以及短插入、刪除多態性的資源庫。網址:https://www.ncbi.nlm.nih.gov/projects/SNP。
1.4 NCBI RefSeq
NCBI RefSeq (Reference Sequence,美國國立生物技術信息中心參考序列庫) 是目前世界上最具有權威性的序列數據庫。NCBI的參考序列計劃(RefSeq)將為中心法則中自然存在的分子,從染色體到mRNA到蛋白提供參考序列標準。RefSeq標準為人類基因組的功能注解提供一個基礎。它們為突變分析,基因表達研究,和多態發現提供一個穩定的參考點。
RefSeq和genbank的數據有什么區別?
genbank是一個開放的數據庫,對每個基因都含有許多序列。很多研究者或者公司都可以自己提交序列,另外這個數據庫每天都要和EMBL和DDBJ交換數據。genbank的數據可能重復或者不準。 而RefSeq數據庫被設計成每個人類位點挑出一個代表序列來減少重復,是NCBI提供的校正的序列數據和相關的信息。數據庫包括構建的基因組contig、mRNA、蛋白和整個染色體。refseq序列是NCBI篩選過的非冗余數據庫,一般可信度比較高。
為什么RefSeq記錄中的基因符號(symbol)有時和相關的GenBank中的不一樣?
RefSeq全部使用官方基因符號。而GenBank是一個公共的序列備份庫,由數據發現者提供。有的作者會向相關的物種命名委員會取得官方基因符號,但有的作者沒有,所以有時會產生別名。GenBank與Pubmed相同,通過display可以選擇顯示格式,常用的有GenBank和FASTA兩種格式。如果要對基因序列作進一步分析,FASTA格式是很好的選擇。FASTA格式僅包括該序列的簡要特征,并以ATGC4種堿基列出核苷酸序列,簡單明了。而GenBank格式可顯示較完整的基因序列記錄,反映核苷酸序列的詳細信息
1.5 NCBI Entrez
Entrez (http://www.ncbi.nlm.nih.gov/Entrez) 是美國國家生物技術信息中心所提供的在線資源檢索器。該資源將GenBank序列與其原始文獻出處鏈接在一起。 Entrez是由NCBI主持的一個數據庫檢索系統。
一、Entrez系統數據庫
有將近38個庫,這里僅列舉了部分( https://www.ncbi.nlm.nih.gov/gquery/gquery.fcgi )
Literature
Health
Genomes
Genes
Proteins
Chemicals
Ensembl
Ensembl是由EBI和Sanger共同開發的真核生物基因組注釋項目,它側重于脊椎動物的基因組數據,但也包含了其他生物如線蟲,酵母,擬南芥和水稻等,其中,BioMart是用戶提取Ensembl基因組數據的強大工具。
Ensembl項目得到的數據均可以通過其基因組瀏覽器查看,用于支持脊椎動物基因組的比較基因組,進化,序列突變和轉錄調控方面研究。Ensembl注釋基因,多重序列比對,預測結構和收集疾病數據。Ensembl工具包括:BLAST, BLAT, BioMart 和 Variant Effect Predictor (VEP)。
一、簡介
Ensembl是由英國Sanger研究所Wellcome基金會(WTSI)和歐洲分子生物學實驗室所屬分部歐洲生物信息學研究所(EMBI-EBI)共同協作運營的一個項目。這些機構均位于英國劍橋市南部辛克斯頓的威康信托基因組校園(Wellcome Trust Genome Campus)內。
Ensembl計劃開始于1999年,人類基因組草圖計劃完成前的幾年。即使在早期階段,也可明顯看出,三十億個堿基對的人工注釋是不能夠為科研人員提供實時最新數據的獲取的。因此Ensembl的目標是自動的基因組注釋,并把這些注釋與其他有用的生物數據整合起來,通過網絡公開給所有人使用。Ensembl數據庫網站開始于July 2000,是一個真核生物基因組注釋項目,其側重于脊椎動物的基因組數據,但也包含了其他生物,如線蟲,酵母,擬南芥和水稻等。近年來,隨著時間推移,越來越多的基因組數據已經被添加到了Ensembl,同時Ensembl可用數據的范圍也擴展到了比較基因組學、變異,以及調控數據。
基因注釋的數據來源
二、Ensembl可以做什么
三、下載
少量的數據
大多數Ensembl 基因組數據的描述頁有“export”功能,可以直接導出這一頁的內容。
大的數據集
PERL API http://www.ensembl.org/info/docs/api/index.html
如果不熟悉Perl語言,可以通過Ensembl REST API http://rest.ensembl.org/
復雜的交叉數據庫
BioMart http://www.ensembl.org/info/data/biomart/index.html
全部的數據集
FTP site http://www.ensembl.org/info/data/ftp/index.html
四、其他
Ensembl genes命名
人的基因
其他物種的基因,例如老鼠(Mus musculus)
ENSMUSG Mouse Gene ENSMUST Mouse Transcript ENSMUSE Mouse Exon ENSMUSP Mouse ProteinUCSC
下面介紹一下作為生信人必須掌握的三大數據庫 NCBI-UCSC-ENSEMBL之一的UCSC。
一、簡介
2000年6月22日,UCSC(University of California,Santa Cruz)和其他國際人類基因組計劃的成員完成了人基因組組裝的第一個草圖,并承諾永久對外提供基因組信息。幾個星期以后,在2000年7月22日,組裝的基因組在網站 ttp://genome.ucsc.edu 呈現出來,并提供了一個在線的查詢分析工具UCSC Genome Browser。接下來的幾年里,該網站不斷的發展,如今已包含大量的脊椎動物和模式生物的基因組組裝和注釋信息,并提供了一系列查看,分析,下載數據的工具。
站點地址:
數據庫特點:
給瀏覽基因組數據提供了可靠和迅速的方式。
整合了大量的基因組注釋數據,約有一半的注釋信息是UCSC通過來自公開的序列數據計算得出,另外一半來自世界各地的科學工作者。本身并不下任何結論,而只是收集各種相關信息供用 戶參考。
支持數據庫檢索和序列相似性搜索。
二、UCSC可以干什么
UCSC建立的初衷是為了更好的呈現基因組數據,方便人們查看與研究。因此在呈現基因組堿基序列的同時,也結合了注釋信息,例如known genes, predicted genes, ESTs, mRNAs, CpG islands, assembly gaps and coverage, chromosomal bands, mouse homologies等等。所以用戶既可以用他們提供的數據庫里面的數據,也可以上傳自己的數據來做研究。圍繞著這樣的初衷,他們設計
Nucleic Acids Research(NAR) 每年會整理重要的生物信息數據庫
參考于:http://www.biotrainee.com/jmzeng/book/basic/database.html
本文由 貴州做網站公司 整理發布,部分圖文來源于互聯網,如有侵權,請聯系我們刪除,謝謝!
網絡推廣與網站優化公司(網絡優化與推廣專家)作為數字營銷領域的核心服務提供方,其價值在于通過技術手段與策略規劃幫助企業提升線上曝光度、用戶轉化率及品牌影響力。這...
在當今數字化時代,公司網站已成為企業展示形象、傳遞信息和開展業務的重要平臺。然而,對于許多公司來說,網站建設的價格是一個關鍵考量因素。本文將圍繞“公司網站建設價...
在當今的數字化時代,企業網站已成為企業展示形象、吸引客戶和開展業務的重要平臺。然而,對于許多中小企業來說,高昂的網站建設費用可能會成為其發展的瓶頸。幸運的是,隨...
Rita兼職解說大學LOL比賽,網友透露“Rita的身高不足1米6”,是真的嗎?麗塔,作為LPL的官方評論員,對每個人來說都不陌生。麗塔的妹妹以她出眾的外表在LPL很受歡迎。比賽期間,LPL評論員將利用休息時間進行線下活動。與工資相比,這是他們收入的主要來源。最近,沒有競爭對手的LPL淡季很短。隊員們有假期,所以評論員們無事可做。麗塔接手了一個大學lol比賽的解說工作,解說大學lol比賽,這對麗塔...
PS怎樣使文字具有立體效果和陰影?1.新建文檔,填充50%灰。寬度1920,高度883??旖萱I“U”,六邊形工具,畫6字的圓圈部分。2.頂部工具屬性欄設置默認,形狀設置為路徑。窗口-路徑,調出路徑后蓋。3.新建路徑圖層1。按著CTRL鍵拖動電源,在手機屏幕上畫出個弧形。4.新建路徑圖層2,“P”切換到畫筆工具,畫出6字的頭部,顯卡左下角ESC鍵,退出套索工具編輯模式。然后得到兩個路徑。5.加強效果...
qq背景墻怎么去掉?刪出或直接更換背景圖片的方法:1、再打開主界面;2、點擊右上角”直接更換外觀“功能;3、選擇”皮膚設置”換新去掉。手機QQ照片墻如何分割圖片,怎么分割八圖?操作步驟:1、簡單在我的網盤中去下載編緝工具,無需安裝,直接打開,如圖。怎么設置qq空間主頁形象墻圖片?1、首先我們打開軟件,輸入賬號和密碼,登陸后上自己的,然后再點軟件頂端上的五角星符號,故此進入空間,如圖:qq怎么設置禮...