導航:首頁 > 生物信息 > 生物信息學資料庫有哪些

生物信息學資料庫有哪些

發布時間:2022-04-11 18:23:01

1. 常用的生物信息學python庫有哪些

常用的生物信息學python庫:
Tkinter
Python默認的圖形界面介面。Tkinter是一個和Tk介面的Python模塊,Tkinter庫提供了對Tk API的介面,它屬於Tcl/Tk的GUI工具組。
PyGTK
用於python GUI程序開發的GTK+庫。GTK就是用來實現GIMP和Gnome的庫。
PyQt
用於python的Qt開發庫。QT就是實現了KDE環境的那個庫,由一系列的模塊組成,有qt, qtcanvas, qtgl, qtnetwork, qtsql, qttable, qtui and qtxml,包含有300個類和超過5750個的函數和方法。PyQt還支持一個叫qtext的模塊,它包含一個QScintilla庫。該庫是Scintillar編輯器類的Qt介面。
wxPython
GUI編程框架,熟悉MFC的人會非常喜歡,簡直是同一架構(對於初學者或者對設計要求不高的用戶來說,使用Boa Constructor可以方便迅速的進行wxPython的開發)
PIL
python提供強大的圖形處理的能力,並提供廣泛的圖形文件格式支持,該庫能進行圖形格式的轉換、列印和顯示。還能進行一些圖形效果的處理,如圖形的放大、縮小和旋轉等。是Python用戶進行圖象處理的強有力工具。
Psyco
一個Python代碼加速度器,可使Python代碼的執行速度提高到與編譯語言一樣的水平。
xmpppy
Jabber伺服器採用開發的XMPP協議,Google Talk也是採用XMPP協議的IM系統。在Python中有一個xmpppy模塊支持該協議。也就是說,我們可以通過該模塊與Jabber伺服器通信,是不是很Cool。
PyMedia
用於多媒體操作的python模塊。它提供了豐富而簡單的介面用於多媒體處理(wav, mp3, ogg, avi, divx, dvd, cdda etc)。可在Windows和Linux平台下使用。
Pmw
Python megawidgets,Python超級GUI組件集,一個在python中利用Tkinter模塊構建的高級GUI組件,每個Pmw都合並了一個或多個Tkinter組件,以實現更有用和更復雜的功能。
PyXML
用Python解析和處理XML文檔的工具包,包中的4DOM是完全相容於W3C DOM規范的。它包含以下內容:
xmlproc: 一個符合規范的XML解析器。Expat: 一個快速的,非驗證的XML解析器。還有其他和他同級別的還有 PyHtml PySGML。
PyGame
用於多媒體開發和游戲軟體開發的模塊。
PyOpenGL
模塊封裝了「OpenGL應用程序編程介面」,通過該模塊python程序員可在程序中集成2D和3D的圖形。
NumPy、NumArray、SAGE
NumArray是Python的一個擴展庫,主要用於處理任意維數的固定類型數組,簡單說就是一個矩陣庫。它的底層代碼使用C來編寫,所以速度的優勢很明顯。SAGE是基於NumPy和其他幾個工具所整合成的數學軟體包,目標是取代Magma, Maple, Mathematica和Matlab 這類工具。
MySQLdb
用於連接MySQL資料庫。還有用於zope的ZMySQLDA模塊,通過它就可在zope中連接mysql資料庫。
Sqlite3
用於連接sqlite資料庫。

Python-ldap
提供一組面向對象的API,可方便地在python中訪問ldap目錄服務,它基於OpenLDAP2.x。
smtplib
發送電子郵件。
ftplib
定義了FTP類和一些方法,用以進行客戶端的ftp編程。如果想了解ftp協議的詳細內容,請參考RFC959。
PyOpenCL
OpenCL的Python介面,通過該模塊可以使用GPU實現並行計算。

2. NCBI有多少資料庫,分別有什麼作用

在生物醫學信息學領域,資料庫和服務的定義與計算機領域有很大的不同,如果要問NCBI過去,現在或將來會有多少資料庫,恐怕連NCBI自己都說不清楚。要是一個一個資料庫講下來,9999個字肯定不夠用。這里有一個列表供您參考http://www.ncbi.nlm.nih.gov/guide/all/。

NCBI的產生和發展是在美國和全球生物學高速發展,高通量數據急速產生,而缺乏有效的數據分析方法的背景下產生,起初它主要任務是數據的存儲和查詢。只不過其存儲的數據大多以高通量數據為主,例如基因測序,基因組,SNP, 基因晶元,小分子化合物和GWAS數據等。這些數據的共享,極大地促進了生物信息學發展。

按照數據->樣式->知識->智慧的發展模式,NCBI主要起到了一個為生物學家提供數據的角色。不過,NCBI目前也不斷地在調整自己的角色。例如,生物醫學文獻。NCBI在從NLM繼承過來的pubmed的基礎,提供以PMC資料庫為核心的全文文獻服務。PubMed資料庫應該是全球生物學家使用頻率最高的資料庫。NCBI最近對pubmed的改版,雖然沒有實質性的改變,但其按照用戶體驗進行的修改,足見其對該資料庫的重視。

另外,NCBI目前不斷地在引入高學歷生物學人才對其資料庫的質量進行控制。以dbSNP為例,其正在通過與領域專家的合作將突變數據與人類表型數據進行關聯。

總得來講,NCBI的發展是與生物學高通量數據產生密切相關,它以經不在局限於提供數據存儲與查詢,其未來的發展必將發展為一個大型的、綜合的知識庫。到那時NCBI會不會免費,就要另當別論了。很顯然沒有人會將自己的手稿拱手讓人。如果真有那麼一天,不知道從中會產生多少專利和知識產權。

3. 生物信息資料庫分為哪四大類

按大小可以分為1.公共資料庫
2. 從公共資料庫中取數據做進一步處理的專業資料庫,提供更多的分析工具
按功能分可以有
基因庫GENEBANK,蛋白庫UNIPROT, 結構庫PDB, 功能分類 GO庫,通路庫 KEGG。

不用專注於4這個數字。隨著科研的進步還會有更多的資料庫出來。

4. 生物信息學中的常用的核酸二級資料庫有哪些

常用的有microRNA資料庫miRBase
PDB、NDB資料庫,tRNA資料庫,以及你想要的其他種類的RNA資料庫。
其中PDB、NDB資料庫比較權威,可靠性較高,也比較全面

5. 生物信息學資料庫之間的聯系方式有

收集,維護,生物信息學資料庫可以分為4大類:即基因組資料庫、核酸和蛋白質一級結構資料庫、生物大分子三維空間結構資料庫。

6. 網上的生物信息學資源都有哪些

生物信息學高度依賴於網路。實際上,你需要的幾乎所有資源,都可以從網上下到。你需要關注你研究領域所需要的那些,而不是全部的資源。

我原來常用的:

NCBI:持有INSDC的節點。網站上有核酸、蛋白、基因名、基因組名等等的搜索工具,以及BLAST序列比對搜索工具,PUBMED文獻資料庫,Taxonomy數據,COG蛋白家族庫等等。FTP可以下到它全部的資料庫,BLAST的單機程序,以及各種工具程序。

EBI:和NCBI類似,歐洲搞的對等物。感覺EBI網站比NCBI要清楚簡潔。另外EBI網站整合了更多的工具,比如多序列比對。

Uniprot:全蛋白庫。NCBI和EBI的蛋白庫來源於此。目前包括兩部分:SwissProt是人工校對過的,TrEMBL是自動校對的。

Pfam:蛋白家族庫。可以使用配套的HMMER進行搜索。比BLAST能找到更遠緣的東西,而且找到的東西是結構域。
Rfam:RNA的,類似Pfam。

RDP:16S rRNA庫。除了序列,它還有一個基於K-mer naive Bayesian model的rdp classifier,可以對輸入序列進行物種分類,效率和准確性較直接使用BLAST更高。
GreenGenes:也是16S庫,不過它只收集比較全的序列。它提供了一個16S的標准化比對,並基於這個東西搞了個物種分類工具。

EMBOSS:一個工具包,提供了幾百個進行序列操作的工具。

BioPerl、BioPython:Perl和Python的生物學模塊。
R:類似matlab的語言,有一大堆的生物學包。

SOAP:華大基因搞的高通量測序工具包,有de-novo拼接的,有mapping的,還有一些後續分析的。
bowtie:一個用於序列mapping的軟體。
samtools:用於操縱、分析高通量序列mapping的結果。功能非常靈活,但有點復雜。
fastx toolkit:用來操縱高通量測序序列的工具包。

7. 生物信息學資料庫的主要數據類型

生物信息學資料庫的主要數據類型有哪些的呢?
這些數據的類型估計都是一些講述生物的種類、特性、生長、發育和再生等。

8. 什麼是生物信息學中的二級資料庫

根據需要從一級資料庫中搜集對象的相關數據集合而成的就是二級資料庫。

像genebank,EMBL這種都是不加選擇的一級資料庫,只要是實驗獲得的,不管什麼東西的序列,哪怕是不完整的序列都能上傳,而且它們的數據也有可能有重復。如果有某個人專門研究細菌的鑒定,需要用到正式被認可的16srDNA序列,為了研究方便,把這些一級資料庫的各個種類細菌的公認標准16srDNA序列的數據進行整理,重新構建了一個資料庫,這就是所謂的二級資料庫。如果不構建,直接用一級資料庫做blast,就會得出很多未被承認甚至不完整的序列,還要人工一個個看過去,找出公認的標准序列,這樣就很麻煩。我舉得例子在現實中就是韓國的EzTaxon。

9. in cell and developmental biology屬於哪個資料庫

in cell and developmental biology屬於生物信息學資料庫
生物信息資料庫可以分為一級資料庫和二級資料庫。
一級資料庫的數據都直接來源於實驗獲得的原始數據,只經過簡單的歸類整理和注釋;
二級資料庫是在一級資料庫、實驗數據和理論分析的基礎上針對特定目標衍生而來,是對生物學知識和信息的進一步整理。國際上著名的一級核酸資料庫有Genbank資料庫、EMBL核酸庫和DDBJ庫等;蛋白質序列資料庫有SWISS-PROT、PIR等;蛋白質結構庫有PDB等。國際上二級生物學資料庫非常多,它們因針對不同的研究內容和需要而各具特色,如人類基因組圖譜庫GDB、轉錄因子和結合位點庫TRANSFAC、蛋白質結構家族分類庫SCOP等等。

10. 列舉常用的生物信息學資料庫及序列對比常用軟體及特點

一般來說所用的分析工具有在線跟下載的 下面簡要列舉一些常用在線軟體的使用 1、使用VecScreen工具,分析下列未知序列,輸出序列長度、載體序列的區域、可能使用的克隆載體都有哪些。一、步驟:
打開google 首頁,搜索VecScreen,進入VecScreen首頁,復制序列,運行,View report。
二、結果:
輸出序列長度918bp,
載體序列的區域456bp——854bp.
克隆載體:M13mp18 phage,pGEM-13Zf(+),pBR322,pRKW2。
2、使用相應工具,分析下列未知序列的重復序列情況,輸出重復序列的區域、包含的所有重復序列的類型、重復序列的總長度及Masked Sequence。
一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST。得出序列是human的。
進入google首頁,搜索RepeatMasker,進入RepeatMasker主頁,進入RepeatMasking,復制序列,DNA source選擇human,運行!點擊超鏈接,在結果中選擇
Annotation File :RM2sequpload_1287631711.out.html
3、使用CpGPlot/CpGReport/Isochore工具,分析下列未知序列,輸出CpG島的長度、區域、GC數量、所佔的百分比及Obs/Exp值。一、步驟:
進入google首頁,搜索CpGPlot,進入CpGPlot主頁,program中選擇cpgreport復制序列,運行!
二、結果:

CpG島的長度:385bp
區域:48——432;
GC數量:Sum C+G=297,百分數=77.14
Obs/Exp:1.01
4、預測下面序列的啟動子,輸出可能的啟動子序列及相應的位置。一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST。得出序列是human的
進入google首頁,搜索Neural Network Promoter Prediction,進入主頁,復制序列,選擇eukaryote,運行!
二、結果:

位置:711—761 ,1388—1438,1755—1805;
5、運用Splice Site Prediction工具分析下面序列,分別輸出內含子-外顯子剪接位點給體和受體的區域及剪接處位置的鹼基。一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST。得出序列是human的
進入google首頁,搜索Splice Site Prediction,進入主頁,復制序列。Organism選擇Human or other。其他默認,運行!
二、結果:
供體:

受體:
6、對下面序列進行六框翻譯,利用GENESCAN綜合分析(首先確定給定序列的物種來源)哪個ORF是正確的,輸出六框翻譯(抓圖)和GENESCAN結果(包括predicted genes/exons 和 predicted peptide sequence(s) 兩個部分)。一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST。得出序列是Zea的
進入google首頁;搜索NCBI,進入主頁,選擇all resources(A~Z),選擇O,選擇ORF finder。復制序列,默認,運行!
二、結果:ORF圖
三、步驟:進入google首頁,搜索GENESCAN,進入主頁,Organism:Maize, ,其他默認,運行!
四、結果:
G7、進入REBASE限制性內切酶資料庫,輸出AluI、MboI、EcoI三種內酶的Recognition Sequence和Type。
一、步驟:進入google首頁,google in English,搜索REBASE,進入主頁, 分別輸入AluI、MboI、EcoI,運行!
在MboI中選擇第一個,EcoI選擇第二個。
二、結果:
ENSCAN圖
8、使用引物設計工具,針對下列未知序列設計一對引物,要求引物長度為20-25bp,擴增產物長度300-500bp,退火溫度為50-60℃。請寫出選擇的一對引物(Forward Primer and Reverse Primer)、及相應的GC含量、引物的位點、Tm值和產物長度。一、步驟:進入google首頁,搜索genefisher,進入主頁,復制fasta格式,chechk input, sunmit, ; ;設置一下引物長度為20-25bp,擴增產物長度300-500bp,退火溫度為50-60℃; 。
二、結果:

GC含量:

引物的位點:

Tm值:

產物長度:。

9、將下面的序列用NEBcutter 2.0工具分析,用產生平末端及有四個酶切位點的酶進行酶切,並用抓圖提交膠圖(view gel),要求1.4% agarose和Marker為100bp DNA Ladder。
一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST,得知是linear。
進入google首頁,搜索NEBcutter 2.0,進入主頁,選擇linear,運行!選擇custom digest, ,把「1」改為「4」,選擇平末端,後digest。View gel。選擇1.4% agarose和Marker為100bp。
二、結果:

然後就是蛋白質的了一般都在expasy里swiss-prot 適用於檢索的 compute pi/mw 求理論分子量 分子量 protparam物理化學性質 protscale親水性疏水性 peptidemass分析蛋白酶和化學試劑處理後的內切產物
NCBI(www.ncbi.nlm.nih.gov)-GenBank資料庫

資料庫相似性搜索——核酸序列與核酸資料庫比較(BLASTN)
蛋白質序列與資料庫中蛋白質序列比較(BLASTP)
兩序列比對(Align two sequences)

DNA序列分析——ORF Finder(www.ncbi.nlm.nih.gov/gorf/gorf.html)

分析實驗序列外顯子部分——GENSCAN(http://genes.mit.e/GENSCAN.html)
分析實驗序列的可能酶切位點——NEBcutter2.0 (http://tools.neb.com/NEBcutter2/index.php)
註: Custom digest -- view gel

限制性內切酶資料庫——REBASE(http://rebase.neb.com/rebase/rebase.html)

設計引物擴增實驗序列——Genefisher
Primer 3

蛋白質序列分析及結構預測:
1.預測蛋白質的分子量及等電點:ExPASy(Compute pI/Mw)
2.分析蛋白質的基本物理化學性質:ExPASy(ProtParam)
3.分析蛋白質的親水性和疏水性:ExPASy(ProtScale)
4.分析蛋白質在各種蛋白酶和各種化學試劑處理後的內切產物:ExPASy(PeptideMass) [* :kinase K]
5.分析蛋白質的信號肽:ExPASy(SignalP)
6.預測蛋白質的二級結構:ExPASy(Jpred 3)

多物種分子系統發育分析:EMBL(www.ebi.ac.uk/embl/)--Toolbox--Clustal2W

人脂聯素蛋白質序列:NP_004788
人類胰島素生長因子IB前體:P05019

閱讀全文

與生物信息學資料庫有哪些相關的資料

熱點內容
word中化學式的數字怎麼打出來 瀏覽:469
乙酸乙酯化學式怎麼算 瀏覽:1141
沈陽初中的數學是什麼版本的 瀏覽:1066
華為手機家人共享如何查看地理位置 瀏覽:795
一氧化碳還原氧化鋁化學方程式怎麼配平 瀏覽:621
數學c什麼意思是什麼意思是什麼 瀏覽:1117
中考初中地理如何補 瀏覽:1064
360瀏覽器歷史在哪裡下載迅雷下載 瀏覽:489
數學奧數卡怎麼辦 瀏覽:1099
如何回答地理是什麼 瀏覽:815
win7如何刪除電腦文件瀏覽歷史 瀏覽:854
大學物理實驗干什麼用的到 瀏覽:1203
二年級上冊數學框框怎麼填 瀏覽:1411
西安瑞禧生物科技有限公司怎麼樣 瀏覽:558
武大的分析化學怎麼樣 瀏覽:989
ige電化學發光偏高怎麼辦 瀏覽:1084
學而思初中英語和語文怎麼樣 瀏覽:1322
下列哪個水飛薊素化學結構 瀏覽:1147
化學理學哪些專業好 瀏覽:1235
數學中的棱的意思是什麼 瀏覽:771