A. Spark之我看什麼是RDD
一般來講,對於陌生的名詞,大家的第一個反應都是「What is it?」。
RDD是Spark的核心內容,在Spark的官方文檔中解釋如下:RDD is a fault-tolerant collection of elements that can be operated on in parallel。由此可見,其中有兩個關鍵詞:fault-tolerant & in parallel。首先,容錯性是RDD的一個重要特性;其次,它是並行計算的數據。
RDD的中文解釋為:彈性分布式數據集,全稱Resilient Distributed Datasets。賓語是dataset,即內存中的資料庫。RDD 只讀、可分區,這個數據集的全部或部分可以緩存在內存中,在多次計算間重用。 所謂彈性,是指內存不夠時可以與磁碟進行交換。這涉及到了RDD的另一特性:內存計算,就是將數據保存到內存中。同時,為解決內存容量限制問題,Spark為我們提供了最大的自由度,所有數據均可由我們來進行cache的設置,包括是否cache和如何cache。
(關於cache的設置以及Spark的一些基礎概念,http://www.dataguru.cn/forum.php?mod=viewthread&tid=295317中解釋得很詳細。)
如果看到這里,你的思維里對RDD還是沒有任何概念的話,或許可以參照我的形象化理解:RDD,就是一個被武裝起來的數據集。
主體:a、由源數據分割而來,源碼中對應splits變數;
武器有下:b、數據集體內包含了它本身的「血統」信息,即dependencies變數,存儲著它的父RDD及兩者關系;
c、計算函數,即其與父RDD的轉化方式,對應源碼中的iterator(split) & compute函數;
d、一些關於如何分塊以及如何存放位置的元信息,eg:partitioner & preferredLocations。
有了這些武器,RDD的容錯機制也就顯而易見了。容錯,顧名思義就是在存在故障的情況下,計算機系統仍能正常工作。 容錯通常有兩種方式 checkpoint 和logging update , RDD 採用的是 logging update 。 Checkpoint( 數據檢查點)意味著要在各個機器間復制大數據,花費會很高,這種拷貝操作相當緩慢,而且會消耗大量的存儲資源,因此deserted。 Logging update( 記錄更新),僅支持粗顆粒度變換,也就是說,僅記錄在單個塊上執行的單個操作,然後創建某個RDD的變換序列存儲下來,數據丟失時,就可通過「血統」重新計算,恢復數據。Nevertheless,血緣鏈(變換序列)變得很長時,建議用戶此時建立一些數據檢查點加快容錯速度。(saveAstextFile方法手動設置)
B. RNA提取試劑盒中的RDD是什麼試劑
一種緩沖液,主要是在RNA提取中需要除去DNA時,與DNase I(DNA酶的一種)配製成DNase I工作液,具體如何使用在試劑盒中會有說明。
C. 什麼是一個RDD分區和片之間的區別
rdd作為一個分布式的數據集,是分布在多個worker節點上的。如下圖所示,RDD1有五個分區(partition),他們分布在了四個worker nodes 上面,RDD2有三個分區,分布在了三個worker nodes上面。
D. 生物的基因自由組合定律
基因的自由組合定律
孟德爾在完成了對豌豆一對相對性狀的研究後,並沒有滿足已經取得的成績,而是進一步探索兩對相對性狀的遺傳規律。他在基因的分離定律的基礎上,又揭示出了遺傳的第二個基本規律——基因的自由組合定律。
兩對相對性狀的遺傳實驗孟德爾在做兩對相對性狀的雜交試驗時,用純種黃色圓粒豌豆和純種綠色皺粒豌豆作親本進行雜交,無論正交還是反交,結出的種子(F1)都是黃色圓粒的(如圖)。這一結果表明,黃色對綠色是顯性,圓粒對皺粒也是顯性。孟德爾又讓F1植株進行自交,在產生的F2中,不僅出現了親代原有的性狀——黃色圓粒和綠色皺粒,還出現了新的性狀——綠色圓粒和黃色皺粒。試驗結果顯示出不同對的性狀之間發生了自由組合。孟德爾對試驗的結果也進行了統計學分析:在總共得到的556粒種子中,黃色圓粒、綠色圓粒、黃色皺粒和綠色皺粒的數量依次是315、108、101和32。即這4種表現型的數量比接近於9:3:3:1。怎樣解釋這一結果呢?
對自由組合現象的解釋
如果對每一對性狀單獨進行分析,其結果是:圓粒:皺粒 接近於3:1黃色:綠色 接近於3:1以上數據表明,豌豆的粒形和粒色的遺傳都遵循了基因的分離定律。孟德爾假設豌豆的粒形和粒色分別由一對基因控制,即黃色和綠色分別是由Y和y控制;圓粒和皺粒分別是由R和r控制。這樣,純種黃色圓粒豌豆和純種綠色皺粒豌豆的基因型就分別是YYRR和yyrr,它們的配子則分別是YR和yr。受精後,F1的基因型就是YyRr。Y對 y、R對r都具有顯性作用,因此,F1的表現型是黃色圓粒(如圖)。
F1自交產生配子時,根據基因的分離定律,每對基因都要彼此分離,所以,Y與y分離、R與r分離。孟德爾認為,與此同時,不同對的基因之間可以自由組合,也就是Y可以與R或r組合;y可以與R或r組合,這里等位基因的分離和不同對基因之間的組合是彼此獨立相互不幹擾的。這樣,F1產生的雌配子和雄配子就各有4種,它們是YR、Yr、yR和yr,並且它們之間的數量比接近於1:1:l:l。
用結白色扁形果實(基因型是WwDd)的南瓜植株自交,是否能夠培育出只有一種顯性性狀的南瓜?你能推算出具有一種顯性性狀南瓜的概率是多少嗎?答案:用結白色扁形果實的南瓜植株自交,能夠培育出只有一種顯性性狀的南瓜(黃色扁形或白色圓形);出現只有一種顯性性狀南瓜的概率是6/16(或3/8)。具有雜種優勢的品種不能代代遺傳,因為這類品種的基因型是雜合的,它們的後代必定會出現性狀分離和重組,從而產生出新的性狀。
由於受精時雌雄配子的結合是隨機的,因此,結合的方式可以有16種。在這16種方式中,共有9種基因型和4種表現型。9種基因型是:YYRR,YYRr,YyRR,YyRr,YYrr,Yyrr,yyRR,yyRr和yyrr;4種表現型是:黃色圓粒、黃色皺粒、綠色圓粒和綠色皺粒,並且4種表現型之間的數量比接近於9:3:3:1。
對自由組合現象解釋的驗證
孟德爾為了驗證對自由組合現象的解釋是否正確,還做了測交試驗,也就是讓子一代植株F1(YyRr)與隱性純合子雜交(yyrr)。按照孟德爾提出的假設,F1能夠產生4種配子,即YR、Yr、yR、yr,並且它們的數目相等;而隱性純合子只產生含有隱性基因的配子yr。所以,測交的結果應當產生4種類型的後代:黃色圓粒(YyRr)、黃色皺粒(Yyrr)、綠色圓粒(yyRr)和綠色皺粒(yyrr),並且它們的數量應當近似相等(如圖)。
孟德爾所做的測交試驗,無論是以F1作母本還是作父本,實驗的結果都符合預期的設想,也就是4種表現型的實際子粒的數量比都接近於1:1:1:1。從而證實了F1在形成配子時,不同對的基因是自由組合的。
基因自由組合定律的實質
細胞遺傳學的研究結果表明,孟德爾所說的一對基因就是位於一對同源染色體上的等位基因,不同對的基因就是位於非同源染色體上的非等位基因。孟德爾的兩對相對性狀的雜交試驗,揭示出的自由組合定律的實質是:位於非同源染色體上的非等位基因的分離或組合是互不幹擾的。在進行減數分裂形成配子的過程中,同源染色體上的等位基因彼此分離的同時,非同源染色體上的非等位基因自由組合。
基因自由組合定律在實踐中的應用
基因自由組合定律在動植物育種工作和醫學實踐中同樣有著重要意義。在育種工作中,人們用雜交的方法,有目的地使生物不同品種間的基因重新組合,以便使不同親本的優良基因組合到一起,從而創造出對人類有益的新品種。例如,在水稻中,有芒(A)對無芒(a)是顯性,抗病(R)對不抗病(r)是顯性。有兩個不同品種的水稻,一個品種無芒、不抗病;另一個品種有芒、抗病。人們將這兩個不同品種的水稻進行雜交,根據自由組台定律,在F2中分離出的無芒、抗病(aaRR或aaRr)植株應該占總數的3/16,其中,l/16是純合類型(aaRR)2/16是雜合類型(aaRr)。要進一步得到純合類型,還需要對無芒、抗病類型進行自交和選育,淘汰不符合要求的植株,最後得到能夠穩定遺傳的無芒、抗病的類型。
在作物育種中,人們常常利用雜種優勢達到增產的目的。雜種優勢是利用純合親本雜交,使雜種F1具有高產、優質、多種抗性等性狀。想一想:具有雜種優勢的品種能夠代代遺傳嗎?
在醫學實踐中,人們可以根據基因的自由組合定律來分析家系中兩種遺傳病同時發病的情況,並且推斷出後代的基因型和表現型以及它們出現的概率,為遺傳病的預測和診斷提供理論上的依據。例如,在一個家庭中,父親是多指患者(由顯性致病基因P控制),母親的表現型正常,他們婚後卻生了一個手指正常但患先天聾啞的孩子(由隱性致病基因d控制;基因型為dd)。根據基因的自由組合定律可以推知:父親的基因型應該是 PpDd,母親的基因型應該是ppDd。根據父母親的基因型,可以推斷出他們後代有可能出現4種不同的表現型,它們是:只患多指;只患先天聾啞;既患多指又患先天聾啞;表現型完全正常。
推算一下,在這對夫婦所生子女中,每一種表現型出現的概率是多少?
孟德爾獲得成功的原因
在孟德爾之前,也有不少學者做過動物和植物的雜交試驗,但是都沒能總結出任何規律,為什麼孟德爾能夠取得如此巨大的成果呢?歸納起來,主要有以下幾個方面的原因:
第一,正確地選用試驗材料是孟德爾獲得成功的首要條件。孟德爾在做雜交試驗時選用了豌豆作試驗材料,這是因為豌豆不僅是閉花受粉植物,而且各個品種之間有一些穩定的、容易區分的性狀。實際上,豌豆也有一些不易區分的性狀,比如葉的大小與花的大小等,孟德爾在做雜交試驗時,舍棄了這類性狀,只是對穩定的,容易區分的相對性狀進行研究,這就使試驗的結果既可靠又容易分析。
第二,在對生物的性狀進行分析時,孟德爾首先只針對一對相對性狀的傳遞情況進行研究。例如,當研究子粒的形狀時,不考慮子粒的顏色,在研究子粒的顏色時又不考慮子粒的飽滿程度。在弄清一對相對性狀的傳遞情況後,再研究兩對、三對,甚至多對相對性狀的傳遞情況。這種由單因素到多因素的研究方法也是孟德爾獲得成功的重要原因。
第三,孟德爾在進行豌豆的雜交試驗時,對不同世代出現的不同性狀的個體數目都進行了記載和分析,並且應用統計學方法對實驗結果進行分析,這是孟德爾獲得成功的又一個重要原因。第四,孟德爾還科學地設計了試驗的程序。他在對大量試驗數據進行分析的基礎上,合理地提出了假說,並且設計了新的試驗來驗證假說,這是孟德爾獲得成功的第四個重要原因。
孟德爾揭示遺傳規律的過程表明,任何一項科學研究成果的取得,不僅需要有堅韌的毅力和持之以恆的探索精神,還需要有嚴謹求實的科學態度和正確的科學方法。
基因自由組合定律的例題分析
例題1 豌豆的高莖(D)對矮莖(d)是顯性,紅花(C)對白花(c)是顯性。推算親本DdCc與 DdCc雜交後,子代的基因型和表現型以及它們各自的數量比。分析:推算兩對(或兩對以上)雜交組合的基因型和表現型時,為了使問題簡便,一般不採用棋盤法而採用分枝法進行分析。應用分枝法時,首先對各對性狀分別進行分析,如本題中,如果單獨考慮高莖與矮莖,Dd×Dd子代的基因型和它們的數量比應該為1DD∶2Dd∶1dd;子代的表現型和它們的數量比則為3高莖∶1矮莖。如果單獨考慮紅花與白花,Cc×Cc子代的基因型和它們的數量比應該為1CC:2Cc:1cc;子代的表現型和它們的數量比則為:3紅花:1白花。在此基礎上再列表並進行推算(見下表),推算的方法是:子代基因型的數量比應該是各種基因型相應比值的乘積,子代表現型的數量比也應該是各種表現型相應比值的乘積。
答:DdCc和DdCc雜交,子代基因型和它們的數量比是:1DDCC:2DDCc:1DDcc:2DdCC:4DdCc:2Ddcc:1ddCC:2ddCc:1ddcc。子代表現型和它們的數量比是:9高莖紅花:3高莖白花:3矮莖紅花:1矮莖白花。例題2 番茄的紅果(R)對黃果(r)是顯性,二室(D)對多室(d)是顯性,這兩對基因分別位於不同對的染色體上,現用甲乙兩種不同類型的植株雜交,它們的後代中,紅果二室、紅果多室、黃果二室、黃果多室的植株數分別是300、109、305和104,問甲乙兩種雜交植株的基因型是怎樣的?表現型是怎樣的?分析:為了使問題簡化,解題時可以對每對性狀分別進行分析。依題意從子代中各種表現型的植株數目可以得出:紅果:黃果(300+109):(305+104)=1:1二室:多室=(300+305):(109+104)=3:1由此可見,如果單純考慮果實的顏色,根據子代中推算出的紅果與黃果的分離比是1:1,可以分析出雙親中一個是雜合子,一個是隱性純合子,即如果甲植株的基因型是Rr,那麼乙植株的基因型一定是rr。如果單純考慮二室和多室,根據子代中推算出二室與多室的分離比是3:1,可以分析出雙親都是雜合子。即甲乙植株的基因型都是Dd。因此,綜合上述兩對性狀考慮,甲乙兩植株的基因型應該分別是RrDd和rrDd,根據它們的基因型可以推出:甲植株番茄是紅果二室,乙植株番茄是黃果二室。
E. 什麼是rdd以及應用舉例說明
生態位就是每個生物在環境中所佔的閾值的大小。比如:生存空間的大小,食性的大小,對不同環境條件的不同適應等。比如說,我們在農業生產中可以高矮間作,可以說就是對生態位理論的一種應用。。。。。。。
F. RDD代表什麼組織病理名
羅道病(Rosai-Dorfman病)又稱竇組織細胞增生伴巨大淋巴結病(sinus hisliocytosis with massive lymphadenopathy,SHML)是一種良性淋巴組織增生性疾病,1966年Azoury和Reed首先報道,1969年Rosai和Dorfman對其做了詳細研究,並正式命名·
G. 請問rdd是什麼意思
彈性分布式數據集(RDD,Resilient Distributed Datasets),它具備像MapRece等數據流模型的容錯特性,並且允許開發人員在大型集群上執行基於內存的計算。現有的數據流系統對兩種應用的處理並不高效:一是迭代式演算法,這在圖應用和機器學習領域很常見;二是互動式數據挖掘工具。這兩種情況下,將數據保存在內存中能夠極大地提高性能。為了有效地實現容錯,RDD提供了一種高度受限的共享內存,即RDD是只讀的,並且只能通過其他RDD上的批量操作來創建。盡管如此,RDD仍然足以表示很多類型的計算,包括MapRece和專用的迭代編程模型(如Pregel)等。我們實現的RDD在迭代計算方面比Hadoop快20多倍,同時還可以在5-7秒內互動式地查詢1TB數據集。
H. 生物關於減數分裂的問題(很簡單,但好糾結),請解釋下
剛開始變成RRrrDDdd以後,進入減數第一次分裂。可以產生RRDD和rrdd(或者RRdd和rrDD)。然後減數第二次分裂,產生RD和rd(或者Rd和rD)。RR可以和DD、dd組合。一個母細胞應該是產生兩種配子,四個配子兩兩相同。至於說產生四種配子是說總的可能性。
http://ke..com/image/b25d9901a8137195267fb579 這個鏈接的圖片你可以看看。