長(zhǎng)足寄蠅生物信息綜合數(shù)據(jù)庫(kù)的搭建
分類(lèi)分析是基于事先創(chuàng)建的分類(lèi)模型,實(shí)現(xiàn)某個(gè)未知的數(shù)據(jù)項(xiàng)到數(shù)據(jù)庫(kù)中已知類(lèi)的映射,下面是小編為大家搜集整理的一篇相關(guān)論文范文,歡迎閱讀借鑒。
引言
現(xiàn)今生物信息技術(shù)尤其是在昆蟲(chóng)學(xué)領(lǐng)域,迫切需要將生物學(xué)基礎(chǔ)研究全過(guò)程的信息通過(guò)計(jì)算機(jī)技術(shù)和手段進(jìn)行綜合存儲(chǔ),同時(shí)將生物形態(tài)學(xué)與分子生物學(xué)數(shù)據(jù)結(jié)合起來(lái),根據(jù)研究領(lǐng)域的特點(diǎn)和科研成果交流需要,實(shí)現(xiàn)信息交流與共享、多格式信息存儲(chǔ)、生物信息決策與KDD應(yīng)用等方面信息.
1、設(shè)計(jì)背景
本文以"中國(guó)長(zhǎng)足寄蠅亞科的系統(tǒng)分類(lèi)研究"的需求為出發(fā)點(diǎn),以全面合理的存儲(chǔ)寄蠅數(shù)據(jù)、提升現(xiàn)有寄蠅研究成果和數(shù)據(jù)共享性為目的,力求實(shí)現(xiàn)通過(guò)計(jì)算機(jī)手段對(duì)國(guó)內(nèi)外寄蠅研究的現(xiàn)有成果進(jìn)行總結(jié)與分類(lèi),實(shí)現(xiàn)寄蠅信息的高效管理等而搭建長(zhǎng)足寄蠅生物信息綜合數(shù)據(jù)庫(kù).
相比較常見(jiàn)的單一數(shù)據(jù)庫(kù)模式,該系統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)由關(guān)系數(shù)據(jù)庫(kù)和多維數(shù)據(jù)庫(kù)共同組建.數(shù)據(jù)展現(xiàn)平臺(tái)用Java基于MVC設(shè)計(jì)模式實(shí)現(xiàn),并將該平臺(tái)分為Web層、服務(wù)層和數(shù)據(jù)訪問(wèn)層.訪問(wèn)關(guān)系數(shù)據(jù)庫(kù)數(shù)據(jù)采用開(kāi)源的Ibatis框架,將各種SQL語(yǔ)句存放在配置文件中進(jìn)行統(tǒng)一維護(hù)通過(guò)JDBCDAO訪問(wèn)關(guān)系數(shù)據(jù)庫(kù);同時(shí),對(duì)多維數(shù)據(jù)集訪問(wèn)的腳本語(yǔ)言的也具備Java接口用最實(shí)用的'C語(yǔ)言.用C后對(duì)多維數(shù)據(jù)庫(kù)的訪問(wèn)速度則明顯改進(jìn).
數(shù)據(jù)存儲(chǔ)方面,該系統(tǒng)兼容并濟(jì),采用關(guān)系模式ROLAP和多維模式MOLAP相結(jié)合,即混合模式HOLAP.數(shù)據(jù)檢索方面,針對(duì)唯一索引、主鍵索引和聚集索引3種任取其一均不能滿足生物系統(tǒng)海量信息檢索的復(fù)雜性和高效行,在該系統(tǒng)中采取了唯一索引、主鍵索引及聚集索引相結(jié)合的方式.
2、數(shù)據(jù)存儲(chǔ)與檢索
系統(tǒng)模型是統(tǒng)一業(yè)務(wù)系統(tǒng)的核心,模型設(shè)計(jì)的好壞直接關(guān)系到系統(tǒng)建設(shè)的成敗.在建模時(shí)需要將寄蠅亞科研究的現(xiàn)有成果進(jìn)行存儲(chǔ),并對(duì)其進(jìn)行全面總結(jié)、分類(lèi)和分析.
2.1元數(shù)據(jù)設(shè)計(jì)
系統(tǒng)形態(tài)學(xué)、分子生物學(xué)、物種形態(tài)信息標(biāo)準(zhǔn)、分類(lèi)研究歷史和生物綜合防治和科學(xué)考察全過(guò)程信息采集等信息按照生物信息化元數(shù)據(jù)標(biāo)準(zhǔn)建設(shè).包括生物本體53類(lèi)元數(shù)據(jù)信息,共515個(gè)元數(shù)據(jù)屬性.寄蠅科、亞科、族、屬、種的基本研究成果和分類(lèi)檢索成果、物種基本信息和研究歷史.包括:模式標(biāo)本,鑒定和訂正已知種、發(fā)現(xiàn)和記述新種、新紀(jì)錄種外部形態(tài)、繪制頭部與外生殖器結(jié)構(gòu)特征圖;補(bǔ)充未記載雌性或雄性標(biāo)本.
27種形態(tài)分類(lèi)描述屬性、分子生物學(xué)研究的成果和實(shí)驗(yàn)過(guò)程.包括:DNA、引物PCR反應(yīng)圖片、測(cè)序線粒體COI和28SrRNA基因片斷成果與數(shù)據(jù)、同源分析比對(duì)和分子系統(tǒng)樹(shù)成果等.檢視標(biāo)本采集過(guò)程信息、標(biāo)本管理信息、保存和儲(chǔ)存狀態(tài)和標(biāo)本分類(lèi)研究信息和生物形態(tài)/生境信息.系統(tǒng)形態(tài)分類(lèi)研究.包括:板圖、頭胸、腹尾器.其他信息包括寄蠅進(jìn)化、生態(tài)利用和害蟲(chóng)生物控制依據(jù)和解決對(duì)策、生境特征、科學(xué)考察信息、生物地理、自然地理情況(經(jīng)緯度、行政區(qū)位置、海拔、自然區(qū)劃、地貌、國(guó)內(nèi)/外分布)和研究程度和研究文獻(xiàn)等基礎(chǔ)生物本體信息.
2.2信息存儲(chǔ)類(lèi)型
信息存儲(chǔ)類(lèi)型有簡(jiǎn)單文本屬性信息、板圖圖片、實(shí)驗(yàn)圖片、科考圖片、系統(tǒng)發(fā)育樹(shù)研究成果信息對(duì)象、基因分子數(shù)據(jù)大對(duì)象格式、統(tǒng)計(jì)與熱點(diǎn)圖形、自定義、共享格式數(shù)據(jù)、各類(lèi)格式研究與交流文檔對(duì)象等.
生物信息化數(shù)據(jù)庫(kù)建庫(kù)、元數(shù)據(jù)與采集標(biāo)準(zhǔn)建立.包括中國(guó)寄蠅科寄蠅信息數(shù)據(jù)庫(kù)元數(shù)據(jù)標(biāo)準(zhǔn)和生物信息數(shù)據(jù)采集工作標(biāo)準(zhǔn)與指導(dǎo)方法及野外科學(xué)考察研究描述信息.
2.3數(shù)據(jù)設(shè)計(jì)與挖掘
系統(tǒng)一共包括53個(gè)表,包括5種信息、族屬代碼、人員權(quán)限、公共代碼等相關(guān)表格.圖1所示是族屬E-R圖,該模型主要描述了物種的分族、分屬情況,以及其國(guó)內(nèi)外分布情況.
圖2所示是物種信息E-R圖,該模型以物種無(wú)主題,主要描述了和物種信息有關(guān)的地域、地貌、生物地理分布等有關(guān)信息.
3、數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中提示出隱藏的、未知的事物的特性或是規(guī)律,根據(jù)這些規(guī)律制定出合適的算法,然后根據(jù)算法進(jìn)行數(shù)據(jù)的檢索.數(shù)據(jù)挖掘的功能主要是描述和預(yù)測(cè)2方面,包括概念描述、關(guān)聯(lián)、分類(lèi)、聚類(lèi)、演變分析等.以上功能也是現(xiàn)今應(yīng)用于生物信息數(shù)據(jù)挖掘的幾個(gè)主要方面.本系統(tǒng)建設(shè)中主要應(yīng)用聚類(lèi)、分類(lèi)和關(guān)聯(lián)分析算法.
3.1聚類(lèi)分析
本系統(tǒng)使用聚類(lèi)的目標(biāo)是:通過(guò)聚類(lèi)分析實(shí)現(xiàn)寄蠅分類(lèi),進(jìn)而推斷出系統(tǒng)發(fā)育樹(shù).根據(jù)實(shí)際情況和需求,因?yàn)榧南墎喛聘髯鍖俜N之間的進(jìn)化關(guān)系本身就是模糊的,相較于劃分法、層次法等傳統(tǒng)聚類(lèi)非此即彼的"硬劃分",模糊聚類(lèi)的"軟劃分"顯然更適用寄蠅信息數(shù)據(jù)庫(kù).系統(tǒng)聚類(lèi)的實(shí)現(xiàn)決定采用基于模糊等價(jià)關(guān)系建立系統(tǒng)發(fā)育樹(shù),從而實(shí)現(xiàn)對(duì)寄蠅實(shí)體族屬種等的分類(lèi),通過(guò)建立系統(tǒng)發(fā)育樹(shù)一目了然的展現(xiàn)分類(lèi)效果.
1)動(dòng)態(tài)聚類(lèi)方法的流程(如圖3所示).通過(guò)對(duì)比發(fā)現(xiàn),系統(tǒng)聚類(lèi)是一次形成分類(lèi)結(jié)果,對(duì)分類(lèi)方法的要求很高,相應(yīng)的計(jì)算量也很大.理所當(dāng)然的,該系統(tǒng)選用動(dòng)態(tài)聚類(lèi)方法.
2)模糊等價(jià)關(guān)系的采用.從數(shù)學(xué)上講,一個(gè)確切的分類(lèi)通常是由一個(gè)明確的等價(jià)關(guān)系確定.類(lèi)似的,一個(gè)模糊的分類(lèi),也可以利用一個(gè)模糊的等價(jià)關(guān)系實(shí)現(xiàn).
3)基于模糊等價(jià)關(guān)系的動(dòng)態(tài)聚類(lèi)的優(yōu)化.通過(guò)優(yōu)化、動(dòng)態(tài)聚類(lèi)過(guò)程、獲取樣本向量和構(gòu)造模糊相似矩陣,建立模糊等價(jià)關(guān)系矩陣,最后對(duì)模糊等價(jià)關(guān)系矩陣執(zhí)行動(dòng)態(tài)聚類(lèi)的算法,得出最后分類(lèi),聚類(lèi)過(guò)程結(jié)束.依據(jù)得出的分類(lèi),即可以推斷出系統(tǒng)發(fā)育樹(shù).實(shí)踐證明,基于模糊等價(jià)關(guān)系的動(dòng)態(tài)聚類(lèi)建立的系統(tǒng)發(fā)育樹(shù)是值得信賴(lài)的.
3.2分類(lèi)分析
分類(lèi)分析是基于事先創(chuàng)建的分類(lèi)模型,實(shí)現(xiàn)某個(gè)未知的數(shù)據(jù)項(xiàng)到數(shù)據(jù)庫(kù)中已知類(lèi)的映射.顯然,人們不可能把每一個(gè)寄蠅實(shí)體的每一個(gè)屬性值都通過(guò)生物實(shí)驗(yàn)來(lái)獲取.利用已知寄蠅實(shí)體的相關(guān)屬性值,通過(guò)分類(lèi)挖掘,便可以對(duì)一個(gè)蠅類(lèi)樣本的特定屬性值進(jìn)行預(yù)測(cè),從而解決實(shí)驗(yàn)過(guò)程不能解決的問(wèn)題,是本系統(tǒng)使用分類(lèi)分析的主要目標(biāo).從預(yù)測(cè)準(zhǔn)確率、速度、健壯性和可伸縮性等全方位衡量的話,沒(méi)有一種算法是完全優(yōu)秀的.
實(shí)際上,在本系統(tǒng)中用到的分類(lèi)分析算法是微軟決策樹(shù)算法.該算法由SQLServer2008中的analysisservice組件提供.實(shí)踐證明,微軟決策樹(shù)算法對(duì)離散的和連續(xù)的屬性預(yù)測(cè)表現(xiàn)均出色.足以應(yīng)付該系統(tǒng)中的分類(lèi)挖掘問(wèn)題.在此不做詳細(xì)介紹.
4、結(jié)語(yǔ)
本系統(tǒng)以國(guó)家自然科學(xué)基金"中國(guó)長(zhǎng)足寄蠅亞科的系統(tǒng)分類(lèi)研究"的需求為出發(fā)點(diǎn),以對(duì)寄蠅生物研究過(guò)程中產(chǎn)生的海量數(shù)據(jù)處理為主要任務(wù),通過(guò)計(jì)算機(jī)手段實(shí)現(xiàn)了寄蠅數(shù)據(jù)的生物信息化.
參考文獻(xiàn):
[1]陸舟.Struts2技術(shù)內(nèi)幕:深入解析Struts架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)原理[M].北京:機(jī)械工業(yè)出版社,2012:80-256.
[2]李剛.輕量級(jí)JavaEE企業(yè)應(yīng)用實(shí)戰(zhàn)Struts2+Spring3+Hibernate整合開(kāi)發(fā)[M].北京:電子工業(yè)出版社,2011:30-236.
[3]甘文麗,劉為超.基于Struts2和Ajax的企業(yè)級(jí)Web應(yīng)用開(kāi)發(fā)[J].工礦自動(dòng)化,2013(2):23-26.
[4]常革新,任永昌.Struts2框架校驗(yàn)文件自動(dòng)生成技術(shù)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013(1):305-321.
[5]薛峰,梁鋒,徐書(shū)勛,等.基于SpringMVC框架的Web研究與應(yīng)用[J].合肥工業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2012,35(3):337-340.
[6]廖福保.擴(kuò)展SpringMVC模塊的Web應(yīng)用[J].實(shí)驗(yàn)室研究與探索,2012(10):70-73.
[7]嚴(yán)厲,俞永強(qiáng).ThespringpredictionbarrierinENSOhindcastexperimentsusingtheFGOALS-gmodel[J].中國(guó)海洋湖沼學(xué)報(bào):英文版,2012(6):1093-1104.
[8]ZHANGChaolei,LIUYazheng,ZHOULeyu,etal.Secondaryhardening,austenitegraincoarseningandsurfacedecarburizationphenomenoninNb-bearingspringsteel[J].鋼鐵研究學(xué)報(bào):英文版,2012(3):47-51.
[9]ZHANGChaolei,ZHOULeyu,LIUYazheng.HeredityintheMicrostructureandMechanicalPropertiesofHot-rolledSpringSteelWire60Si2MnAduringHeatTreatmentProcess[J].材料科學(xué)技術(shù):英文版,2013(1):82-88.
[10]張春田,陳小琳.中國(guó)長(zhǎng)足寄蠅亞科的系統(tǒng)分類(lèi)研究[J].沈陽(yáng)師范大學(xué)學(xué)報(bào):自然科學(xué)版,2008,26(4):封二.
[11]徐海根.中國(guó)生物多樣性元數(shù)據(jù)庫(kù)的研究與開(kāi)發(fā)[J].蘭州大學(xué)學(xué)報(bào):自然科學(xué)版,1999,35(4):103-108.
[12]徐海根,包浩生.中國(guó)生物多樣性核心元數(shù)據(jù)標(biāo)準(zhǔn)的探討[J].中國(guó)環(huán)境科學(xué),2000,20(2):106-110.
[13]吳善杰.關(guān)于模糊聚類(lèi)分析方法的進(jìn)一步思考[J].華北科技學(xué)院學(xué)報(bào),2008,5(1):108-111.
[14]李剛成,劉贊波,曾慶光.一種基于模糊聚類(lèi)的構(gòu)造進(jìn)化樹(shù)方法[J].計(jì)算機(jī)應(yīng)用,2009,29(3):836-838.
[15]劉星毅.一種新的決策樹(shù)分裂屬性選擇方法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2008,18(5):70-72.
【長(zhǎng)足寄蠅生物信息綜合數(shù)據(jù)庫(kù)的搭建】相關(guān)文章:
1.電子信息技術(shù)的遠(yuǎn)程傳輸網(wǎng)絡(luò)搭建論文
2.法院信息決策支持系統(tǒng)的總體設(shè)計(jì)與搭建
3.生物信息學(xué)專(zhuān)業(yè)MySQL數(shù)據(jù)庫(kù)課程教學(xué)方法探討論文