數(shù)據(jù)挖掘論文的參考文獻
在日常學習、工作生活中,大家都有寫論文的經(jīng)歷,對論文很是熟悉吧,借助論文可以有效訓練我們運用理論和技能解決實際問題的的能力.相信寫論文是一個讓許多人都頭痛的問題,以下是小編收集整理的數(shù)據(jù)挖掘論文的參考文獻,供大家參考借鑒,希望可以幫助到有需要的朋友.
數(shù)據(jù)挖掘論文的參考文獻 篇1
[1]劉瑩。基于數(shù)據(jù)挖掘的商品銷售預測分析[J].科技通報.2014(07)
[2]姜曉娟,郭一娜.基于改進聚類的電信客戶流失預測分析[J].太原理工大學學報.2014(04)
[3]李欣海.隨機森林模型在分類與回歸分析中的應(yīng)用[J].應(yīng)用昆蟲學報.2013(04)
[4]朱志勇,徐長梅,劉志兵,胡晨剛;谪惾~斯網(wǎng)絡(luò)的客戶流失分析研究[J].計算機工程與科學.2013(03)
[5]翟健宏,李偉,葛瑞海,楊茹。基于聚類與貝葉斯分類器的網(wǎng)絡(luò)節(jié)點分組算法及評價模型[J].電信科學.2013(02)
[6]王曼,施念,花琳琳,楊永利。成組刪除法和多重填補法對隨機缺失的二分類變量資料處理效果的比較[J].鄭州大學學報(醫(yī)學版).2012(05)
[7]黃杰晟,曹永鋒。挖掘類改進決策樹[J].現(xiàn)代計算機(專業(yè)版).2010(01)
[8]李凈,張范,張智江。數(shù)據(jù)挖掘技術(shù)與電信客戶分析[J].信息通信技術(shù).2009(05)
[9]武曉巖,李康。基因表達數(shù)據(jù)判別分析的隨機森林方法[J].中國衛(wèi)生統(tǒng)計.2006(06)
[10]張璐。論信息與企業(yè)競爭力[J].現(xiàn)代情報.2003(01)
[11]楊毅超;赪eb數(shù)據(jù)挖掘的作物商務(wù)平臺分析與研究[D].湖南農(nóng)業(yè)大學2008
[12]徐進華;诨疑到y(tǒng)理論的數(shù)據(jù)挖掘及其模型研究[D].北京交通大學2009
[13]俞馳;诰W(wǎng)絡(luò)數(shù)據(jù)挖掘的客戶獲取系統(tǒng)研究[D].西安電子科技大學2009
[14]馮軍。數(shù)據(jù)挖掘在自動外呼系統(tǒng)中的應(yīng)用[D].北京郵電大學2009
[15]于寶華;跀(shù)據(jù)挖掘的高考數(shù)據(jù)分析[D].天津大學2009
[16]王仁彥。數(shù)據(jù)挖掘與網(wǎng)站運營管理[D].華東師范大學2010
[17]彭智軍。數(shù)據(jù)挖掘的若干新方法及其在我國證券市場中應(yīng)用[D].重慶大學2005
[18]涂繼亮;跀(shù)據(jù)挖掘的智能客戶關(guān)系管理系統(tǒng)研究[D].哈爾濱理工大學2005
[19]賈治國。數(shù)據(jù)挖掘在高考填報志愿上的應(yīng)用[D].內(nèi)蒙古大學2005
[20]馬飛。基于數(shù)據(jù)挖掘的航運市場預測系統(tǒng)設(shè)計及研究[D].大連海事大學2006
[21]周霞。基于云計算的太陽風大數(shù)據(jù)挖掘分類算法的研究[D].成都理工大學2014
[22]阮偉玲。面向生鮮農(nóng)產(chǎn)品溯源的基層數(shù)據(jù)庫建設(shè)[D].成都理工大學2015
[23]明慧。復合材料加工工藝數(shù)據(jù)庫構(gòu)建及數(shù)據(jù)集成[D].大連理工大學2014
[24]陳鵬程。齒輪數(shù)控加工工藝數(shù)據(jù)庫開發(fā)與數(shù)據(jù)挖掘研究[D].合肥工業(yè)大學2014
[25]岳雪;诤A繑(shù)據(jù)挖掘關(guān)聯(lián)測度工具的設(shè)計[D].西安財經(jīng)學院2014
[26]丁翔飛。基于組合變量與重疊區(qū)域的SVM—RFE方法研究[D].大連理工大學2014
[27]劉士佳;贛apReduce框架的頻繁項集挖掘算法研究[D].哈爾濱理工大學2015
[28]張曉東。全序模塊模式下范式分解問題研究[D].哈爾濱理工大學2015
[29]尚丹丹;谔摂M機的Hadoop分布式聚類挖掘方法研究與應(yīng)用[D].哈爾濱理工大學2015
[30]王化楠。一種新的混合遺傳的基因聚類方法[D].大連理工大學2014
拓展閱讀
什么是大數(shù)據(jù)?
“大數(shù)據(jù)”到底有多大?根據(jù)研究機構(gòu)統(tǒng)計,僅在2011年,全球數(shù)據(jù)增量就達到了1.8ZB(即1.8萬億GB),相當于全世界每個人產(chǎn)生200GB以上的數(shù)據(jù)。這種增長趨勢仍在加速,據(jù)保守預計,接下來幾年中,數(shù)據(jù)將始終保持每年50%的增長速度。
縱觀人類歷史,每一次劃時代的變革都是以新工具的出現(xiàn)和應(yīng)用為標志的。蒸汽機把人們從農(nóng)業(yè)時代帶入了工業(yè)時代,計算機和互聯(lián)網(wǎng)把人們從工業(yè)時代帶入了信息時代,而如今大數(shù)據(jù)時代已經(jīng)到來,它源自信息時代,又是信息時代全方位的深化應(yīng)用與延伸。大數(shù)據(jù)時代的生產(chǎn)原材料是數(shù)據(jù),生產(chǎn)工具則是大數(shù)據(jù)技術(shù),是對信息時代所產(chǎn)生的海量數(shù)據(jù)的挖掘和分析,從而快速地獲取有價值信息的技術(shù)和應(yīng)用。
概括來講,大數(shù)據(jù)有三個特征,可總結(jié)歸納為“3V”,即量(Volume)、類(Variety)、時(Velocity)。量,數(shù)據(jù)容量大,現(xiàn)在數(shù)據(jù)單位已經(jīng)躍升至ZB級別。類,數(shù)據(jù)種類多,主要來自業(yè)務(wù)系統(tǒng),例如社交網(wǎng)絡(luò)、電子商務(wù)和物聯(lián)網(wǎng)應(yīng)用。時,處理速度快,時效性要求高,從傳統(tǒng)的事務(wù)性數(shù)據(jù)到實時或準實時數(shù)據(jù)。
什么是數(shù)據(jù)挖掘?
數(shù)據(jù)挖掘,又稱為知識發(fā)現(xiàn)(Knowledge Discovery),是通過分析每個數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù)。知識發(fā)現(xiàn)過程通常由數(shù)據(jù)準備、規(guī)律尋找和規(guī)律表示3個階段組成。數(shù)據(jù)準備是從數(shù)據(jù)中心存儲的數(shù)據(jù)中選取所需數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集;規(guī)律尋找是用某種方法將數(shù)據(jù)集所含規(guī)律找出來;規(guī)律表示則是盡可能以用戶可理解的方式(如可視化)將找出的規(guī)律表示出來。
“數(shù)據(jù)海量、信息缺乏”是相當多企業(yè)在數(shù)據(jù)大集中之后面臨的尷尬問題。目前,大多數(shù)事物型數(shù)據(jù)庫僅實現(xiàn)了數(shù)據(jù)錄入、查詢和統(tǒng)計等較低層次的功能,無法發(fā)現(xiàn)數(shù)據(jù)中存在的有用信息,更無法進一步通過數(shù)據(jù)分析發(fā)現(xiàn)更高的價值。如果能夠?qū)@些數(shù)據(jù)進行分析,探尋其數(shù)據(jù)模式及特征,進而發(fā)現(xiàn)某個客戶、群體或組織的興趣和行為規(guī)律,專業(yè)人員就可以預測到未來可能發(fā)生的變化趨勢。這樣的數(shù)據(jù)挖掘過程,將極大拓展企業(yè)核心競爭力。例如,在網(wǎng)上購物時遇到的提示“瀏覽了該商品的人還瀏覽了如下商品”,就是在對大量的購買者“行為軌跡”數(shù)據(jù)進行記錄和挖掘分析的基礎(chǔ)上,捕捉總結(jié)購買者共性習慣行為,并針對性地利用每一次購買機會而推出的銷售策略。
數(shù)據(jù)挖掘在供電企業(yè)的應(yīng)用前景
隨著社會的進步和信息通信技術(shù)的發(fā)展,信息系統(tǒng)在各行業(yè)、各領(lǐng)域快速拓展。這些系統(tǒng)采集、處理、積累的數(shù)據(jù)越來越多,數(shù)據(jù)量增速越來越快,以至用“海量、爆炸性增長”等詞匯已無法形容數(shù)據(jù)的增長速度。
2011年5月,全球知名咨詢公司麥肯錫全球研究院發(fā)布了一份題為《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的.下一個新領(lǐng)域》的報告。報告中指出,數(shù)據(jù)已經(jīng)滲透到每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,逐漸成為重要的生產(chǎn)因素;而人們對于大數(shù)據(jù)的運用預示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來。2012年3月29日,美國政府在白宮網(wǎng)站上發(fā)布了《大數(shù)據(jù)研究和發(fā)展倡議》,表示將投資2億美元啟動“大數(shù)據(jù)研究和發(fā)展計劃”,增強從大數(shù)據(jù)中分析萃取信息的能力。
在電力行業(yè),堅強智能電網(wǎng)的迅速發(fā)展使信息通信技術(shù)正以前所未有的廣度、深度與電網(wǎng)生產(chǎn)、企業(yè)管理快速融合,信息通信系統(tǒng)已經(jīng)成為智能電網(wǎng)的“中樞神經(jīng)”,支撐新一代電網(wǎng)生產(chǎn)和管理發(fā)展。目前,國家電網(wǎng)公司已初步建成了國內(nèi)領(lǐng)先、國際一流的信息集成平臺。隨著三地集中式數(shù)據(jù)中心的陸續(xù)投運,一級部署業(yè)務(wù)應(yīng)用范圍的拓展,結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中心的上線運行,電網(wǎng)業(yè)務(wù)數(shù)據(jù)從總量和種類上都已初具規(guī)模。隨著后續(xù)智能電表的逐步普及,電網(wǎng)業(yè)務(wù)數(shù)據(jù)將從時效性層面進一步豐富和拓展。大數(shù)據(jù)的“量類時”特性,已在海量、實時的電網(wǎng)業(yè)務(wù)數(shù)據(jù)中進一步凸顯,電力大數(shù)據(jù)分析迫在眉睫。
當前,電網(wǎng)業(yè)務(wù)數(shù)據(jù)大致分為三類:一是電力企業(yè)生產(chǎn)數(shù)據(jù),如發(fā)電量、電壓穩(wěn)定性等方面的數(shù)據(jù);二是電力企業(yè)運營數(shù)據(jù),如交易電價、售電量、用電客戶等方面的數(shù)據(jù);三是電力企業(yè)管理數(shù)據(jù),如ERP、一體化平臺、協(xié)同辦公等方面的數(shù)據(jù)。如能充分利用這些基于電網(wǎng)實際的數(shù)據(jù),對其進行深入分析,便可以提供大量的高附加值服務(wù)。這些增值服務(wù)將有利于電網(wǎng)安全檢測與控制(包括大災難預警與處理、供電與電力調(diào)度決策支持和更準確的用電量預測),客戶用電行為分析與客戶細分,電力企業(yè)精細化運營管理等等,實現(xiàn)更科學的需求側(cè)管理。
例如,在電力營銷環(huán)節(jié),針對“大營銷”體系建設(shè),以客戶和市場為導向,省級集中的95598客戶服務(wù)、計量檢定配送業(yè)務(wù)屬地化管理的營銷管理體系和24小時面向客戶的營銷服務(wù)系統(tǒng),可通過數(shù)據(jù)分析改善服務(wù)模式,提高營銷能力和服務(wù)質(zhì)量;以分析型數(shù)據(jù)為基礎(chǔ),優(yōu)化現(xiàn)有營銷組織模式,科學配置計量、收費和服務(wù)資源,構(gòu)建營銷稽查數(shù)據(jù)監(jiān)控分析模型;建立各種針對營銷的系統(tǒng)性算法模型庫,發(fā)現(xiàn)數(shù)據(jù)中存在的隱藏關(guān)系, 為各級決策者提供多維的、直觀的、全面的、深入的分析預測性數(shù)據(jù), 進而主動把握市場動態(tài),采取適當?shù)臓I銷策略,獲得更大的企業(yè)效益,更好地服務(wù)于社會和經(jīng)濟發(fā)展。此外,還可以考慮在電力生產(chǎn)環(huán)節(jié),利用數(shù)據(jù)挖掘技術(shù),在線計算輸送功率極限,并考慮電壓等因素對功率極限的影響,從而合理設(shè)置系統(tǒng)輸出功率,有效平衡系統(tǒng)的安全性和經(jīng)濟性。
公司具備非常好的從數(shù)據(jù)運維角度實現(xiàn)更大程度信息、知識發(fā)現(xiàn)的條件和基礎(chǔ),完全可以立足數(shù)據(jù)運維服務(wù),創(chuàng)造數(shù)據(jù)增值價值,提供并衍生多種服務(wù)。以數(shù)據(jù)中心為紐帶,新型數(shù)據(jù)運維的成果將有可能作為一種新的消費形態(tài)與交付方式,給客戶帶來全新的使用體驗,打破傳統(tǒng)業(yè)務(wù)系統(tǒng)間各自為陣的局面,進一步推動電網(wǎng)生產(chǎn)和企業(yè)管理,從數(shù)據(jù)運維角度對企業(yè)生產(chǎn)經(jīng)營、管理以及堅強智能電網(wǎng)建設(shè)提供更有力、更長遠、更深入的支撐。
數(shù)據(jù)挖掘?qū)I(yè)就業(yè)方向
1.數(shù)據(jù)挖掘主要是做算法還是做應(yīng)用?分別都要求什么?
這個問題太籠統(tǒng),基本上算法和應(yīng)用是兩個人來做的,可能是數(shù)據(jù)挖掘職位。做算法的比較少,也比較高級。
其實所謂做算法大多數(shù)時候都不是設(shè)計新的算法(這個可以寫論文了),更多的是技術(shù)選型,特征工程抽取,最多是實現(xiàn)一些已經(jīng)有論文但是還沒有開源模塊的算法等,還是要求扎實的算法和數(shù)據(jù)結(jié)構(gòu)功底,以及豐富的分布式計算的知識的,以及不錯的英文閱讀和寫作能力。但即使是這樣也是百里挑一的,很難找到。
絕大讀書數(shù)據(jù)挖掘崗位都是做應(yīng)用,數(shù)據(jù)清洗,用現(xiàn)成的庫建模,如果你自己不往算法或者架構(gòu)方面繼續(xù)提升,和其他的開發(fā)崗位的性質(zhì)基本沒什么不同,只要會編程都是很容易入門的。
2.北上廣以外的普通公司用的多嗎?待遇如何?
實際情況不太清楚,由于數(shù)據(jù)挖掘和大數(shù)據(jù)這個概念太火了,肯定到處都有人招聘響應(yīng)的崗位,但是二線城市可能僅僅是停留在概念上,很多實際的工作并沒有接觸到足夠大的數(shù)據(jù),都是生搬硬套框架(從我面試的人的工作經(jīng)驗上看即使是在北上廣深這種情況也比較多見)。
只是在北上廣深,可能接觸到大數(shù)據(jù)的機會多一些。而且做數(shù)據(jù)挖掘現(xiàn)在熱點的技術(shù)比如Python,Spark,Scala,R這些技術(shù)除了在一線城市之外基本上沒有足夠的市場(因為會的人太少了,二線城市的公司找不到掌握這些技術(shù)的人,不招也沒人學)。
所以我推測二線城市最多的還是用JAVA+Hadoop,或者用JAVA寫一些Spark程序。北上廣深和二線城市程序員比待遇是欺負人,就不討論了。
3.和前端后端程序員比有什么區(qū)別?有什么優(yōu)缺點?
和傳統(tǒng)的前后端程序員相比,最主要的去別就是對編程水平的要求。從我招聘的情況來看,做數(shù)據(jù)挖掘的人編程水平要求可以降低一個檔次,甚至都不用掌握面向?qū)ο蟆?/p>
但是要求技術(shù)全面,編程、SQL,Linux,正則表達式,Hadoop,Spark,爬蟲,機器學習模型等技術(shù)都要掌握一些。前后端可能是要求精深,數(shù)據(jù)挖掘更強調(diào)廣博,有架構(gòu)能力更好。
4.目前在學習機器學習,如果想找數(shù)據(jù)挖掘方面的工作應(yīng)該學習哪些內(nèi)容?
打基礎(chǔ)是最重要的,學習一門數(shù)據(jù)挖掘常用的語言,比如Python,Scala,R;學習足夠的Linux經(jīng)驗,能夠通過awk,grep等Linux命令快速的處理文本文件。掌握SQL,MySQL或者PostgreSQL都是比較常用的關(guān)系型數(shù)據(jù)庫,搞數(shù)據(jù)的別跟我說不會用數(shù)據(jù)庫。
補充的一些技能,比如NoSQL的使用,Elasticsearch的使用,分詞(jieba等模塊的使用),算法的數(shù)據(jù)結(jié)構(gòu)的知識。
5.hadoop,hive之類的需要學習嗎?
我覺得應(yīng)當學習,首先Hadoop和Hive很簡單(如果你用AWS的話你可以開一臺EMR,上面直接就有Hadoop和Hive,可以直接從使用學起)。
我覺得如果不折騰安裝和部署,還有Linux和MySQL的經(jīng)驗,只要半天到一天就能熟悉Hadoop和Hive的使用(當然你得有Linux和MySQL的基礎(chǔ),如果沒有就先老老實實的學Linux和MySQL,這兩個都可以在自己的PC上安裝,自己折騰)。
Spark對很多人來說才是需要學習的,如果你有JAVA經(jīng)驗大可以從JAVA入門。如果沒有那么還是建議從Scala入門,但是實際上如果沒有JAVA經(jīng)驗,Scala入門也會有一定難度,但是可以慢慢補。
所以總的來說Spark才足夠難,以至于需要學習。
最后的最后我有一些建議。第一要對自己有一個系統(tǒng)的認知,自己的編程水平夠么,SQL會用么,Linux會用么,能流暢的看英文文檔么?
如果上面任何一個問題的答案是No,我都不建議直接轉(zhuǎn)行或者申請高級的數(shù)據(jù)挖掘職位(因為你很難找到一個正經(jīng)的數(shù)據(jù)挖掘崗位,頂多是一些打擦邊球的崗位,無論是實際干的工作還是未來的成長可能對你的幫助都不大)。
無論你現(xiàn)在是學生還是已經(jīng)再做一些前段后端、運維之類的工作你都有足夠的時間補齊這些基礎(chǔ)知識。
補齊了這些知識之后,第一件事就是了解大數(shù)據(jù)生態(tài),Hadoop生態(tài)圈,Spark生態(tài)圈,機器學習,深度學習(后兩者需要高等數(shù)學和線性代數(shù)基礎(chǔ),如果你的大學專業(yè)學這些不要混)。
【數(shù)據(jù)挖掘論文的參考文獻】相關(guān)文章:
淺談數(shù)據(jù)挖掘財務(wù)分析論文09-12
淺談反病毒數(shù)據(jù)庫的數(shù)據(jù)分類挖掘論文07-08
數(shù)據(jù)結(jié)構(gòu)論文參考文獻07-30
論計算機病毒數(shù)據(jù)庫的數(shù)據(jù)挖掘論文06-21
計算機教學評價中數(shù)據(jù)挖掘的應(yīng)用論文07-06