熱門標(biāo)簽:
大家好,今天小編關(guān)注到一個(gè)比較有意思的話題,就是關(guān)于大數(shù)據(jù)的生命周期的問題,于是小編就整理了4個(gè)相關(guān)介紹大數(shù)據(jù)的生命周期的解答,讓我們一起看看吧。
大數(shù)據(jù)技術(shù)包括數(shù)據(jù)收集、數(shù)據(jù)存取、基礎(chǔ)架構(gòu)、數(shù)據(jù)處理、統(tǒng)計(jì)分析、數(shù)據(jù)挖掘、模型預(yù)測、結(jié)果呈現(xiàn)。
1、數(shù)據(jù)收集:在大數(shù)據(jù)的生命周期中,數(shù)據(jù)采集處于第一個(gè)環(huán)節(jié)。根據(jù)MapReduce產(chǎn)生數(shù)據(jù)的應(yīng)用系統(tǒng)分類,大數(shù)據(jù)的采集主要有4種來源:管理信息系統(tǒng)、Web信息系統(tǒng)、物理信息系統(tǒng)、科學(xué)實(shí)驗(yàn)系統(tǒng)。
2、數(shù)據(jù)存取:大數(shù)據(jù)的存去采用不同的技術(shù)路線,大致可以分為3類。第1類主要面對(duì)的是大規(guī)模的結(jié)構(gòu)化數(shù)據(jù)。第2類主要面對(duì)的是半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。第3類面對(duì)的是結(jié)構(gòu)化和非結(jié)構(gòu)化混合的大數(shù)據(jù),
3、基礎(chǔ)架構(gòu):云存儲(chǔ)、分布式文件存儲(chǔ)等。
4、數(shù)據(jù)處理:對(duì)于采集到的不同的數(shù)據(jù)集,可能存在不同的結(jié)構(gòu)和模式,如文件、XML 樹、關(guān)系表等,表現(xiàn)為數(shù)據(jù)的異構(gòu)性。對(duì)多個(gè)異構(gòu)的數(shù)據(jù)集,需要做進(jìn)一步集成處理或整合處理,將來自不同數(shù)據(jù)集的數(shù)據(jù)收集、整理、清洗、轉(zhuǎn)換后,生成到一個(gè)新的數(shù)據(jù)集,為后續(xù)查詢和分析處理提供統(tǒng)一的數(shù)據(jù)視圖。
數(shù)據(jù)如同企業(yè)任何其他資產(chǎn)一樣,也具有生命周期。企業(yè)進(jìn)行大數(shù)據(jù)治理,就需要管理數(shù)據(jù)資產(chǎn),也就是要管理數(shù)據(jù)的生命周期。
數(shù)據(jù)生命周期管理,需要對(duì)數(shù)據(jù)從產(chǎn)生、存儲(chǔ)、維護(hù)、使用到消亡的整個(gè)過程進(jìn)行監(jiān)控和管理。例如,企業(yè)數(shù)據(jù)管理人員需要決定數(shù)據(jù)如何被創(chuàng)建、如何被修改、如何演變、何種數(shù)據(jù)應(yīng)保留在運(yùn)營和分析系統(tǒng)中、何種數(shù)據(jù)要予以存檔、何種數(shù)據(jù)要予以刪除。數(shù)據(jù)生命周期管理需要對(duì)壓縮和存檔的政策、工具進(jìn)行平衡,以降低存儲(chǔ)成本,提高績效。最后,需要結(jié)合企業(yè)當(dāng)前業(yè)務(wù)的需求合理摒棄不再需要的數(shù)據(jù)。
數(shù)據(jù)先被創(chuàng)建,然后存儲(chǔ)、維護(hù)和使用,最終被銷毀。在其生命周期中,數(shù)據(jù)可能被提取、導(dǎo)入、導(dǎo)出、遷移、驗(yàn)證、編輯、更新、清洗、轉(zhuǎn)型、轉(zhuǎn)換、整合、隔離、匯總、引用、評(píng)審、報(bào)告、分析、挖掘、備份、恢復(fù)、歸檔和檢索,最終被刪除。
數(shù)據(jù)的價(jià)值通常體現(xiàn)在使用中,也可能是在未來才有用。數(shù)據(jù)生命周期的所有階段都有相關(guān)的成本和風(fēng)險(xiǎn),但只有在“使用”階段,數(shù)據(jù)才能夠帶來商業(yè)價(jià)值。
大數(shù)據(jù)技術(shù)可以分為數(shù)據(jù)收集、數(shù)據(jù)存取、基礎(chǔ)架構(gòu)、數(shù)據(jù)處理、統(tǒng)計(jì)分析、數(shù)據(jù)挖掘、模型預(yù)測、結(jié)果呈現(xiàn)。以下是詳細(xì)介紹:
1、數(shù)據(jù)收集:在大數(shù)據(jù)的生命周期中,數(shù)據(jù)采集處于第一個(gè)環(huán)節(jié)。根據(jù)MapReduce產(chǎn)生數(shù)據(jù)的應(yīng)用系統(tǒng)分類,大數(shù)據(jù)的采集主要有4種來源:管理信息系統(tǒng)、Web信息系統(tǒng)、物理信息系統(tǒng)、科學(xué)實(shí)驗(yàn)系統(tǒng)。
2、數(shù)據(jù)存?。捍髷?shù)據(jù)的存去采用不同的技術(shù)路線,大致可以分為3類。第1類主要面對(duì)的是大規(guī)模的結(jié)構(gòu)化數(shù)據(jù)。第2類主要面對(duì)的是半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。第3類面對(duì)的是結(jié)構(gòu)化和非結(jié)構(gòu)化混合的大數(shù)據(jù),
一、研究院簡介
北京大數(shù)據(jù)先進(jìn)技術(shù)研究院(Advanced Institute of Big Data,Beijing,AIBD)是由中央批準(zhǔn)設(shè)立,面向國家大數(shù)據(jù)發(fā)展戰(zhàn)略需求,由我國計(jì)算機(jī)領(lǐng)域著名院士領(lǐng)銜,融合多方優(yōu)勢資源,集需求、市場、技術(shù)于一體的高水平新型研發(fā)機(jī)構(gòu),是北京市海淀區(qū)具有獨(dú)立法人資格的新型事業(yè)單位。
研究院以院士團(tuán)隊(duì)為核心,聚集了一批杰出科技英才及其創(chuàng)新團(tuán)隊(duì),并聯(lián)合北京大學(xué)、上海交通大學(xué)等高校開展博士、博士后聯(lián)合培養(yǎng),著力打造一支多層次、多類型的大數(shù)據(jù)人才國家隊(duì)?;趪壹夹g(shù)發(fā)明一等獎(jiǎng)先進(jìn)技術(shù)成果基礎(chǔ),聚焦一體化大數(shù)據(jù)互操作系統(tǒng)研制,致力于打破信息孤島、盤活數(shù)據(jù)資源,推進(jìn)數(shù)聯(lián)網(wǎng)新型基礎(chǔ)設(shè)施建設(shè),實(shí)現(xiàn)數(shù)據(jù)空間中數(shù)據(jù)資源的可信、可管、可控,推動(dòng)我國構(gòu)建萬物互聯(lián)、人機(jī)交互、天地一體的網(wǎng)絡(luò)數(shù)字空間。
研究院北京總部坐落于海淀區(qū)玉泉慧谷,依三山、傍五園,科研工作環(huán)境優(yōu)美,高端創(chuàng)新要素聚集,人才區(qū)位優(yōu)勢明顯,創(chuàng)業(yè)創(chuàng)新條件優(yōu)越。研究院分別在長三角、大西南等區(qū)域設(shè)有分支機(jī)構(gòu)。
二、領(lǐng)域方向
到此,以上就是小編對(duì)于大數(shù)據(jù)的生命周期的問題就介紹到這了,希望介紹關(guān)于大數(shù)據(jù)的生命周期的4點(diǎn)解答對(duì)大家有用。