前言:想要寫出一篇引人入勝的文章?我們特意為您整理了高校大數(shù)據(jù)分析平臺設(shè)計實現(xiàn)范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:隨著高校各類應(yīng)用系統(tǒng)的發(fā)展,信息化建設(shè)將轉(zhuǎn)向大數(shù)據(jù)服務(wù)階段。如何有效利用分散在各系統(tǒng)中的數(shù)據(jù),為學(xué)校的管理與決策提供數(shù)據(jù)支撐,是迫切需要解決的問題。文章闡述了數(shù)據(jù)采集整合過程和分布式存儲技術(shù),設(shè)計了大數(shù)據(jù)分析平臺基礎(chǔ)架構(gòu)和功能模塊,分析了相關(guān)數(shù)據(jù)模型。通過搭建大數(shù)據(jù)分析平臺,測試了數(shù)據(jù)采集功能和各分析模塊的展示情況。
關(guān)鍵詞:大數(shù)據(jù)分析平臺;Hadoop;數(shù)據(jù)采集
引言
隨著高校信息化建設(shè)快速推進,國內(nèi)高校基本完成各類基礎(chǔ)應(yīng)用系統(tǒng)的建設(shè),在應(yīng)用系統(tǒng)中也存儲了大量的數(shù)據(jù),包括教師和學(xué)生的工作、生活、學(xué)習(xí)、教學(xué)和科研等數(shù)據(jù),以及個系統(tǒng)的日志數(shù)據(jù)。由于各系統(tǒng)相對獨立無法進行系統(tǒng)間的數(shù)據(jù)共享,使得這些系統(tǒng)數(shù)據(jù)都閑置在各應(yīng)用系統(tǒng)中。因為在學(xué)校的管理與決策中缺乏真實可靠的數(shù)據(jù)做支撐,所以研究如何將閑置的數(shù)據(jù)有效利用起來,對高校的信息化建設(shè)會更有意義。大數(shù)據(jù)分析平臺是在現(xiàn)有各應(yīng)用系統(tǒng)的基礎(chǔ)上,對各系統(tǒng)匯集起的海量數(shù)據(jù)資源進行清洗、整理、挖掘、分析等操作后,數(shù)據(jù)標準化程度提高其利用價值也更大。大數(shù)據(jù)分析平臺的基礎(chǔ)是數(shù)據(jù),核心是分析模型,目標是應(yīng)用。本文將整合校園內(nèi)各應(yīng)用系統(tǒng)數(shù)據(jù),并對其進行挖掘、整理、分析,然后通過構(gòu)建數(shù)據(jù)模型,搭建統(tǒng)一的大數(shù)據(jù)分析平臺,實現(xiàn)對零散的數(shù)據(jù)進行整合分析,分析結(jié)果可以為學(xué)校及各部門的管理和決策提供數(shù)據(jù)支撐,數(shù)據(jù)的利用價值也更高。對師生在工作、生活、學(xué)習(xí)、教學(xué)和科研方面提供行為分析,分析結(jié)果為學(xué)校優(yōu)化管理方式,提升服務(wù)水平提供指導(dǎo),勾畫“千人千面”,讓學(xué)校真正了解師生。
1關(guān)鍵技術(shù)簡介
Hadoop[1]是一個分布式系統(tǒng)基礎(chǔ)架構(gòu),充分利用集群的優(yōu)勢對數(shù)據(jù)進行運算和存儲。Hadoop由許多元素構(gòu)成,底層是分布式文件系統(tǒng)(HadoopDistributedFileSystem,HDFS),用來存儲集群中所有存儲節(jié)點中的文件。HDFS上一層是Ma-pReduce引擎,為海量的數(shù)據(jù)提供高速計算。ETL(Extract-Transform-Load)[2]是用來描述將數(shù)據(jù)從源端經(jīng)過抽取(Extract)、轉(zhuǎn)換(Transform)、加載(Load)到目的端的過程。使用ETL目的是將學(xué)校中分散、零亂、標準不統(tǒng)一的數(shù)據(jù)整合到一起,為學(xué)校管理決策提供數(shù)據(jù)支撐。Sqoop[3]是一款開源的工具,主要用于在Hadoop(Hive)與傳統(tǒng)的數(shù)據(jù)庫間進行數(shù)據(jù)的傳遞,可以將一個關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)入HDFS,也可以將HDFS的數(shù)據(jù)回流到關(guān)系型數(shù)據(jù)庫中。Sqoop也為NoSQL數(shù)據(jù)庫它也提供了連接器。Nutch[4]是一個開源的高度可擴展和可伸縮性的分布式爬蟲框架。Nutch主要由爬蟲Crawler和查詢Searcher組成,Craw-ler主要用于從網(wǎng)絡(luò)上抓取網(wǎng)頁并建立索引,Searcher主要利用這些索引檢索用戶的查找關(guān)鍵詞來產(chǎn)生查找結(jié)果。兩者之間的接口是索引,所以除去索引部分,兩者之間的耦合度很低。
2基礎(chǔ)架構(gòu)設(shè)計
2.1數(shù)據(jù)采集
大數(shù)據(jù)分析應(yīng)用采用Hadoop平臺及生態(tài)工具,從校園卡數(shù)據(jù)、上網(wǎng)日志數(shù)據(jù)、教學(xué)數(shù)據(jù)、師生管理數(shù)據(jù)和安防數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù)庫,以及網(wǎng)絡(luò)和相關(guān)表格文件等非結(jié)構(gòu)化數(shù)據(jù)中,采集師生相關(guān)業(yè)務(wù)數(shù)據(jù)到分布式數(shù)據(jù)中心進行存儲、挖掘、分析和展示。確保數(shù)據(jù)采集對應(yīng)用系統(tǒng)運行不產(chǎn)生影響的情況下,可實時或定時增量采集數(shù)據(jù)。為了便于擴展,架構(gòu)還支持從其它關(guān)系型數(shù)據(jù)庫、非關(guān)系型數(shù)據(jù)庫中采集結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),挖掘關(guān)聯(lián)性更多的數(shù)據(jù)關(guān)系。數(shù)據(jù)采集架構(gòu)如圖1。數(shù)據(jù)采集是大數(shù)據(jù)分析中最重要的一部分。結(jié)構(gòu)化的數(shù)據(jù)通過統(tǒng)一數(shù)據(jù)集成管道對業(yè)務(wù)系統(tǒng)數(shù)據(jù)進行抽取,按照數(shù)據(jù)分析模型要求對各應(yīng)用系統(tǒng)數(shù)據(jù)利用經(jīng)過抽取,轉(zhuǎn)換,加載至主數(shù)據(jù)庫;表格數(shù)據(jù)通過填報或?qū)氲姆绞竭M入主數(shù)據(jù)庫;日志數(shù)據(jù)通過日志處理工具讀入主數(shù)據(jù)庫;互聯(lián)網(wǎng)中的社交、科研、輿情、Web等數(shù)據(jù)通過爬蟲工具采集至主數(shù)據(jù)庫。
2.2數(shù)據(jù)清洗整合
數(shù)據(jù)質(zhì)量是大數(shù)據(jù)分析效果的基礎(chǔ),數(shù)據(jù)質(zhì)量的管理,是發(fā)揮數(shù)據(jù)價值的基石,也是大數(shù)據(jù)分析的重要前提。在數(shù)據(jù)分析平臺的建設(shè)過程中數(shù)據(jù)的清洗整合的工作占70%以上。大數(shù)據(jù)分析平臺從數(shù)據(jù)使用的角度管理數(shù)據(jù)的質(zhì)量,以可視化的形式反映數(shù)據(jù)質(zhì)量問題,數(shù)據(jù)也可以利用可視化的界面對質(zhì)量檢測規(guī)則進行配置。通過數(shù)據(jù)采集存入主數(shù)據(jù)庫中的數(shù)據(jù)質(zhì)量較差,容易出現(xiàn)空字段,數(shù)據(jù)標準不一致,數(shù)據(jù)描述不統(tǒng)一。數(shù)據(jù)的清洗整合主要通用數(shù)據(jù)質(zhì)量規(guī)則進行自定義配置,根據(jù)規(guī)則對主數(shù)據(jù)庫中存在異常的數(shù)據(jù)通過缺值填寫、無效值重復(fù)值刪除、異常值優(yōu)化等方法提高數(shù)據(jù)質(zhì)量,根據(jù)數(shù)據(jù)分析模型整合已抽取的數(shù)據(jù)。
2.3分布式存儲及數(shù)據(jù)分析
分布式存儲主要是通過Hadoop分布式文件系統(tǒng)(HDFS)以及MapReduce框架將數(shù)據(jù)分散存儲在多臺獨立的設(shè)備上[5],具有可擴展、低成本、高性能、易用等特征。傳統(tǒng)的網(wǎng)絡(luò)存儲是將所有數(shù)據(jù)集中存儲到存儲服務(wù)器上,存儲服務(wù)器的性能對存儲數(shù)據(jù)的影響較大,也成為平臺性能的瓶頸,不能滿足大規(guī)模數(shù)據(jù)存儲及使用的需要。在大數(shù)據(jù)分析平臺上使用分布式存儲,不但可以提高系統(tǒng)的可靠性、可用性和存取效率,還易于擴展。高校存儲的大量數(shù)據(jù)應(yīng)用價值非常高,通過對抽取的數(shù)據(jù)進行標準化處理,搭建分析模型,實現(xiàn)用數(shù)據(jù)對師生的行為進行畫像,實時了解學(xué)生學(xué)習(xí)、教師教課等情況。
2.4平臺架構(gòu)體系設(shè)計
大數(shù)據(jù)分析平臺主要向用戶展示師生行為,綜合數(shù)據(jù)分析,校情信息,教學(xué)及學(xué)習(xí)情況等。在平臺架構(gòu)設(shè)計中要充分了解學(xué)校各系統(tǒng)目前運行情況,學(xué)校各單位對數(shù)據(jù)的需求,以及學(xué)校目前的數(shù)據(jù)重量情況,在架構(gòu)設(shè)計和數(shù)據(jù)存儲空間設(shè)計時充分考慮平臺發(fā)展的需要。底層數(shù)據(jù)抽取、清洗整合、分析建模等基礎(chǔ)工作并不能向用戶展示,數(shù)據(jù)的準確性和模型的合理性決定了分析結(jié)果的可靠性。大數(shù)據(jù)分析平臺架構(gòu)體系如圖2:此架構(gòu)體系可以兼容多數(shù)高校已經(jīng)建設(shè)的數(shù)字校園結(jié)構(gòu)體系,可以與已有的平臺和數(shù)據(jù)中心相輔相成,建設(shè)效率更快的情況下還能節(jié)省成本。讓原來的建設(shè)成果發(fā)揮更大的價值。
3大數(shù)據(jù)分析平臺功能設(shè)計
大數(shù)據(jù)分析平臺的場景應(yīng)用是指通過數(shù)據(jù)建模把數(shù)據(jù)從各種維度、特征進行分析,然后根據(jù)不同的場景應(yīng)用對分析結(jié)果進行展示。各應(yīng)用場景的分析模型搭建需要充分了解各系統(tǒng)數(shù)據(jù),以便于從多維度區(qū)分數(shù)據(jù)需求程度。在高校大數(shù)據(jù)分析中,數(shù)據(jù)的來源主要從學(xué)生綜合系統(tǒng),人力資源,教務(wù)管理,圖書管理,校園卡系統(tǒng),安防,上網(wǎng)管理,科研管理、資產(chǎn)管理和醫(yī)院管理等系統(tǒng)中獲取。大數(shù)據(jù)深入分析時,還要對非結(jié)構(gòu)化表格數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)進行采集,如通過表格填寫進行管理數(shù)據(jù)采集,利用爬蟲程序?qū)ヂ?lián)網(wǎng)中期刊數(shù)據(jù)庫、微博數(shù)據(jù)、網(wǎng)頁數(shù)據(jù)、以及微信公眾號文章等數(shù)據(jù)進行采集,再結(jié)合學(xué)校其它相對變化不大的數(shù)據(jù),能搭建出更有價值的分析模型。各高校都有自己的特點,現(xiàn)有的各種分析模型并不能通用,必須根據(jù)本校實際情況對已有的分析模型進行優(yōu)化或重新搭建。其中行為軌跡主要通過對各系統(tǒng)中定時定點的數(shù)據(jù)進行串聯(lián),形成一條行為路線。
3.1學(xué)生數(shù)據(jù)分析
高校管理中對學(xué)生的管理十分重要,對學(xué)生的數(shù)據(jù)分析需要站在學(xué)生的角度進行思考,如學(xué)生上課考勤分析,首先針對學(xué)生的課表、學(xué)生請銷假、教室考勤機、校園卡記錄、上網(wǎng)記錄、圖書借閱、安防數(shù)據(jù)、校醫(yī)院系統(tǒng)等可以分析出有哪些學(xué)生沒有上課。根據(jù)學(xué)生日常行為軌跡或習(xí)慣,以及消費情況分析該生是否在談戀愛。根據(jù)學(xué)生上數(shù)據(jù)分析該生是否沉迷于網(wǎng)游。通過分析學(xué)生上課情況、教師情況、行為軌跡或習(xí)慣、以及相似課程成績等數(shù)據(jù)對學(xué)生的學(xué)習(xí)情況進行預(yù)警,并對產(chǎn)生預(yù)警的原因進行分析。通過數(shù)據(jù)分析使學(xué)生管理者輕松的掌握學(xué)生狀態(tài),同時也可得到出現(xiàn)該狀態(tài)的原因。在貧困生鑒別和精準扶貧方面,根據(jù)學(xué)生每月在校消費情況、家庭情況、助學(xué)貸款等數(shù)據(jù)篩選學(xué)生,并將男女分析算法區(qū)別設(shè)計。學(xué)生宿舍安全方面,通過宿舍智能電表實時監(jiān)測用電情況,對違規(guī)使用大功率、高電流及電表高溫等情況進行實時預(yù)警并將預(yù)警信息推送給相關(guān)人員進行處理。另外還可以通過數(shù)據(jù)分析對學(xué)生異常消費、上網(wǎng)時長,上網(wǎng)行為、心理健康、學(xué)業(yè)、學(xué)生軌跡等情況進行預(yù)警,可以對突發(fā)事件處理給予指導(dǎo)。通過用戶畫像從不同靜態(tài)屬性標簽勾畫學(xué)生人群進行展示,并支持深入挖掘?qū)W生消費行為信息,輔助學(xué)校在勤工助學(xué)、助學(xué)貸款、貧困生評定、價格調(diào)整、餐廳分流、超市分布、浴室建設(shè)等方面提供數(shù)據(jù)支撐。
3.2教師數(shù)據(jù)分析
在教學(xué)管理方面,通過教學(xué)數(shù)據(jù)、學(xué)生評教、學(xué)生到課率、教師備課、科研、圖書借閱等數(shù)據(jù)可以分析出教師所適合的優(yōu)勢課程,為教學(xué)管理人員課程安排提供指導(dǎo),將數(shù)據(jù)推送至教師可以為其發(fā)展提供指導(dǎo)。通過教師的校園卡消費、行為軌跡、上網(wǎng)數(shù)據(jù)等數(shù)據(jù)分析教師是否存在離職風(fēng)險,如校園卡消費方面出現(xiàn)有意清零或提現(xiàn),經(jīng)常瀏覽招聘網(wǎng)站或投遞簡歷等行為。
3.3其他數(shù)據(jù)分析
大數(shù)據(jù)分析能夠?qū)W(xué)生和教師分析外,還可以從其他方面進行分析用來服務(wù)于校領(lǐng)導(dǎo)、后勤管理、校園卡管理、校園安全管理等。科研分析方面,通過對年度科研項目立項和科研成果等科研數(shù)據(jù)的分析,可以預(yù)測學(xué)校科研發(fā)展情況,結(jié)合學(xué)校發(fā)展目標對發(fā)現(xiàn)的問題及時進行干預(yù)。教學(xué)管理方面,通過對不同專業(yè)、不同年級學(xué)生的選課情況和課程成績等數(shù)據(jù)的分析,是否需要對學(xué)校開設(shè)的選修課信息通信王樹國等:高校大數(shù)據(jù)分析平臺設(shè)計與實現(xiàn)進行調(diào)整,以適應(yīng)學(xué)校的培養(yǎng)目標和學(xué)生的學(xué)習(xí)興趣。學(xué)生管理方面,通過校園卡、安防終端、相關(guān)賬號等數(shù)據(jù)可以進行身份識別,可以通過數(shù)據(jù)分析獲得實時在校人數(shù),以及早出晚歸、夜不歸宿的學(xué)生,在綜合學(xué)生數(shù)據(jù)后對學(xué)生的行為進行安全預(yù)警。餐飲消費、行為軌跡等數(shù)據(jù)與學(xué)習(xí)成績進行分析,分析結(jié)果可以指導(dǎo)輔導(dǎo)員對學(xué)生進行分類管理。餐廳管理方面,通過對師生消費時間、季節(jié)、窗口人流量、消費金額等數(shù)據(jù)分析,后勤和餐飲經(jīng)營者可以清楚的知道每個餐廳、每個窗口消費及收入情況,便于后勤對餐廳的管理,并及時對餐廳或窗口進行優(yōu)化調(diào)整。可通過結(jié)合消費人群信息對消費用戶數(shù)據(jù)深入挖掘,獲得不同地方的人喜歡的口味,不同年級學(xué)生的餐飲習(xí)慣等情況。上網(wǎng)管理方面,通過對上網(wǎng)數(shù)據(jù)進行分類匯總、關(guān)鍵詞提取、應(yīng)用程序分類、安全設(shè)備日志分析、用戶信息分類等數(shù)據(jù)進行分析,可以為學(xué)校網(wǎng)絡(luò)保障、網(wǎng)絡(luò)用戶管理、網(wǎng)絡(luò)安全預(yù)警、個人信息保護等提供數(shù)據(jù)支撐。圖書館管理方面,通過對學(xué)生和教師借閱時間、借閱書籍類型、借閱人類型、館藏圖書、在線期刊數(shù)據(jù)庫瀏覽等數(shù)據(jù)分析,以及學(xué)生進出圖書館的次數(shù)與成績之間的關(guān)系,為圖書館管理和圖書需求情況提供數(shù)據(jù)支撐,更便于師生了解圖書館進出高峰時間段、哪個區(qū)域人流量較多、哪種書籍更受人喜歡等信息。校園安全方面,通過對校園安防平臺中進出校門、進出校內(nèi)各樓宇、視頻邊界和人員密度報警等數(shù)據(jù)的分析,為學(xué)校安全管理提供指導(dǎo)。對校園卡及財務(wù)數(shù)據(jù)分析,可以讓校園卡管理老師了解學(xué)生、老師、臨時卡等在消費、充值、使用等方面的情況,為師生進一步提高服務(wù)質(zhì)量和主動服務(wù)意識提供指導(dǎo)。大數(shù)據(jù)分析平臺主要功能設(shè)計如圖3。大數(shù)據(jù)分析平臺可對用戶進行功能和數(shù)據(jù)授權(quán)。數(shù)據(jù)權(quán)限可分為全局、院系、輔導(dǎo)員和普通老師等級別,模塊權(quán)限可根據(jù)角色對功能模塊進行授權(quán)。可為師生提供大數(shù)據(jù)報告,可在PC和手機端訪問。學(xué)生和老師可了解食堂擁擠、窗口美食、洗澡高峰、充值趨勢、消費水平等等。數(shù)據(jù)智能管理方面,可以把數(shù)據(jù)庫中的數(shù)據(jù)根據(jù)自己想要的結(jié)果輕松配置出來,功能強大,操作簡單,用戶可自己操作。
4平臺實現(xiàn)
數(shù)據(jù)分析平臺基于JAVA框架,使用在智能代碼助手、重構(gòu)、JUnit、CVS整合、代碼分析等方面功能優(yōu)越的IntelliJIDEA進行開發(fā),數(shù)據(jù)庫使用Oracle。在數(shù)據(jù)源管理中,利用Sqoop工具在Hadoop與關(guān)系型數(shù)據(jù)庫間進行數(shù)據(jù)的傳遞,也可以實現(xiàn)數(shù)據(jù)雙向流通,其底層實現(xiàn)就是MapReduce。對某些NoSQL數(shù)據(jù)庫利用Sqoop連接器,同樣可以實現(xiàn)數(shù)據(jù)流。新建數(shù)據(jù)源如圖4所示。權(quán)限管理在大數(shù)據(jù)分析平臺管理中主要進行組織管理,角色管理,用戶管理等。其中用戶角色定義中,根據(jù)不同用戶的需求分別定義管理員、校領(lǐng)導(dǎo)、院處領(lǐng)導(dǎo)、辦公室、教師、輔導(dǎo)員、學(xué)生等角色,根據(jù)不同角色劃分不同權(quán)限,每種角色都可以訂閱本角色范圍內(nèi)的需求信息,也可以根據(jù)學(xué)校管理需要給特定人推送相關(guān)信息。在用戶管理中對不同角色用戶可以進行批量權(quán)限劃分,通過對前臺的編碼實現(xiàn)對分析結(jié)果的展示,個人畫像展示如圖5。
5結(jié)語
闡述了高校在數(shù)據(jù)管理方面存在的問題,構(gòu)建了大數(shù)據(jù)分析平臺技術(shù)架構(gòu),功能模塊。基于Hadoop技術(shù)對大數(shù)據(jù)分析平臺的部分功能進行了測試。平臺試運行后為在校師生提供了統(tǒng)一的數(shù)據(jù)推送服務(wù),并為相關(guān)部門的管理提供了數(shù)據(jù)支撐。平臺在對數(shù)據(jù)抽取和分析模型搭建方面還有進一步提升的空間,例如在學(xué)生健康狀況分析和學(xué)習(xí)情況分析,可以通過進一步數(shù)據(jù)挖掘,分析出質(zhì)量更高的結(jié)果。
參考文獻:
[2]陳鋒.ETL數(shù)據(jù)治理在高校信息化建設(shè)中的研究與應(yīng)用.中國教育信息化[J].2020(13):68-70.
[3]王建軍,張英成,戰(zhàn)非,趙侃.基于Sqoop的高校海量結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入研究[J].無線互聯(lián)科技.2018(20):52-53.
[4]周飚.網(wǎng)絡(luò)數(shù)據(jù)采集框架Nutch及其應(yīng)用研究[J].中國管理信息化,2019,22(18):167-169.
[5]王立友.高校智慧校園大數(shù)據(jù)平臺的設(shè)計與實現(xiàn)[J].河北民族師范學(xué)院學(xué)報,2020,40(2):88-93.
作者:王樹國 皮宗輝 付文豪 單位:喀什大學(xué)網(wǎng)絡(luò)與信息管理中心