【論文精選】基于燃?xì)獍踩L(fēng)險的大數(shù)據(jù)預(yù)警模型研究
【論文精選】基于燃?xì)獍踩L(fēng)險的大數(shù)據(jù)預(yù)警模型研究
GAS-HEAT1978
《煤氣與熱力》始于1978年,創(chuàng)刊于1981年,中國核心期刊,中國土木工程學(xué)會燃?xì)夥謺?。篩選燃?xì)夤嵝袠I(yè)最有價值的技術(shù)信息,新聞分類整理、政策標(biāo)準(zhǔn)、熱點討論、投稿查詢、論文檢索、寫作指導(dǎo)、編委風(fēng)采、精品會議……
官網(wǎng)注冊后
http://www.gasheat.cn
免費下載論文
作者:劉江濤,張濤,吳波,顧先凱,李春青,關(guān)鴻鵬,李夏喜,曹印峰,詹淑慧,甘穎濤,蔭東錦,任立坤
第一作者單位:北京市市政工程設(shè)計研究總院有限公司
摘自《煤氣與熱力》2018年12月刊
1 概述
21世紀(jì),被稱為天然氣時代 [1] ,城市燃?xì)庠诮o居民生活及經(jīng)濟(jì)發(fā)展帶來正向作用的同時,隨之而來的安全問題也影響著城市及社會的發(fā)展。由于管理跟不上發(fā)展的步伐,加之管道腐蝕以及第三方施工破壞, 燃?xì)庑孤?/span> 突發(fā)性大,可控性差,威脅著周邊環(huán)境中人員財產(chǎn)安全 [2] 。近年來,燃?xì)庑孤┒鴮?dǎo)致的爆炸事故居高不下,據(jù)統(tǒng)計,2014— 2017 年度全國燃?xì)獗ㄊ鹿史謩e為693、825、908、950 起 [3-4] 。城市燃?xì)馐鹿试斐傻娜藛T傷亡及財產(chǎn)損失不可小覷,同時也造成了不良的社會影響,加之政府及社會對安全關(guān)注度有增無減,燃?xì)夤芫W(wǎng)的安全管理問題,已成為相關(guān)管理者的首要問題。
作為城市能源的主要供應(yīng)方式之一,燃?xì)夤芫W(wǎng)的敷設(shè)遍布城市各個區(qū)域,在管網(wǎng)運行過程中,導(dǎo)致管道泄漏主要是發(fā)生了電流腐蝕、化學(xué)腐蝕和電化學(xué)腐蝕 [ 5 ] 。根據(jù)燃?xì)膺\行實際經(jīng)驗來看,燃?xì)夤艿赖?/span> 腐蝕 不僅取決于管道本身,同時也受到外部環(huán)境因素的影響,即內(nèi)部因素和外部因素。內(nèi)部因素主要體現(xiàn)為管齡、管材、管徑、壓力級制、埋深、防腐措施、管理差異等引起的管道腐蝕情況多樣,該類因素相對具體、固定;外部因素主要體現(xiàn)為地質(zhì)、水文引起的化學(xué)或電化學(xué)腐蝕,鐵路、地鐵等電氣化軌道輸電漏電造成的電流腐蝕,各種腐蝕的疊加,又將進(jìn)一步降低燃?xì)夤艿赖氖褂脡勖?
隨著城市的發(fā)展,外部因素更加多樣,加之外部因素的難辨識,外部因素引起的管道泄漏的管控問題,是城市燃?xì)饷媾R的嚴(yán)峻挑戰(zhàn)。傳統(tǒng)燃?xì)夤艿罊z測方法不僅有成本高、效率低、周期長并受領(lǐng)域知識和領(lǐng)域經(jīng)驗的限制等局限,且對外部因素尚無科學(xué)的動態(tài)管理、反饋機(jī)制,無法對全管網(wǎng)進(jìn)行實時監(jiān)測。
隨著計算機(jī)以及人工智能的發(fā)展,燃?xì)庑袠I(yè)的信息化程度得到進(jìn)一步提高,管道基礎(chǔ)數(shù)據(jù)可以比較全面準(zhǔn)確獲取,為燃?xì)庑袠I(yè)的數(shù)據(jù)分析和模型構(gòu)建提供了必要保障。故本文提出并嘗試采用基于人工智能和機(jī)器學(xué)習(xí)的智能檢測方法,通過運用大數(shù)據(jù)分析技術(shù),建立指標(biāo)間的關(guān)聯(lián)關(guān)系模型,通過易測的過程量去推斷難測的過程量,提升 燃?xì)夤艿?/span> 運行過程的整體可觀可控。
2 管道安全風(fēng)險預(yù)警模型的研究方法
目前城市燃?xì)馐┬械脑谝酃艿栏g泄漏管控的技術(shù)體系主要是依據(jù)行業(yè)和企業(yè)規(guī)范,但是,這種管控體系存在資源成本高、檢測有限、檢測參數(shù)多但數(shù)據(jù)又沒有得到很好的利用等問題,已有的腐蝕泄漏事件也沒有作為反饋數(shù)據(jù)以修正現(xiàn)有體系。如何緩解現(xiàn)有不足對燃?xì)夤芫W(wǎng)腐蝕泄漏管控技術(shù)體系的影響,提升技術(shù)體系的管控效果,是本文構(gòu)建的燃?xì)獍踩L(fēng)險的大數(shù)據(jù)預(yù)警模型(以下簡稱預(yù)警模型)的主要目標(biāo)。
本文以人工智能和機(jī)器學(xué)習(xí)的智能檢測方法為基礎(chǔ),先對研究的應(yīng)用場景進(jìn)行科學(xué)抽象,然后采用合適的算法,運用基本的數(shù)據(jù)挖掘步驟,對所采集的原始數(shù)據(jù)進(jìn)行預(yù)處理并形成可用特征變量文件,再進(jìn)行建模、應(yīng)用場景實驗、解釋和優(yōu)化,并不斷調(diào)整。
目前,有大量的機(jī)器學(xué)習(xí)工具可進(jìn)行數(shù)據(jù)挖掘,本文所采用的是懷卡托智能分析環(huán)境,即weka。
①懷卡托智能分析環(huán)境
數(shù)據(jù)挖掘,也被稱為數(shù)據(jù)庫知識發(fā)現(xiàn),是指從大量的、有噪聲的、不完全的、隨機(jī)的、模糊的實際應(yīng)用數(shù)據(jù)中提取有效的、潛在有用的、新穎的知識過程。數(shù)據(jù)挖掘已在很多行業(yè)得到應(yīng)用,如醫(yī)療、電子等,燃?xì)庑袠I(yè)有所涉及,多用于負(fù)荷預(yù)測,暫時還沒有將該技術(shù)應(yīng)用在腐蝕泄漏方面的研究 [ 6-8 ] 。跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程( Cross-Industry Standard Process for Data Mining , CRISP-DM [ 9 ] )是目前數(shù)據(jù)挖掘與商務(wù)智能領(lǐng)域使用最為廣泛的方法論,該模型將數(shù)據(jù)挖掘分為 6 個不同的階段,順序可按研究情況適當(dāng)調(diào)整,階段之間可相互反饋,整個流程形成閉環(huán)。燃?xì)夤艿佬孤┑目缧袠I(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程見圖 1 。
圖 1 燃?xì)夤艿佬孤┑目缧袠I(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程
針對燃?xì)夤艿佬孤﹩栴},收集內(nèi)外部相關(guān)數(shù)據(jù),并對數(shù)據(jù)進(jìn)行處理和特征提取,建立weka可用的正負(fù)樣本數(shù)據(jù)集。利用決策樹、隨機(jī)森林等多種算法進(jìn)行建模和驗證,找出最優(yōu)預(yù)警模型算法。
本文將燃?xì)夤艿佬孤﹩栴}形式化為有監(jiān)督學(xué)習(xí)中的預(yù)測問題,即y=f( x ),其中 y 表示管道泄漏的可能性, x 是管道泄漏相關(guān)的因素與變量,既包括內(nèi)部因素,也包括外部因素。當(dāng)收集了大量的( x , y )數(shù)據(jù)之后,利用這些數(shù)據(jù)訓(xùn)練模型,學(xué)習(xí)得到 f ( x ),即預(yù)警模型。最后,根據(jù)燃?xì)夤艿赖臋z測數(shù)據(jù),實現(xiàn)整個燃?xì)夤芫W(wǎng)的風(fēng)險預(yù)測。
關(guān)于數(shù)據(jù)的獲取,首先,根據(jù)管道運營方面的領(lǐng)域知識,采集了管齡、管材、管徑、壓力級制、埋深、管理單位等與 燃?xì)庑孤?/span> 密切相關(guān)的6類內(nèi)部數(shù)據(jù);其次,從多源數(shù)據(jù)融合角度,采集了水文、電氣化軌道、地標(biāo)建筑分布等可能會對管道泄漏造成影響的大量外部因素數(shù)據(jù)。
②本文的研究內(nèi)容
本文在懷卡托智能分析環(huán)境下,執(zhí)行標(biāo)準(zhǔn)的數(shù)據(jù)挖掘流程,將燃?xì)飧g破壞業(yè)務(wù)問題轉(zhuǎn)化為數(shù)據(jù)挖掘問題,利用機(jī)器學(xué)習(xí)技術(shù),找到腐蝕破壞與內(nèi)外部影響特征之間的關(guān)系。
具體的研究工作主要有數(shù)據(jù)預(yù)處理、預(yù)警模型訓(xùn)練算法選擇、實驗。
3 數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理,是數(shù)據(jù)挖掘項目中耗時最長也是最重要的一個環(huán)節(jié),不僅是節(jié)約時間成本的首要途徑,更是最后模型精確度的必要保障 [ 10 ] ,本研究中,數(shù)據(jù)預(yù)處理的流程見圖 2 。
圖 2 數(shù)據(jù)預(yù)處理流程
①原始數(shù)據(jù)的獲取
根據(jù)文獻(xiàn)調(diào)研和前期研究發(fā)現(xiàn),數(shù)據(jù)源的質(zhì)量差將引起數(shù)據(jù)挖掘結(jié)果的不準(zhǔn)確甚至錯誤,因此保證原始數(shù)據(jù)的準(zhǔn)確性至關(guān)重要。本文針對某燃?xì)饧瘓F(tuán)的地下管道風(fēng)險辨識困難,無法準(zhǔn)確檢測造成的燃?xì)夤艿佬孤﹩栴},擬采用數(shù)據(jù)挖掘建立預(yù)警模型。首先,需根據(jù)研究領(lǐng)域知識和情況,結(jié)合專家分析確定所需的數(shù)據(jù)項并通過嚴(yán)格、規(guī)范的過程獲取有較高影響因子的變量。
a.內(nèi)部因素數(shù)據(jù)獲取
內(nèi)部因素數(shù)據(jù)來源主要為某燃?xì)饧瘓F(tuán)的應(yīng)急事件數(shù)據(jù)、安全隱患數(shù)據(jù)、結(jié)構(gòu)類技改大修數(shù)據(jù)、陰極保護(hù)數(shù)據(jù)、管道防腐檢測數(shù)據(jù)、壓力管道檢測數(shù)據(jù)和管網(wǎng)基礎(chǔ)數(shù)據(jù)。內(nèi)部因素原始數(shù)據(jù)詳情見表1。
表 1 內(nèi)部因素原始數(shù)據(jù)詳情
b.外部因素數(shù)據(jù)
外部因素數(shù)據(jù)主要來自開源的電子系統(tǒng),包括分析區(qū)域的地鐵、鐵路、水系面、道路附屬設(shè)施等。外部因素原始數(shù)據(jù)詳情見表2。
表 2 外部因素原始數(shù)據(jù)詳情
利用計算機(jī)技術(shù)與人工結(jié)合的方式,將獲得的內(nèi)外部因素數(shù)據(jù)進(jìn)行整理并結(jié)構(gòu)化,最終形成包括內(nèi)外部因素數(shù)據(jù)的正負(fù)樣本數(shù)據(jù)庫(Database of Gas Internal and External Data, DGIED )。正樣本指已發(fā)生事故的樣本,負(fù)樣本指未發(fā)生事故的樣本。
②數(shù)據(jù)清洗
在數(shù)據(jù)預(yù)處理過程中,數(shù)據(jù)清洗是耗時且較乏味的一項工作,但也是最重要的一項工作。數(shù)據(jù)的清洗保證了數(shù)據(jù)的準(zhǔn)確性。在初始獲得的正負(fù)樣本數(shù)據(jù)庫中,可能包含噪聲數(shù)據(jù)、冗余數(shù)據(jù)、缺失數(shù)據(jù)甚至錯誤數(shù)據(jù)。
針對噪聲數(shù)據(jù),本文結(jié)合專業(yè)知識,采用聚類技術(shù)以及計算機(jī)和人工相結(jié)合的方式進(jìn)行處理。冗余數(shù)據(jù),利用影響因子分析和經(jīng)驗進(jìn)行整合,選擇其具有最大影響力的或足以反映問題信息的數(shù)據(jù),刪除其余冗余或重復(fù)數(shù)據(jù);缺失數(shù)據(jù),通過計算機(jī)和人工結(jié)合的方式,刪除數(shù)據(jù)缺失較多的數(shù)據(jù)行;根據(jù)行業(yè)知識及實際情況,對獲取的數(shù)據(jù)元組中錯誤的數(shù)據(jù),進(jìn)行更改、刪除或忽略等操作。
③特征變量確定與提取
從清洗后的正負(fù)樣本數(shù)據(jù)庫中提取出對模型開發(fā)有效的數(shù)據(jù)項,即選擇對管道泄漏影響顯著的特征變量,又避免特征變量間的交叉重疊,是數(shù)據(jù)預(yù)處理中最為關(guān)鍵的一步。特征變量的質(zhì)量,直接影響最終模型的分析效果和精確度。
結(jié)合跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程第2步數(shù)據(jù)理解,內(nèi)部數(shù)據(jù)確定為管齡、管材、管徑、壓力級制、埋深、管理單位等與燃?xì)庑孤┟芮邢嚓P(guān)的 6 類;外部因素數(shù)據(jù)確定為鐵路、地鐵等電氣化軌道、水系面(河流與湖泊)等影響管道腐蝕的 3 類。針對鐵路,將其數(shù)量、與正負(fù)樣本點之間的距離作為特征變量;對于地鐵,將地鐵數(shù)量、與正負(fù)樣本點之間的距離作為特征變量;對于河流與湖泊,考慮長度、距離、面積作為特征變量。最后從數(shù)據(jù)庫中隨機(jī)提取正樣本 1 份( 855 個樣本點),負(fù)樣本 4 份(每份各 855 個樣本點)。
④缺失值填補(bǔ)
a.缺失值填補(bǔ)算法—— KNN 算法
KNN 算法 [ 11 ] 是數(shù)據(jù)挖掘中一種經(jīng)典的懶惰學(xué)習(xí)算法,利用已有的訓(xùn)練數(shù)據(jù)實現(xiàn)分類和預(yù)測, k 表示最接近待分類或待預(yù)測樣本的 k 個數(shù)據(jù)樣本。該算法的核心思想是,在一個特征空間內(nèi),找到與數(shù)據(jù)樣本 A 最相似的 k 個已知數(shù)據(jù)標(biāo)簽或值的數(shù)據(jù)樣本,獲取該 k 個訓(xùn)練數(shù)據(jù)的標(biāo)簽或值用于對樣本 A 的標(biāo)簽或值的預(yù)測。
KNN算法具有良好的魯棒性,對數(shù)據(jù)的存儲要求簡單,操作方便, k 的合理選取能夠有效地避免或減小噪聲或缺失值對分類或預(yù)測結(jié)果的影響,即使在給定的訓(xùn)練數(shù)據(jù)非常多時,也仍能保證算法的有效性,因此該算法很好地應(yīng)用于許多領(lǐng)域。本文將運用該算法對特征變量的缺失值進(jìn)行預(yù)測填充。
b.缺失值填補(bǔ)方法
數(shù)據(jù)缺失值的存在會降低模型的準(zhǔn)確率,甚至使數(shù)據(jù)分析和建模的結(jié)果不準(zhǔn)確,若直接忽視或刪除,則降低了數(shù)據(jù)的利用率,甚至使數(shù)據(jù)間的關(guān)聯(lián)性遭到破壞。因此,本文在獲取內(nèi)外部特征變量數(shù)據(jù)后,對特征變量中數(shù)據(jù)缺失的部分運用KNN算法和人工整合方式進(jìn)行填補(bǔ)。
在本文的研究中,僅內(nèi)部因素數(shù)據(jù)埋深項缺失較多,其他特征變量缺失值較少或達(dá)到可用狀態(tài)。針對埋深項的缺失值填充,采用的是KNN算法。
在特征空間中,考慮了兩種距離(不涉及單位),即歐氏距離和曼哈頓距離。對于歐氏距離,考慮了k分別取集合 {5 , 10 , 15 , 20 , 25 , 30} 各元素時預(yù)測情況。對于曼哈頓距離,考慮了 k 分別取集合 {5 , 7 , 9 ,… , 19 , 20 , 22 ,…, 30} 各元素時的預(yù)測情況。預(yù)測精度判斷值計算如下:
R MSE 表征預(yù)測值偏離真實值的程度,值越小,偏離程度越小,即預(yù)測值越準(zhǔn)確。KNN法預(yù)測 R MSE 值見圖3(橫坐標(biāo)中 M05 表示曼哈頓距離 k 取 5 ,其他標(biāo)值同理。 O05 表示歐氏距離 k 取 5 ,其他標(biāo)值同理)。可以看出, M07 的預(yù)測結(jié)果與實際的埋深值最接近,準(zhǔn)確率最高。故采用 M07 的預(yù)測數(shù)據(jù)填充埋深項的缺失值。
圖 3 KNN 法預(yù)測的預(yù)測精度判斷值
對于各樣本的管齡、管材、壓力級制等內(nèi)部因素特征值,正樣本數(shù)據(jù)基本完全,負(fù)樣本數(shù)據(jù)存在少量缺失,本文將負(fù)樣本4作為填充集,尋找除需填補(bǔ)的特征項之外的其他特征項最接近的樣本點數(shù)據(jù),來填充負(fù)樣本 1 、 2 、 3 ,最終得到 3 個負(fù)樣本集。
⑤訓(xùn)練樣本的選取
通過前面步驟獲得的數(shù)據(jù),是數(shù)據(jù)庫中相關(guān)項的全部數(shù)據(jù),數(shù)據(jù)量很龐大,若全部考慮不僅增加了工作量,降低模型訓(xùn)練效率,而且對模型效果的影響不顯著甚至產(chǎn)生負(fù)面影響,因此合理縮小數(shù)據(jù)范圍非常必要。
根據(jù)正負(fù)樣本點的坐標(biāo),選取距離樣本點2 km內(nèi)的外部因素數(shù)據(jù)的特征變量。例如,以鐵路為例,分別以各個樣本點為參考點,獲得離該樣本點最近的鐵路的距離, 700 m 范圍內(nèi)是否含有鐵路以及 2 000 m 范圍內(nèi)鐵路數(shù)量。水系面、地鐵與其類似。外部因素數(shù)據(jù)的特征變量見表 3 。
表 3 外部因素數(shù)據(jù)的特征變量
將獲取的外部特征變量結(jié)合內(nèi)部特征變量整理成一張“正負(fù)樣本數(shù)據(jù)點—內(nèi)外部特征變量”表格,進(jìn)而轉(zhuǎn)換成 .arff 的數(shù)據(jù)集,并進(jìn)行數(shù)據(jù)缺失填補(bǔ)的操作。本研究中,將訓(xùn)練數(shù)據(jù)集分成 3 組:訓(xùn)練樣本 1 、訓(xùn)練樣本 2 、訓(xùn)練樣本 3 ,組成分別為正樣本 + 負(fù)樣本 1 ,正樣本 + 負(fù)樣本 2 ,正樣本 + 負(fù)樣本 3 。
4 預(yù)警模型訓(xùn)練算法選擇
通過數(shù)據(jù)預(yù)處理步驟獲得訓(xùn)練樣本后,便可選擇合適算法進(jìn)行預(yù)警模型的訓(xùn)練 [ 12 ] 。
①決策樹算法
決策樹算法 [ 13 ] 提出時間較早,是開展數(shù)據(jù)研究的重要算法之一,是通過節(jié)點和有向邊,在實例分類過程中形成的一種樹形結(jié)構(gòu),根據(jù)預(yù)先設(shè)置好的邏輯,自上而下對數(shù)據(jù)庫中存儲的無規(guī)律且不可控的大量數(shù)據(jù)進(jìn)行學(xué)習(xí),繼而歸納出分類規(guī)則。
C4.5是決策樹算法中的一種,以采用局部最優(yōu)策略的 Hunt 算法為基礎(chǔ),構(gòu)造簡單,分類規(guī)則便于按需轉(zhuǎn)化,且能夠獲得較高的分類準(zhǔn)確率。但也有一定的缺點,即缺乏伸縮性,因為該算法需要對數(shù)據(jù)進(jìn)行深度優(yōu)先搜索。
②隨機(jī)森林算法
隨機(jī)森林算法 [ 14 ] 通過在訓(xùn)練集 N 中有放回地隨機(jī)抽取 m 個樣本生成新的訓(xùn)練樣本集合,根據(jù)新的樣本集合生成 m 個分類樹,即決策樹,進(jìn)而形成一片“森林”,森林中各決策樹之間相互獨立。森林形成后,輸入一個樣本數(shù)據(jù),森林中的每一棵決策樹對其進(jìn)行判斷,并確定其屬于哪一類別,哪一種類別出現(xiàn)最多,則該樣本屬于哪一類。
隨機(jī)森林在沒有明顯擴(kuò)增運算量的情況下提高了預(yù)測準(zhǔn)確率,被視為目前最好的算法之一。與其他算法相比,隨機(jī)森林對數(shù)據(jù)的適應(yīng)性較好,能夠很好地處理高緯度數(shù)據(jù);抗噪聲能力較強(qiáng),對缺失值和異常值敏感度低;樹的節(jié)點層級可表示變量的重要性。但當(dāng)需要區(qū)分的類別太多時,隨機(jī)森林的表現(xiàn)差些。
③其他算法
貝葉斯網(wǎng)絡(luò)和樸素貝葉斯 [ 13 ] 都是以貝葉斯定理為基礎(chǔ)的算法,本質(zhì)是通過條件概率實現(xiàn)分類。支持向量機(jī)( SVM )通過構(gòu)造支持向量尋找樣本點間最大間隔的分割面,即最優(yōu)超平面,對數(shù)據(jù)進(jìn)行分類。神經(jīng)網(wǎng)絡(luò)模擬生物神經(jīng)系統(tǒng)處理信息的過程,是通過神經(jīng)元間的互聯(lián)關(guān)系表示的網(wǎng)絡(luò)。邏輯回歸的本質(zhì)是利用最大似然估計,通過離散化手段進(jìn)行分類。
根據(jù)預(yù)警模型特點,本文選擇了決策樹C4.5、隨機(jī)森林、貝葉斯網(wǎng)絡(luò)、樸素貝葉斯、 SVM 和邏輯回歸 6 種算法進(jìn)行預(yù)警模型訓(xùn)練。
5 實驗
根據(jù)選擇的算法,同時考慮內(nèi)外部因素的影響,進(jìn)行預(yù)警模型訓(xùn)練。3個訓(xùn)練集同時考慮內(nèi)外部因素的預(yù)警模型訓(xùn)練結(jié)果見圖 4 , 3 個訓(xùn)練集僅考慮內(nèi)部因素的預(yù)警模型訓(xùn)練結(jié)果見圖 5 。
圖 4 3 個訓(xùn)練集同時考慮內(nèi)外部因素的預(yù)警模型訓(xùn)練結(jié)果
圖 5 3 個訓(xùn)練集僅考慮內(nèi)部因素的預(yù)警模型訓(xùn)練結(jié)果
通過圖4、 5 可以看出,無論是同時考慮內(nèi)外部因素還是只考慮內(nèi)部因素,隨機(jī)森林算法所得預(yù)警模型準(zhǔn)確率最高,決策樹 C4.5 算法所得預(yù)警模型準(zhǔn)確率次之,其他 4 個算法所得預(yù)警模型準(zhǔn)確率明顯偏低。
同時考慮內(nèi)外部因素與只考慮內(nèi)部因素準(zhǔn)確率對比見圖6(圖中準(zhǔn)確率取 3 個訓(xùn)練集準(zhǔn)確率的平均值)??梢钥闯?,除樸素貝葉斯和 SVM 算法外,其他算法同時考慮內(nèi)外部因素后,所得預(yù)警模型準(zhǔn)確率都有所提高,決策樹 C4.5 和隨機(jī)森林算法所得預(yù)警模型準(zhǔn)確率提高明顯。
圖 6 同時考慮內(nèi)外部因素與只考慮內(nèi)部因素準(zhǔn)確率對比
根據(jù)實驗結(jié)果比較分析,選出隨機(jī)森林為最優(yōu)算法,同時考慮內(nèi)外部因素相比于僅考慮內(nèi)部因素,模型準(zhǔn)確率提高了5.07%。
6 結(jié)論
①確定燃?xì)夤艿腊踩L(fēng)險大數(shù)據(jù)預(yù)警模型采用懷卡托智能分析環(huán)境。
②確定數(shù)據(jù)預(yù)處理流程,包含原始數(shù)據(jù)的獲取、數(shù)據(jù)清洗、特征變量確定與提取、缺失值填補(bǔ)、訓(xùn)練樣本的選取。指出內(nèi)部因素數(shù)據(jù)為管齡、管材、管徑、壓力級制、埋深、管理單位,外部因素數(shù)據(jù)為鐵路、地鐵等電氣化軌道、水系面(河流與湖泊)等影響管道腐蝕的 3 類。從數(shù)據(jù)庫中隨機(jī)提取正樣本 1 份,負(fù)樣本 4 份,每份各 855 個樣本點。將訓(xùn)練數(shù)據(jù)集分成 3 組:訓(xùn)練樣本 1 、訓(xùn)練樣本 2 、訓(xùn)練樣本 3 ,組成分別為正樣本 + 負(fù)樣本 1 ,正樣本 + 負(fù)樣本 2 ,正樣本 + 負(fù)樣本 3 。確定缺失值填補(bǔ)采用 KNN 算法。
③選擇決策樹 C4.5 、隨機(jī)森林、貝葉斯網(wǎng)絡(luò)、樸素貝葉斯、支持向量機(jī)和邏輯回歸 6 種算法作為預(yù)警模型訓(xùn)練算法。
④根據(jù)選擇的算法,同時考慮內(nèi)外部因素的影響,進(jìn)行預(yù)警模型訓(xùn)練(即實驗)。根據(jù)實驗結(jié)果比較分析,選出隨機(jī)森林為最優(yōu)算法。同時考慮內(nèi)外部因素比僅考慮內(nèi)部因素,模型準(zhǔn)確率提高 5.07% 。
參考文獻(xiàn):
[1]邊正東 . PDA 技術(shù)應(yīng)用與燃?xì)夤芫W(wǎng)安全技術(shù)研究(碩士學(xué)位論文)[ D ] . 北京:北京建筑大學(xué), 2016 : 12-18.
[2]郁永波,趙庭敏 . 城市燃?xì)夤芫W(wǎng)安全問題及對策分析[ J ] . 科技創(chuàng)新與應(yīng)用, 2012 ( 2 ): 254.
[3]劉愛華,黃檢,吳卓儒,等 . 城市燃?xì)夤艿罓顩r及燃?xì)馐鹿式y(tǒng)計分析[ J ] . 煤氣與熱力, 2017 , 37 ( 10 ): B27-B33.
[4]張滿可,杜前洲,彭強(qiáng),等 . 2011 — 2014 年我國城市燃?xì)馐鹿式y(tǒng)計分析[ J ] . 煤氣與熱力, 2016 , 36 ( 1 ): B40-B46.
[5]梁成 . 影響城市燃?xì)夤芫W(wǎng)安全運行的因素與對策[ J ] . 中國新技術(shù)新產(chǎn)品, 2016 ( 2 ): 180.
[6]梁海棟 . 數(shù)據(jù)挖掘技術(shù)在燃?xì)庀到y(tǒng)中的應(yīng)用分析[ J ] . 科技資訊, 2013 ( 9 ): 32.
[7]譚羽非,陳家新,焦文玲,等 . 基于人工神經(jīng)網(wǎng)絡(luò)的城市煤氣短期負(fù)荷預(yù)測[ J ] . 煤氣與熱力, 2001 , 21 ( 3 ): 199-202.
[8]苗艷姝,段常貴,張淑紅 . 數(shù)據(jù)挖掘技術(shù)在燃?xì)庳?fù)荷預(yù)測的應(yīng)用[ J ] . 煤氣與熱力, 2005 , 25 ( 11 ): 1-4.
[9]高武奇,康鳳舉,鐘聯(lián)炯 . 數(shù)據(jù)挖掘的流程改進(jìn)和模型應(yīng)用[ J ] . 微電子學(xué)與計算機(jī), 2011 , 28 ( 7 ): 9-12.
[10]彭高輝,王志良 . 數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理方法[ J ] . 華北水利水電大學(xué)學(xué)報(自然科學(xué)版), 2008 , 29 ( 6 ): 63-65.
[11]李秀娟 . KNN 分類算法研究[ J ] . 科技信息, 2009 ( 31 ): 81.
[12]朱玉全,楊鶴標(biāo),孫蕾 . 數(shù)據(jù)挖掘技術(shù)[ M ] . 南京:東南大學(xué)出版社, 2006 : 212-222.
[13]劉夢依 . 基于不平衡數(shù)據(jù)集的數(shù)據(jù)挖掘分類算法研究(碩士學(xué)位論文)[ D ] . 蘭州:蘭州理工大學(xué), 2017 : 14-16.
[14]王元坤 . 基于隨機(jī)森林—人工神經(jīng)網(wǎng)絡(luò)企業(yè)財務(wù)預(yù)警研究(碩士學(xué)位論文)[ D ] . 濟(jì)南:山東大學(xué), 2017 : 38-45.
維普免費下載《煤氣與熱力》論文(現(xiàn)刊和過刊均可)
日前,《煤氣與熱力》雜志社有限公司在維普網(wǎng)站 http://cqvip.com/ 開通論文免費下載服務(wù),論文刊出后兩個月后,可在維普網(wǎng)站查詢,并直接免費下載。在維普網(wǎng)站 免費下載《煤氣與熱力》論文 步驟如下:
1. 在維普網(wǎng)站注冊會員。
2. 搜索出《煤氣與熱力》論文,點擊進(jìn)入。
3. 論文免費下載界面截圖見上圖。點擊“免費下載”,可直接下載該論文。
聲明:本文著作權(quán)(版權(quán))歸《煤氣與熱力》雜志社所有,嚴(yán)禁任何微信號及媒體未經(jīng)授權(quán)許可隨意轉(zhuǎn)載。 PS: 當(dāng)然歡迎大家轉(zhuǎn)發(fā)到朋友圈!
更多論文請登錄煤氣與熱力雜志官方網(wǎng)站,免費注冊會員閱讀電子期刊。閱讀步驟:登錄http://www.gasheat.cn/→頁面右上角注冊會員→注冊成功后點擊《煤氣與熱力》→期刊索引→點擊某期期刊封面即可閱讀當(dāng)期文章。
-
2023年各省最新電價一覽!8省中午執(zhí)行谷段電價! 2023-01-03
-
PPT導(dǎo)出高分辨率圖片的四種方法 2022-09-22
-
2023年最新!國家電網(wǎng)27家省級電力公司負(fù)責(zé)人大盤點 2023-03-14
-
全國消防救援總隊主官及簡歷(2023.2) 2023-02-10
-
盤點 l 中國石油大慶油田現(xiàn)任領(lǐng)導(dǎo)班子 2023-02-28
-
我們的前輩!歷屆全國工程勘察設(shè)計大師完整名單! 2022-11-18
-
關(guān)于某送變電公司“4·22”人身死亡事故的快報 2022-04-26
