風(fēng)電遇上數(shù)據(jù)科學(xué)家 | 一種異常檢測(cè)的方法
風(fēng)電機(jī)組運(yùn)行工況復(fù)雜多變,機(jī)組狀態(tài)監(jiān)測(cè)數(shù)據(jù)量大、來(lái)源多且雜,現(xiàn)有的異常檢測(cè)方法面對(duì)如此海量的數(shù)據(jù)很難保證預(yù)測(cè)的精度并進(jìn)行快速處理。
天澤智云資深數(shù)據(jù)科學(xué)家謝鵬從全新視角出發(fā),以溫度數(shù)據(jù)進(jìn)行故障預(yù)測(cè)為例,呈現(xiàn)新的建模方法。
數(shù)據(jù)科學(xué)家
21世紀(jì)“最性感職業(yè)”之一
他們懂?dāng)?shù)據(jù)、懂算法、懂軟件
懂行業(yè)專(zhuān)業(yè)知識(shí)、懂市場(chǎng)應(yīng)用、懂決策分析
具備過(guò)人的溝通協(xié)調(diào)能力
也具備超高的設(shè)計(jì)能力
……
他們練就十八般武藝
解決各種可見(jiàn)不可見(jiàn)的問(wèn)題
一、數(shù)據(jù)科學(xué)處理問(wèn)題的思路
我們處理問(wèn)題的一般思路是,首先根據(jù)問(wèn)題的需求提出假設(shè)/理論,發(fā)現(xiàn)并構(gòu)建出特征,之后基于假設(shè)和特征構(gòu)建模型將其轉(zhuǎn)化為數(shù)學(xué)問(wèn)題,最后通過(guò)測(cè)試、優(yōu)化模型,實(shí)現(xiàn)算法來(lái)進(jìn)行工程上的部署。
其中,特征是指可以抽象化問(wèn)題的一些表征,特征有來(lái)自于表征的,比如基于機(jī)理的、基于統(tǒng)計(jì)的以及基于圖形的等。
有的故障、失效的機(jī)理并沒(méi)有研究清楚,這種情況下我們需要通過(guò)實(shí)驗(yàn)研究建立統(tǒng)計(jì)模型,比如隊(duì)列(Cohort)/案例對(duì)照(Case-control)研究、生存分析等。
二、聚焦到風(fēng)電領(lǐng)域如何應(yīng)用
聚焦到傳統(tǒng)風(fēng)電數(shù)據(jù)分析領(lǐng)域,經(jīng)常從其變量間的關(guān)系,尤其是以功率曲線(xiàn)為基礎(chǔ)的圖形入手進(jìn)行分析。風(fēng)機(jī)的控制為工程師設(shè)定的具有固定邏輯的算法,具有特定的規(guī)律性,所以很多機(jī)組中的異常都會(huì)在功率曲線(xiàn)中有所體現(xiàn)。
除風(fēng)功率曲線(xiàn)外,轉(zhuǎn)速、槳葉角、對(duì)風(fēng)角、葉尖速比等都是我們經(jīng)常用來(lái)觀(guān)察的變量。
實(shí)際工作中,我們研究的故障在這些變量間兩兩關(guān)系并不能觀(guān)察到異常。
對(duì)于沒(méi)有任何表征的模型,我們有以下兩個(gè)思路:識(shí)別特定故障發(fā)生前模式及識(shí)別特定故障發(fā)生時(shí)模式。
從方法角度,這兩者均屬于模式識(shí)別,我們希望通過(guò)建立可以描述故障發(fā)生前或者故障發(fā)生時(shí)的特征,利用機(jī)械工程上的方法、信號(hào)處理的方法、統(tǒng)計(jì)學(xué)方法以及機(jī)器學(xué)習(xí)的方法構(gòu)建一個(gè)或多個(gè)可以識(shí)別一種或多種故障模式的模型。
路徑1:識(shí)別特定故障發(fā)生前模式
在此,我們先來(lái)探討一下故障發(fā)生前是否有征兆?對(duì)于這個(gè)問(wèn)題,天澤智云幾位數(shù)據(jù)科學(xué)家發(fā)表了自己的看法。
A博士:故障發(fā)生前不會(huì)有任何表征。
B博士:用戶(hù)想要避免的失效一般都為故障非常嚴(yán)重的失效狀態(tài),所以有時(shí)把早期故障預(yù)測(cè)也簡(jiǎn)稱(chēng)為故障預(yù)測(cè)。
C博士:故障和失效沒(méi)有準(zhǔn)確定義,一般說(shuō)的有沒(méi)有表征只是指能不能監(jiān)測(cè)到數(shù)據(jù),但故障的演進(jìn)是一直存在的。
D博士:故障既然被稱(chēng)之為故障,證明故障已經(jīng)表征出來(lái)了。而故障表現(xiàn)出來(lái)需要經(jīng)歷一定的時(shí)間,各個(gè)內(nèi)在已經(jīng)磨耗到一定的階段才能表現(xiàn)出來(lái)。
經(jīng)過(guò)討論,我們認(rèn)為在故障發(fā)生之前,會(huì)存在很多因素影響一個(gè)部件的壽命(稱(chēng)之為危險(xiǎn)因素),比如空氣的酸堿度、沙塵、惡劣的環(huán)境溫度、共振載荷會(huì)對(duì)葉片材料壽命造成顯著的危害,通過(guò)對(duì)這些因素進(jìn)行受控實(shí)驗(yàn)或者長(zhǎng)時(shí)的隊(duì)列/案例研究可以通過(guò)統(tǒng)計(jì)模型描述其剩余壽命。
在故障完全發(fā)生前,進(jìn)行壽命預(yù)測(cè)是一種可行的方法,但是這種方法需要的實(shí)驗(yàn)、數(shù)據(jù)、時(shí)間的代價(jià)都很大。
對(duì)于部件來(lái)說(shuō),其故障發(fā)生前沒(méi)有明確的表征,因此我們著重研究故障早期的表征。
路徑2:識(shí)別故障發(fā)生早期的表征
Q:我們有什么數(shù)據(jù)?
SCADA數(shù)據(jù),秒級(jí)/分鐘級(jí)
無(wú)故障標(biāo)簽/無(wú)準(zhǔn)確故障產(chǎn)生時(shí)間
有限傳感器測(cè)點(diǎn),大多數(shù)為溫度測(cè)點(diǎn)數(shù)據(jù)
能獲取的數(shù)據(jù)可能并不滿(mǎn)足對(duì)特定故障模式的建模。
Q:在這種情況下如何做故障預(yù)測(cè)?
有限數(shù)據(jù),尤其是沒(méi)有標(biāo)簽數(shù)據(jù)的情況下,對(duì)特定故障模式建模難以實(shí)現(xiàn)。退而求其次,我們對(duì)部件進(jìn)行異常檢測(cè)。對(duì)此,我們提出一個(gè)理論:
定義什么是異常:
偏離正常就是異常
如何描述正常:
用正常狀態(tài)的物理過(guò)程來(lái)定義
如何測(cè)量對(duì)正常的偏離
有了正常狀態(tài)的定義之后,用數(shù)學(xué)上或者其他方法來(lái)描述對(duì)正常的偏離:使用分類(lèi)模型,或者使用距離來(lái)度量
以上是我們從以前的研究中總結(jié)的研究方法。研究發(fā)現(xiàn),熱傳導(dǎo)和溫度是物理系統(tǒng)的最基本的變量,基于熱力學(xué)第一定律,可以建立溫度變化和風(fēng)機(jī)輸出功率或轉(zhuǎn)速的變量關(guān)系。如果風(fēng)機(jī)在大部件失效的狀態(tài)下,這種線(xiàn)性關(guān)系就會(huì)遭到破壞,從而服從不同于正常狀態(tài)下的溫度分布情況。在很多情況下,溫度關(guān)系的變化是部件失效的一種直接表征。如下圖研究中表示油溫溫升分布與齒輪箱失效的關(guān)系。
基于以上,我們認(rèn)為可以將溫度、溫升作為建模的依據(jù),將溫度、溫升分布的改變作為故障發(fā)生(早期)的表征。
當(dāng)然,通常做異常檢測(cè)我們有很多可以用的其他統(tǒng)計(jì)和機(jī)器學(xué)習(xí)模型,比如使用PCA-T2/SPE、SOM-MQE、Isolation Forest等方法進(jìn)行建模。在本例中,我們關(guān)注于特定溫度的異常檢測(cè),呈現(xiàn)另外的建模方法。
三、建模的思路是什么
對(duì)于軸承,我們認(rèn)為發(fā)電機(jī)前后軸承溫度存在一定差異并在正常情況下保持動(dòng)態(tài)的穩(wěn)態(tài),熱傳導(dǎo)的過(guò)程需要時(shí)間并且逐漸變化。由于發(fā)電機(jī)軸承失效或故障導(dǎo)致這種穩(wěn)態(tài)的破壞,并將體現(xiàn)在基線(xiàn)的偏離上。我們用以下幾種方式定義基線(xiàn)。
定義基線(xiàn)方式1:
我們用一種函數(shù)關(guān)系來(lái)描述一種溫度量,建立模型來(lái)預(yù)測(cè)溫度,比如建立油溫的模型對(duì)溫度進(jìn)行預(yù)測(cè)。將預(yù)測(cè)的溫度作為基線(xiàn),如果預(yù)測(cè)的數(shù)據(jù)和實(shí)際獲得的數(shù)據(jù)相差很大,我們認(rèn)為偏離正常狀態(tài)。
我們可以使用回歸模型來(lái)擬合,比如ANN、SVR、ANFIS,這很多情況下我們觀(guān)察的變量具備一定的時(shí)間序列上的關(guān)聯(lián),則可以使用NARX/LSTM模型。之后使用距離(比如MD)度量一段時(shí)間內(nèi)預(yù)測(cè)值與實(shí)際值的差異,使用單機(jī)組無(wú)故障數(shù)據(jù)訓(xùn)練建立基線(xiàn)。
這種方法存在一種缺陷:對(duì)實(shí)際值的擬合的模型精度會(huì)放大后續(xù)建模的誤差
定義基線(xiàn)方式2:用直方圖描述分布
我們認(rèn)為在健康情況下,溫升存在特定的分布。描述一種分布最常用的圖形是直方圖。從數(shù)學(xué)的角度看,直方圖是一種離散化數(shù)據(jù)進(jìn)行統(tǒng)計(jì)的方法。
直方圖這種方法雖然簡(jiǎn)單,但是在很多領(lǐng)域都有著廣泛的用途。
比如:
xgboost - 其中應(yīng)用到直方圖算法,用于高效地生成候選的分割點(diǎn),運(yùn)算非常快
方向梯度直方圖(HOG) – 機(jī)器視覺(jué)領(lǐng)域的特征方法
使用離散化權(quán)重的方法優(yōu)化深度學(xué)習(xí)性能等
在實(shí)際應(yīng)用到工業(yè)場(chǎng)景中,對(duì)數(shù)據(jù)離散化的參數(shù)需要根據(jù)其業(yè)務(wù)屬性來(lái)約束。
直方圖方法的變種
使用直方圖方法可以獲得對(duì)變量的特征向量,這種方法通常可以描述數(shù)據(jù)的分布。但是在很多情況中,數(shù)據(jù)的噪聲,尤其是傳感器的測(cè)量誤差,會(huì)淹沒(méi)異常模式的表征。為提高信噪比,我們采用一種來(lái)自被自然語(yǔ)言處理(NLP)領(lǐng)域廣泛使用的加權(quán)方法TF-IDF。
獲得特征向量后,有了基線(xiàn)及實(shí)時(shí)數(shù)據(jù)特征矩陣后,我們可以使用歐式距離來(lái)描述實(shí)時(shí)數(shù)據(jù)與基線(xiàn)特征向量的距離。當(dāng)然,我們也可以應(yīng)用其他的模型,比如可以進(jìn)行聚類(lèi)。
TF-IDF訓(xùn)練案例
案例:變槳電機(jī)溫度的異常檢測(cè)。
我們以三個(gè)變槳電機(jī)編組為三組,計(jì)算三組特征向量與基線(xiàn)的距離。
下圖為正常的變槳電機(jī)溫度狀態(tài)。
下圖為異常的變槳電機(jī)溫度狀態(tài)。
在所應(yīng)用到的各種案例中,該方法對(duì)各部件溫度的異常檢測(cè)具備良好的準(zhǔn)確性(>90%)。
定義基線(xiàn)方式3:符號(hào)化的特征表示
使用直方圖或者是TF-IDF,其中的一個(gè)重要的步驟是對(duì)連續(xù)數(shù)據(jù)的離散化。離散化可以看成一種對(duì)信號(hào)中的信號(hào)進(jìn)行平滑的過(guò)程,損失了一定的信息換取更高的信噪比。
在獲得離散化的數(shù)據(jù)后,使用固定維度對(duì)原始數(shù)據(jù)進(jìn)行重新表達(dá)。在自然語(yǔ)言處理中,這種技術(shù)稱(chēng)為詞的分布式表示(Distributional Representation)。
我們繼續(xù)把這種離散化的連續(xù)數(shù)據(jù)視為“符號(hào)”,這種處理在很多領(lǐng)域都有應(yīng)用,比如在信號(hào)處理領(lǐng)域的SAX方法。使用NLP的方法,比如word2vec來(lái)訓(xùn)練這些“詞”或“文檔”的向量。同樣,我們利用訓(xùn)練的基線(xiàn)向量來(lái)進(jìn)行異常檢測(cè)或其他任務(wù)。
高維數(shù)據(jù)中,我們可以拓展這種方法到更多的故障模式的學(xué)習(xí)中。
四、結(jié) 語(yǔ)
在這里,我們提出了一種對(duì)于連續(xù)數(shù)據(jù)的符號(hào)化的特征表示的方法用于異常檢測(cè),作為常規(guī)異常檢測(cè)技術(shù)的補(bǔ)充。
這種方法使用對(duì)連續(xù)數(shù)據(jù)離散化處理,使之符號(hào)化,進(jìn)而尋找符號(hào)映射到數(shù)學(xué)空間的表達(dá)。在文章的例子中,“符號(hào)”表示了一種兩種變量間的統(tǒng)計(jì)關(guān)系,并且,在這種方法中,我們認(rèn)為這些“符號(hào)”和詞語(yǔ)在語(yǔ)料庫(kù)中一樣,具有穩(wěn)定的統(tǒng)計(jì)分布。這種方法之所以可以用于異常檢測(cè),在于從物理模型上,該“符號(hào)”表達(dá)了我們關(guān)注量的物理關(guān)系。
更多精彩內(nèi)容歡迎關(guān)注我們:天澤智云CyberInsight(微信ID:CPS-China)

提交
駿業(yè)日新 大展宏圖 | 天澤智云上海分公司成長(zhǎng)記
在智能化落地過(guò)程中我們學(xué)到了什么?
工業(yè)智能技術(shù)在軌道交通領(lǐng)域的應(yīng)用實(shí)踐分享
基于GenPro的工業(yè)智能建模案例分享
工業(yè)智能為軌道交通安全高效運(yùn)營(yíng)保駕護(hù)航 天澤智云與您相約RT FORUM