污水處理的大數(shù)據(jù),在小編看來,至今依然是個(gè)曲高寡和的小眾細(xì)分領(lǐng)域。想組織一個(gè)水處理的儀表自動(dòng)化的國際大會(huì)也不是一件容易的事情,因?yàn)楹茈y吸引到學(xué)術(shù)界以外的“真操實(shí)干”的既參與運(yùn)營又涉足數(shù)據(jù)分析的人來參加。
今年的ICA大會(huì)2017的組織者就決定嘗試通過參與者的組織類型和應(yīng)用領(lǐng)域來設(shè)定討論話題。不過小編沒有參加這場(chǎng)會(huì)議,所以不知道效果如何。但因?yàn)樵赥witter上偶遇這次會(huì)議的最佳poster得獎(jiǎng)?wù)叩男畔ⅲ孕【幵诒局艿摹皩W(xué)術(shù)星期四”專欄與讀者分享一下這篇報(bào)告的統(tǒng)計(jì)結(jié)果。
ICA2017 | 圖源:www.ica2017.org
奧尼卡水處理創(chuàng)新部落
污水廠監(jiān)測(cè)方法回顧
本屆ICA大會(huì)在加拿大的魁北克市舉行,話說2021年的大會(huì)將移師北京,搞污水?dāng)?shù)據(jù)分析的盆友們有4年時(shí)間好好準(zhǔn)備了。
魁北克市 | 圖源:canada-visa-eta.com
小編想要分享的這篇報(bào)告的題目叫“Turning passive data into knowledge - a review of wastewater treatment monitoring techniques”——將被動(dòng)數(shù)據(jù)轉(zhuǎn)化成知識(shí),關(guān)于污水處理監(jiān)測(cè)技術(shù)的綜述。署名作者包括了西班牙、美國、瑞士和瑞典四國國家的研究員和學(xué)者,其中包括了行內(nèi)大數(shù)據(jù)專家,我們奧氏部落之前也介紹過的瑞典隆德大學(xué)的榮譽(yù)教授Gustaf Olsson。這篇文章的第一作者是來自西班牙西班牙加泰羅尼亞水研究所的博士后研究員Lluis Corominas,也是這次大會(huì)的最佳墻報(bào)獲得者。
Lluis Corominas
根據(jù)ResearchGate的統(tǒng)計(jì),他參與的項(xiàng)目基本都跟污水處理的數(shù)據(jù)分析相關(guān),包括了建模范例、污水處理數(shù)據(jù)收集的數(shù)據(jù)質(zhì)量、污水處理與LCA生命周期分析等。
事不宜遲,我們馬上來看看Corominas博士這篇綜述文章都有什么高見。
研究動(dòng)機(jī)
污水廠的自動(dòng)化與控制有賴于儀表傳感器產(chǎn)生的信號(hào)。要實(shí)現(xiàn)污水處理廠更高效的運(yùn)行,需要有人對(duì)這些原始數(shù)據(jù)進(jìn)行得當(dāng)?shù)奶幚砗头治?。遺憾的是“說時(shí)容易做時(shí)難”,實(shí)際要對(duì)這些數(shù)據(jù)進(jìn)行分析需要花費(fèi)大量的金錢和時(shí)間的前期投入的,很多潛在的寶貴信息都還處于有待發(fā)掘的狀態(tài)。如何才能改變這個(gè)局面呢?這應(yīng)該正是Corominas博士寫這篇綜述的初衷所在——希望通過這篇綜述來幫助污水廠管理者和軟件程序開發(fā)員識(shí)別成熟和經(jīng)過驗(yàn)證的技術(shù),并應(yīng)用到污水處理的實(shí)際生產(chǎn)。
選擇的方法
作者把污水處理的數(shù)據(jù)分析分為四個(gè)等級(jí):
- 低級(jí)數(shù)據(jù)核對(duì) (用于數(shù)據(jù)噪聲、延遲和通訊故障的處理,識(shí)別缺失和異常數(shù)據(jù),基于工藝知識(shí)和經(jīng)驗(yàn)對(duì)數(shù)據(jù)的一致性和合理性進(jìn)行檢查)
- 基礎(chǔ)信息提取 (剔除較大的測(cè)量偏差,包括過失偏差和隨機(jī)偏差,做數(shù)據(jù)校正)
- 高級(jí)信息提取 (對(duì)收集數(shù)據(jù)集的主要變量來源作可視化處理,識(shí)別運(yùn)行正常和異常的時(shí)間段,對(duì)無法在線測(cè)量的變量進(jìn)行預(yù)測(cè),通過可視化圖評(píng)估工藝狀態(tài))
- 人為解釋信息提取和知識(shí)管理(為運(yùn)行人員日常遇到的問題提供支持,將已有經(jīng)驗(yàn)結(jié)構(gòu)化、基于案例和趨勢(shì)的論證)
統(tǒng)計(jì)的計(jì)算機(jī)算法包括:
控制圖
物料平衡
回歸模型(包括多線性和偏最小二乘法PLS)
自組織映射神經(jīng)網(wǎng)絡(luò)(SOM)
主成分分析(PCA)
獨(dú)立成分分析(ICA)
人工神經(jīng)網(wǎng)絡(luò) (ANNs)
聚類分析、模糊分析
支持向量機(jī)(SVMs)
識(shí)別數(shù)據(jù)系列中的定性特征的算法
除此以外,環(huán)境決策支持系統(tǒng)(EDSS) 和知識(shí)管理 (ontologies) 也包括在內(nèi),但關(guān)于機(jī)器學(xué)習(xí)的算法不在考慮范圍內(nèi)。作者另外給推薦大家閱讀以下文章做拓展閱讀:
Do machine learning methods used in data mining enhance the potential of decision support systems? A review for the urban water sector
將數(shù)據(jù)挖掘的機(jī)器學(xué)習(xí)和我們城市水務(wù)部門的決策分析拉到一起來講的文章目前還為數(shù)不多,所以還是值得借鑒閱讀的。
評(píng)估統(tǒng)計(jì)
他們對(duì)所有跟上述四種數(shù)據(jù)處理類型最為相關(guān)的方法/工具進(jìn)行統(tǒng)計(jì)。具體手段是用SCOPUS的數(shù)據(jù)庫進(jìn)行技術(shù)名稱以及相關(guān)變量的關(guān)鍵詞搜索,每個(gè)搜索都加上關(guān)鍵詞“污水處理”。搜索范圍是2015年以前發(fā)表的論文報(bào)告。
他們一共得到了340篇papers的搜索結(jié)果。這些文章里大部分都討論了人工神經(jīng)網(wǎng)絡(luò) (20%), 主成分分析 (13%) 和 模糊分析 (12%).
結(jié)果
領(lǐng)先群體
他們的統(tǒng)計(jì)數(shù)據(jù)顯示,歐洲是這個(gè)領(lǐng)域的領(lǐng)跑者。來自歐洲的機(jī)構(gòu)和學(xué)者在這些文章的出現(xiàn)率達(dá)61%,然后是亞洲-大洋洲(34%),北美是12%,南美和非洲地區(qū)僅占不到4%。
就每個(gè)單項(xiàng)算法而言,歐洲的貢獻(xiàn)率都是最大的。亞洲-大洋洲主要貢獻(xiàn)于 ANN (38 篇)、模糊分析 (17篇)和 PCA (20篇)。其中有37篇文章是不同地區(qū)的跨區(qū)合作成果,占總數(shù)的12%左右。
圖1.每項(xiàng)技術(shù)每年的引用數(shù)
引用趨勢(shì)
上圖展示的是這些文章里每個(gè)算法/工具每年的引用次數(shù)總和。大家能從圖中看到其中一些方法和工具的引用情況在過去幾年里呈現(xiàn)出穩(wěn)定增加的趨勢(shì)。其中ANN 和 PCA 的增幅最大(2010年后的引用數(shù)都超過200),然后是模糊分析、聚類分析、獨(dú)立成分分析ICA和偏最小二乘法回歸分析 PLS(2010年后的引用數(shù)在10左右)。
作者認(rèn)為,污水處理廠應(yīng)用這些技術(shù)來改善工藝表現(xiàn)可能是這些數(shù)據(jù)增長的幕后推動(dòng)力??刂茍D和物料平衡分析的每年引用數(shù)較少(<50次),作者認(rèn)為這是因?yàn)檫@方面的公開數(shù)據(jù)本身就比較有限。
知識(shí)管理方法論的論文(決策樹、規(guī)則歸納、ontologies)獲得引用最少(<20次),而且在統(tǒng)計(jì)年限里沒有增長跡象。作者推測(cè)可能是因?yàn)檫@方面的算法的應(yīng)用范圍就很窄很有針對(duì)性,或者他們的潛力還沒有得到挖掘。
Papers在科學(xué)家眼中的受歡迎度
哪個(gè)算法應(yīng)用率最高呢?他們用引用總數(shù)和papers數(shù)的比值做統(tǒng)計(jì),結(jié)果發(fā)現(xiàn)獨(dú)立成分分析ICA的引用率是最高的(63), 然后是 SVM (51)、PCA 和CBR (38)。大部分其他算法的數(shù)值都在20到40之間,除了控制圖和物料平衡分析低于20。作者認(rèn)為這跟算法的“新舊”程度有關(guān)。
實(shí)踐應(yīng)用情況
遺憾的是,統(tǒng)計(jì)結(jié)果顯示這些算法大多還是學(xué)術(shù)界的人在鉆研,只有9%的文章清楚提及到把這些算法用于工程實(shí)踐(例如實(shí)時(shí)控制器)。但依然很難確認(rèn)究竟哪些方法用到了實(shí)踐中,因此這些數(shù)據(jù)往往沒納入科學(xué)文獻(xiàn)數(shù)據(jù)庫,這需要針對(duì)每個(gè)商業(yè)產(chǎn)品進(jìn)行定位搜索。 作者最后對(duì)人為解釋信息提取這類數(shù)據(jù)處理的限制因素進(jìn)行了推斷,包括了:
i) 缺少驗(yàn)證方法
ii) 缺少操作準(zhǔn)則
iii) 統(tǒng)計(jì)分析和工程應(yīng)用的代溝
iv) 教育課程滯后
v) 缺少合適知識(shí)總結(jié)和管理
結(jié)論
西班牙博士Corominas先生的這篇綜述告訴了我們,目前歐洲在污水處理的大數(shù)據(jù)分析方面,就單單從研究數(shù)量而言,是領(lǐng)先全球的,遺憾的是他沒有對(duì)這些papers的質(zhì)做一個(gè)衡量分析。同樣,雖然他總結(jié)了人工神經(jīng)網(wǎng)絡(luò)、主成分分析、模糊分析是目前熱門的計(jì)算機(jī)算法,但卻沒有對(duì)背后的原因作更進(jìn)一步的推斷解釋。
作者也承認(rèn),他們希望他們這個(gè)非常初步性的評(píng)估能作為一個(gè)討論的起點(diǎn),讓更多水處理行業(yè)的朋友關(guān)注這個(gè)細(xì)分領(lǐng)域的發(fā)展,投入到其中的培訓(xùn)和學(xué)習(xí)中來。這一點(diǎn)小編也是非常贊成的,小編期望有更多的污水廠安裝實(shí)時(shí)監(jiān)測(cè)系統(tǒng),并把這些寶貴的被動(dòng)數(shù)據(jù)變成可靠及時(shí)的信息來源,為提高污水廠運(yùn)行管理效率做出貢獻(xiàn)。
ICA 2017大會(huì)的討論內(nèi)容
來源:奧尼卡水處理創(chuàng)新部落
特此聲明:
1. 本網(wǎng)轉(zhuǎn)載并注明自其他來源的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)。
2. 請(qǐng)文章來源方確保投稿文章內(nèi)容及其附屬圖片無版權(quán)爭(zhēng)議問題,如發(fā)生涉及內(nèi)容、版權(quán)等問題,文章來源方自負(fù)相關(guān)法律責(zé)任。
3. 如涉及作品內(nèi)容、版權(quán)等問題,請(qǐng)?jiān)谧髌钒l(fā)表之日內(nèi)起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)益。