工控網(wǎng)首頁(yè)
>

新聞中心

>

業(yè)界動(dòng)態(tài)

>

機(jī)器學(xué)習(xí)面臨的三個(gè)關(guān)鍵數(shù)據(jù)挑戰(zhàn)

機(jī)器學(xué)習(xí)面臨的三個(gè)關(guān)鍵數(shù)據(jù)挑戰(zhàn)

2020/6/11 9:44:36

眾所周知,數(shù)據(jù)對(duì)于機(jī)器學(xué)習(xí)的重要性。了解數(shù)據(jù)訪問(wèn)模式將幫助數(shù)據(jù)科學(xué)家確定適合其項(xiàng)目的正確存儲(chǔ)基礎(chǔ)架構(gòu)。數(shù)據(jù)基礎(chǔ)架構(gòu)使機(jī)器學(xué)習(xí)成為可能。然而,一旦開(kāi)始使用,機(jī)器學(xué)習(xí)就面臨著關(guān)鍵的數(shù)據(jù)挑戰(zhàn),需要首先解決:

1.質(zhì)量

2.稀疏性

3.完整性

接下來(lái),讓我們深入研究其中的每一個(gè),以便大家了解如何克服機(jī)器學(xué)習(xí)的這些挑戰(zhàn):

1. 質(zhì)量

許多數(shù)據(jù)科學(xué)家希望利用外部來(lái)源的數(shù)據(jù)。然而,通常沒(méi)有質(zhì)量控制或保證如何捕獲原始數(shù)據(jù)。

你相信外部數(shù)據(jù)的準(zhǔn)確性嗎?

這是一個(gè)很好的例子。漂浮在海洋中的浮標(biāo)上的傳感器收集有關(guān)海洋溫度的數(shù)據(jù)。但是,當(dāng)傳感器無(wú)法收集溫度時(shí),它將記錄為999。此外,在2000年之前,僅用兩個(gè)數(shù)字記錄了年份的數(shù)字。但是在2000年之后,記錄的數(shù)字變?yōu)榱怂膫€(gè)。

因此,我們需要了解數(shù)據(jù)的質(zhì)量以及如何準(zhǔn)備數(shù)據(jù)。在這種情況下,分析浮標(biāo)數(shù)據(jù)的科學(xué)家可以使用平均值、均值、最小值、最大值來(lái)可視化原始數(shù)據(jù),捕獲這些數(shù)據(jù)庫(kù)錯(cuò)誤并相應(yīng)地對(duì)其進(jìn)行清理。

2. 稀疏性

在這種情況下,稀疏適用于元數(shù)據(jù)。通常,元數(shù)據(jù)字段不完整,有些字段已填寫(xiě),有些字段留空。如果數(shù)據(jù)是從單一來(lái)源生成的,則可能是由于人類(lèi)缺乏規(guī)范或知識(shí)所致。但是,如果數(shù)據(jù)來(lái)自各種來(lái)源,而沒(méi)有元數(shù)據(jù)的標(biāo)準(zhǔn)定義,則每個(gè)數(shù)據(jù)集可能具有完全不同的字段。因此,將它們組合在一起時(shí),完成的字段可能不對(duì)應(yīng)。

當(dāng)前,關(guān)于捕獲哪些元數(shù)據(jù)沒(méi)有行業(yè)標(biāo)準(zhǔn)。然而,元數(shù)據(jù)與數(shù)據(jù)本身一樣重要。當(dāng)您具有填充了不同元數(shù)據(jù)字段的相同類(lèi)型的數(shù)據(jù)時(shí),如何關(guān)聯(lián)和過(guò)濾數(shù)據(jù)?

如果以浮標(biāo)為例,初始數(shù)據(jù)傳感器每十分鐘收集一次水溫,而較新的浮標(biāo)每三分鐘收集一次水溫。關(guān)聯(lián)數(shù)據(jù)的唯一方法是通過(guò)元數(shù)據(jù)在捕獲時(shí)公開(kāi)。當(dāng)科學(xué)家進(jìn)行歷史分析時(shí),他們需要元數(shù)據(jù)以便能夠相應(yīng)地調(diào)整其模型。

3. 完整性

數(shù)據(jù)完整性是數(shù)據(jù)準(zhǔn)確性和一致性的保證。數(shù)據(jù)保管鏈對(duì)于證明數(shù)據(jù)在流水線和位置中移動(dòng)時(shí)不會(huì)受到損害至關(guān)重要。當(dāng)數(shù)據(jù)的捕獲和攝取受到控制時(shí),您可以相對(duì)輕松地驗(yàn)證其完整性。但是,與他人合作時(shí),很難進(jìn)行驗(yàn)證。生成數(shù)據(jù)時(shí),沒(méi)有用于外部數(shù)據(jù)的安全證書(shū)。您也不能確保數(shù)據(jù)記錄完全符合預(yù)期,也不能確保接收到的數(shù)據(jù)與原始記錄時(shí)完全相同。

關(guān)于物聯(lián)網(wǎng)數(shù)據(jù)和區(qū)塊鏈存在一些有趣的概念,但是,在廣泛采用這種概念之前,數(shù)據(jù)完整性取決于安全技術(shù)和策略的結(jié)合。例如,由于數(shù)據(jù)在靜態(tài)或傳輸過(guò)程中可能會(huì)受到威脅,因此通過(guò)網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)應(yīng)使用https,并且在靜態(tài)時(shí)應(yīng)進(jìn)行加密。另一方面,訪問(wèn)控制應(yīng)受策略驅(qū)動(dòng),以避免人為錯(cuò)誤。

如何開(kāi)始?

數(shù)據(jù)質(zhì)量、稀疏性和完整性直接影響最終模型的準(zhǔn)確性,并且是當(dāng)今機(jī)器學(xué)習(xí)面臨的一些最大挑戰(zhàn)。擁有清晰數(shù)據(jù)定義,政策并探索行業(yè)特定數(shù)據(jù)標(biāo)準(zhǔn)的組織將在短期和長(zhǎng)期項(xiàng)目中受益。

如果您還沒(méi)有,那么您的組織應(yīng)該首先定義自己的數(shù)據(jù)收集策略,元數(shù)據(jù)格式,然后應(yīng)用標(biāo)準(zhǔn)的安全技術(shù)。數(shù)據(jù)質(zhì)量和稀疏性齊頭并進(jìn)。下一步,設(shè)置元數(shù)據(jù)策略,并確保可以使用捕獲的定性數(shù)據(jù)來(lái)驗(yàn)證數(shù)據(jù)的有效性。最后,為了確保數(shù)據(jù)完整性,可以在生成數(shù)據(jù)時(shí)應(yīng)用數(shù)字證書(shū),應(yīng)該在傳輸過(guò)程中強(qiáng)制使用SSL,并且始終保持啟用加密狀態(tài)。

安全數(shù)據(jù)協(xié)作

如果您所在的行業(yè)需要與外部組織不斷交換數(shù)據(jù),那么最好開(kāi)放您的數(shù)據(jù)和元格式的源代碼,因?yàn)檫@些標(biāo)準(zhǔn)比許多專(zhuān)有標(biāo)準(zhǔn)更廣泛。更好的是,您可以發(fā)起一個(gè)行業(yè)開(kāi)放標(biāo)準(zhǔn)委員會(huì),讓其他人參與和貢獻(xiàn)。一個(gè)很好的例子是“開(kāi)放目標(biāo)”,這是一種“公私合作伙伴關(guān)系,利用人類(lèi)遺傳學(xué)和基因組學(xué)數(shù)據(jù)進(jìn)行系統(tǒng)的藥物靶點(diǎn)識(shí)別和優(yōu)先排序?!?/p>

尤其是研究數(shù)據(jù)生態(tài)系統(tǒng)已經(jīng)變得高度復(fù)雜,組織內(nèi)部和外部的合作者需要快速訪問(wèn)數(shù)據(jù)以及簡(jiǎn)化數(shù)據(jù)管理的方法。機(jī)器學(xué)習(xí)的挑戰(zhàn)很多。第一步是使用正確的數(shù)據(jù)和基礎(chǔ)結(jié)構(gòu)啟動(dòng)項(xiàng)目。 

審核編輯(
王妍
)
投訴建議

提交

查看更多評(píng)論
其他資訊

查看更多

2024年斯凱孚創(chuàng)新峰會(huì)暨新產(chǎn)品發(fā)布會(huì)召開(kāi),以創(chuàng)新產(chǎn)品矩陣重構(gòu)旋轉(zhuǎn)

禹衡光學(xué)亮相北京機(jī)床展,以創(chuàng)新助力行業(yè)發(fā)展新篇章

從SCIMC架構(gòu)到HyperRing技術(shù),機(jī)器人控制技術(shù)的革新

漢威科技用智慧化手段為燃?xì)鈴S站構(gòu)筑安全防線

DSP應(yīng)用市場(chǎng)的大蛋糕,國(guó)產(chǎn)廠商能吃下多少?