隨著全球生成和存儲的檔案數據比以往時候都要多,越來越多的數據被存儲,云計算供應商正在通過可訪問的檔案重塑他們的架構,以跟上數據增長的步伐并確保有效管理。
大量數據通常是非結構化或半結構化數據,例如視頻片段、基因組學或用于訓練機器學習和人工智能的數據。對于那些雖然是活動流程的一部分但不需要立即采用的數據,以較低的成本將其存儲在較冷的存儲池中可能是一種解決方案。
但是,使用離線存儲考慮因素是企業需要訪問數據的頻率或數據的可用性。如今的云存儲服務級別協議是圍繞數據需要訪問的頻率以及客戶愿意等待多長時間來檢索數據而構建的。云計算提供商可能需要5到12個小時才能訪問存儲在較冷層中的數據,而存儲在較熱層中的數據可以立即使用,但需要支出更多的費用。
除了成本和可訪問性的考慮因素之外,用戶的心理是第三個因素。刪除內容讓人難以接受,以防在某個時候可能需要它而永遠不知道哪些數據以后會有價值。
從存儲產業整體來看,圍繞存儲介質主要分:磁存儲、電存儲。在海量的大數據中,大部分數據屬于冷數據,即在3個月之后訪問頻次低。采用常規的、硬盤存儲和半導體存儲的方式存儲此類數據,離線存儲大幅度增加了數據中心的能耗水平。由于機械硬盤的壽命通常為5年,數據的長期存儲還會因不斷更新存儲介質而大幅度提高成本和安全風險。