從大數(shù)據(jù)發(fā)展的歷史長河來看,谷歌的“三駕馬車”—— 《GFS》、《MapReduce》和《BigTable》,加上亞馬遜的一篇關于 Dynamo 系統(tǒng)的論文奠定了大數(shù)據(jù)時代發(fā)展的基礎。從“大數(shù)據(jù)之父”道格·卡丁創(chuàng)造了 Hadoop 到現(xiàn)在許多廠商開始單獨造輪子、做開源,大數(shù)據(jù)的發(fā)展首先是獲得了大規(guī)模數(shù)據(jù)的處理能力,然后再解決了數(shù)據(jù)的分析與挖掘問題,到如今又開始解決“如何實時查詢數(shù)據(jù)”的問題,從近 20 年的發(fā)展中基本可以看出,這些演進的背后都是由企業(yè)需求和業(yè)務發(fā)展驅(qū)動的。 英特爾院士、大數(shù)據(jù)技術全球 CTO 戴金權曾提出,未來大數(shù)據(jù)的發(fā)展主要有三大方向:大數(shù)據(jù)平臺云原生化;湖倉一體;大數(shù)據(jù)與人工智能重塑數(shù)據(jù)價值,本文將對三大方向逐一展開解讀。 大數(shù)據(jù)平臺云原生化是必然趨勢眾所周知,大數(shù)據(jù)系統(tǒng)是一個復雜性很高的系統(tǒng),傳統(tǒng)的大數(shù)據(jù)系統(tǒng)運維成本很高,比如處理資源分配、進行容錯等這些工作其實并不能對終端業(yè)務產(chǎn)生直接價值。然而,如今的大多企業(yè)都面臨著日益增長的數(shù)據(jù)量、各種類型數(shù)據(jù)的實時化和智能化處理的需求,企業(yè)亟需降低運維成本,并希望能夠通過對數(shù)據(jù)的挖掘產(chǎn)生支撐業(yè)務側的洞見與預測! 于是,云原生大數(shù)據(jù)平臺因為其高彈性擴展、多租戶資源管理、海量存儲、異構數(shù)據(jù)類型處理及低成本計算分析的特點,受到了企業(yè)的歡迎,這也是大數(shù)據(jù)系統(tǒng)的必然發(fā)展趨勢,將大數(shù)據(jù)運行在云上,以云服務的形式提供給用戶,能大大提高企業(yè)服務化能力,用戶可以直接在云上進行價值挖掘。而且,當廠商通過云服務提供大數(shù)據(jù)技術后,很多新能力也變得很透明,企業(yè)無需經(jīng)過摸索和集成,就可以將自己的服務無縫提供給用戶。 但另外一方面,云原生大數(shù)據(jù)也有非常多的技術挑戰(zhàn)。許多大數(shù)據(jù)系統(tǒng)最初并不是為云原生架構而設計的,比如開發(fā)者在做數(shù)據(jù)的 Shuffle 時,思考的是如何利用本地 IO 能力來提高效率。 企業(yè)為了能夠讓業(yè)務更好地運行在云的體系架構之上,當前一般采用的都是架構層的解決方案,融合了高性能計算(HPC)強大算力和云服務安全性、易用性的云原生超級計算似乎是當前最佳的有效方案。但事實上,軟件層的升級多少還是會受硬件層的影響。所以,不如換個方向,思考一下如何利用硬件能力來提高數(shù)據(jù)處理效率。 廠商在硬件層提升性能的方式往往是,通過使用服務器來響應對高性能計算 (HPC) 集群的需求,通過對 CPU 升級來處理更大規(guī)模的高性能計算 (HPC) 應用。像英特爾® 至強® 可擴展處理器提供業(yè)界領先、經(jīng)工作負載優(yōu)化的性能,具有內(nèi)置人工智能加速功能,可提供無縫性能基礎,就是許多企業(yè)的選擇。 應對業(yè)務側日益增長的需求和不斷演變的數(shù)據(jù)服務模式,企業(yè)可利用英特爾® 至強® 可擴展處理器上集成的英特爾® 高級矢量擴展 512(英特爾® AVX-512)來繼續(xù)進行工作負載優(yōu)化創(chuàng)新。英特爾® 高級矢量擴展 512(英特爾® AVX-512)是一組指令集,可以加速工作負載和用例的性能,如科學模擬、金融分析、人工智能 (AI) / 深度學習、3D 建模和分析、圖像和音頻 / 視頻處理、密碼學和數(shù)據(jù)壓縮等。英特爾® AVX-512 可以處理苛刻的計算任務,借助兩個 512 位融合乘加 (FMA) 單元,應用程序在 512 位矢量內(nèi)的每個時鐘周期每秒可打包 32 次雙精度和 64 次單精度浮點運算,以及八個 64 位和十六個 32 位整數(shù),大大地提高了數(shù)據(jù)處理效率。 “湖倉一體”是解決實時性數(shù)據(jù)問題的新興架構隨著人工智能等技術的興起,數(shù)據(jù)規(guī)模越來越大,存儲的數(shù)據(jù)類型也越來越豐富,與文字相比,體積更大空間的圖片、聲音和視頻存儲需求爆發(fā)。面對這些海量數(shù)據(jù)治理需求,數(shù)據(jù)倉庫、數(shù)據(jù)湖架構被企業(yè)廣泛應用。 當前許多人認為,面向領域主題的、集成的、穩(wěn)定的、能夠反映歷史數(shù)據(jù)變化的數(shù)據(jù)倉庫,已經(jīng)滿足不了 人工智能、機器學習技術的數(shù)據(jù)需求,開始逐漸走下坡路,數(shù)據(jù)治理架構正在逐漸從數(shù)據(jù)倉庫跨越到數(shù)據(jù)湖。他們認為,數(shù)據(jù)湖是多結構數(shù)據(jù)的系統(tǒng)或存儲庫,以原始格式和模式存儲,通常作為對象“blob”或文件存儲,可以更好地解決企業(yè)數(shù)據(jù)需求,甚至有人認為數(shù)據(jù)湖就是下一代數(shù)據(jù)倉庫。 事實上,大多數(shù)企業(yè)目前至少有一個或者多個數(shù)據(jù)倉庫服務于各種下游應用程序,而且把所有的原始數(shù)據(jù)都放到數(shù)據(jù)湖,可能會提升數(shù)據(jù)的使用難度,對于企業(yè)數(shù)據(jù)治理來說也不是一個小的挑戰(zhàn);此外,從實時性方面,數(shù)據(jù)湖也做不到真正的實時。 然而,企業(yè)數(shù)據(jù)的使用場景如今已然發(fā)生巨大變化,需求從離線場景轉(zhuǎn)變到實時數(shù)據(jù)分析場景。數(shù)據(jù)規(guī)模發(fā)展到一定程度后,離線數(shù)據(jù)的缺點就會愈發(fā)凸顯,企業(yè)對于實時數(shù)據(jù)治理有了更高的要求,希望從業(yè)務端獲取到數(shù)據(jù)后,能夠立即被清洗處理,從而滿足基于數(shù)據(jù)的挖掘、預測和分析。 所以“湖倉一體”作為一種新興架構,結合了數(shù)據(jù)倉庫與數(shù)據(jù)湖的優(yōu)點,在類似數(shù)據(jù)湖的低成本存儲上,實現(xiàn)了與數(shù)據(jù)倉庫中類似的數(shù)據(jù)結構和數(shù)據(jù)管理功能,在擴展性、事務性以及靈活度上都體現(xiàn)出了獨有的優(yōu)勢,是解決目前企業(yè)數(shù)據(jù)治理需求的更優(yōu)解。 火山引擎與英特爾在云原生大數(shù)據(jù)領域深入合作,從用戶云業(yè)務需求出發(fā)提升數(shù)據(jù)價值。從湖倉一體方面,英特爾技術團隊和火山引擎技術團隊聯(lián)合對 ClickHouse 軟件進行優(yōu)化,通過對硬件指令等其他的優(yōu)化,使 ClickHouse 核心代碼的性能有了 1.5 倍以上的提升,ClickHouse(Repartition-Block shuffle)性能加速 4.2 倍。 ![]() 英特爾和火山引擎 ByteHouse 的合作優(yōu)化 總體而言,湖倉一體是一種更開放的新型架構,有人做了一個比喻,“這種操作方式類似于在湖邊搭建了很多小房子,有的負責數(shù)據(jù)分析,有的運轉(zhuǎn)機器學習,有的來檢索音視頻等,至于那些數(shù)據(jù)源流,都可以從數(shù)據(jù)湖里輕松獲取。” Gartner 也發(fā)布了湖倉一體的未來應用場景預測,“湖倉一體架構需要支持三類實時場景,第一類是實時持續(xù)智能;第二類是實時按需智能;第三類是離線按需智能。這三類場景將可以通過快照視圖、實時視圖以及實時批視圖提供給數(shù)據(jù)消費者,這同樣是未來湖倉一體架構需要持續(xù)演進的方向。” “AI 與大數(shù)據(jù)一體化”重塑數(shù)據(jù)價值如今各行各業(yè)都在探索怎樣讓 AI 在實際應用中提高工作效率或者體驗,但有數(shù)據(jù)表明,85% 以上的人工智能項目都是以失敗而告終的,并沒有真正地得到交付。歸其原因是,實驗室中正在跑的人工智能模型、算法和真正落地到生產(chǎn)環(huán)境或業(yè)務場景中的東西要求是不一樣的。這意味著,企業(yè)想真正地將算法、AI 模型運用到生產(chǎn)系統(tǒng)中,需要經(jīng)過非常復雜的 AB 測試,但將 AI 模型算法和真實的業(yè)務數(shù)據(jù)流水線相結合是一個非常大的挑戰(zhàn)。 回想一下,在構建一些 AI 架構時,大家通常的做法是利用一個大數(shù)據(jù)處理平臺,然后對數(shù)據(jù)進行處理,處理完后再將數(shù)據(jù)拷貝到另外一個 AI 集群或是深度學習的集群中進行訓練。顯而易見,數(shù)據(jù)拷貝的過程會產(chǎn)生一定的時間成本和移植成本,解決了這個問題,可以大大提高企業(yè)研發(fā)效率,快速實現(xiàn)降本增效。 將大數(shù)據(jù)分析與 AI 平臺融為一體的模式成為了企業(yè)解決以上問題的方案,其也正在成為一種行業(yè)的新趨勢。構建一個端到端的大數(shù)據(jù) AI 的流水線,將大數(shù)據(jù) +AI 的流程從數(shù)據(jù)的獲得、讀取、數(shù)據(jù)的處理到特征的處理、建模、訓練、部署、推理等流水線都統(tǒng)一起來,是實現(xiàn) AI 真正落地的關鍵點。 ![]()
為了支撐大數(shù)據(jù)的處理,英特爾在“AI+ 大數(shù)據(jù)”方面做的第一件事情就是構建統(tǒng)一的大數(shù)據(jù) AI 平臺、集群——英特爾 BigDL ,其是用于 Spark 的分布式深度學習庫,可以直接在現(xiàn)有 Spark 或 Apache Hadoop 集群之上運行,并可以將深度學習應用程序編寫為 Scala 或 Python 程序。 作為底層計算平臺,英特爾 BigDL 針對分布式的英特爾® 至強® 處理器 CPU 集群進行了大數(shù)據(jù) AI 平臺的構建,包括在硬件上的眾多優(yōu)化,包括 CPU 本身對 AI 的支持。雖然英特爾® 至強® 處理器是一個通用處理器,但它提供了非常多的硬件指令及針對 AI 優(yōu)化和加速的硬件支持,包括在低精度 INT8 上的 AVX512_VNNI , 以提升 DL 性能。其主要具有以下特點:
萬事達卡在企業(yè)的數(shù)據(jù)倉庫建構在分布式大數(shù)據(jù)平臺之上,便是直接用英特爾 BigDL 來構建 AI 應用,將大數(shù)據(jù)的數(shù)據(jù)處理與人工智能的處理直接統(tǒng)一起來,幫助平臺支撐超過 20 億的用戶。平臺上的幾千億的交易數(shù)據(jù)訓練了非常多的 AI 模型,其中最大的模型在一個任務運行在 500 臺以上的英特爾服務器上進行大規(guī)模分布式訓練,差不多在 5 小時之內(nèi)訓練出一個大規(guī)模的 AI 模型,提高各種 AI 能力,實現(xiàn)了超大規(guī)模用戶量的支撐。 寫在最后經(jīng)過近 20 年的發(fā)展,大數(shù)據(jù)的技術棧逐漸成熟,“大數(shù)據(jù)”如今幾乎已經(jīng)是程序員技術棧的標配,基本上大多數(shù)應用環(huán)境都會牽扯到數(shù)據(jù)治理、數(shù)據(jù)處理。 近年來,云計算、人工智能等技術的發(fā)展,還有底層芯片和內(nèi)存端的變化以及視頻等應用的普及,都給大數(shù)據(jù)技術帶來了新的要求。不管是應用基于數(shù)據(jù)還是要用數(shù)據(jù)改善應用,怎樣能夠把整個技術平臺和軟件平臺做得更加易用,這對于廠商來說是亟待解決的難題。此外,人工智能、大數(shù)據(jù)技術的應用場景都非常廣泛,但在具體應用開發(fā)的技術實現(xiàn)上還有很多缺陷,如何實現(xiàn)技術突破和技術創(chuàng)新,這是所有人都面臨的難點。 我們可以預測到的是,未來的大數(shù)據(jù)技術會沿著異構計算、云化,AI 融合、內(nèi)存計算等方向持續(xù)更迭,目前我們看到的這些難點應該都會被逐一解決,但當我們在進行算法、架構優(yōu)化時,也要記得硬件是實現(xiàn)所有技術演進升級的基本盤。當在軟件層找不到解決方案的時候,也可以嘗試把目光放到硬件層。 注:文章及圖片轉(zhuǎn)載自網(wǎng)絡,如有侵權請聯(lián)系刪除 |