從大數(shù)據(jù)發(fā)展的歷史長河來看，谷歌的“三駕馬車”—— 《GFS》、《MapReduce》和《BigTable》，加上亞馬遜的一篇關于 Dynamo 系統(tǒng)的論文奠定了大數(shù)據(jù)時代發(fā)展的基礎。從“大數(shù)據(jù)之父”道格·卡丁創(chuàng)造了 Hadoop 到現(xiàn)在許多廠商開始單獨造輪子、做開源，大數(shù)據(jù)的發(fā)展首先是獲得了大規(guī)模數(shù)據(jù)的處理能力，然后再解決了數(shù)據(jù)的分析與挖掘問題，到如今又開始解決“如何實時查詢數(shù)據(jù)”的問題，從近 20 年的發(fā)展中基本可以看出，這些演進的背后都是由企業(yè)需求和業(yè)務發(fā)展驅(qū)動的。

英特爾院士、大數(shù)據(jù)技術全球 CTO 戴金權曾提出，未來大數(shù)據(jù)的發(fā)展主要有三大方向：大數(shù)據(jù)平臺云原生化；湖倉一體；大數(shù)據(jù)與人工智能重塑數(shù)據(jù)價值，本文將對三大方向逐一展開解讀。

大數(shù)據(jù)平臺云原生化是必然趨勢

眾所周知，大數(shù)據(jù)系統(tǒng)是一個復雜性很高的系統(tǒng)，傳統(tǒng)的大數(shù)據(jù)系統(tǒng)運維成本很高，比如處理資源分配、進行容錯等這些工作其實并不能對終端業(yè)務產(chǎn)生直接價值。然而，如今的大多企業(yè)都面臨著日益增長的數(shù)據(jù)量、各種類型數(shù)據(jù)的實時化和智能化處理的需求，企業(yè)亟需降低運維成本，并希望能夠通過對數(shù)據(jù)的挖掘產(chǎn)生支撐業(yè)務側的洞見與預測！

于是，云原生大數(shù)據(jù)平臺因為其高彈性擴展、多租戶資源管理、海量存儲、異構數(shù)據(jù)類型處理及低成本計算分析的特點，受到了企業(yè)的歡迎，這也是大數(shù)據(jù)系統(tǒng)的必然發(fā)展趨勢，將大數(shù)據(jù)運行在云上，以云服務的形式提供給用戶，能大大提高企業(yè)服務化能力，用戶可以直接在云上進行價值挖掘。而且，當廠商通過云服務提供大數(shù)據(jù)技術后，很多新能力也變得很透明，企業(yè)無需經(jīng)過摸索和集成，就可以將自己的服務無縫提供給用戶。

但另外一方面，云原生大數(shù)據(jù)也有非常多的技術挑戰(zhàn)。許多大數(shù)據(jù)系統(tǒng)最初并不是為云原生架構而設計的，比如開發(fā)者在做數(shù)據(jù)的 Shuffle 時，思考的是如何利用本地 IO 能力來提高效率。

企業(yè)為了能夠讓業(yè)務更好地運行在云的體系架構之上，當前一般采用的都是架構層的解決方案，融合了高性能計算（HPC）強大算力和云服務安全性、易用性的云原生超級計算似乎是當前最佳的有效方案。但事實上，軟件層的升級多少還是會受硬件層的影響。所以，不如換個方向，思考一下如何利用硬件能力來提高數(shù)據(jù)處理效率。

廠商在硬件層提升性能的方式往往是，通過使用服務器來響應對高性能計算 (HPC) 集群的需求，通過對 CPU 升級來處理更大規(guī)模的高性能計算 (HPC) 應用。像英特爾® 至強® 可擴展處理器提供業(yè)界領先、經(jīng)工作負載優(yōu)化的性能，具有內(nèi)置人工智能加速功能，可提供無縫性能基礎，就是許多企業(yè)的選擇。

應對業(yè)務側日益增長的需求和不斷演變的數(shù)據(jù)服務模式，企業(yè)可利用英特爾® 至強® 可擴展處理器上集成的英特爾® 高級矢量擴展 512（英特爾® AVX-512）來繼續(xù)進行工作負載優(yōu)化創(chuàng)新。英特爾® 高級矢量擴展 512（英特爾® AVX-512）是一組指令集，可以加速工作負載和用例的性能，如科學模擬、金融分析、人工智能 (AI) / 深度學習、3D 建模和分析、圖像和音頻 / 視頻處理、密碼學和數(shù)據(jù)壓縮等。英特爾® AVX-512 可以處理苛刻的計算任務，借助兩個 512 位融合乘加 (FMA) 單元，應用程序在 512 位矢量內(nèi)的每個時鐘周期每秒可打包 32 次雙精度和 64 次單精度浮點運算，以及八個 64 位和十六個 32 位整數(shù)，大大地提高了數(shù)據(jù)處理效率。

“湖倉一體”是解決實時性數(shù)據(jù)問題的新興架構

隨著人工智能等技術的興起，數(shù)據(jù)規(guī)模越來越大，存儲的數(shù)據(jù)類型也越來越豐富，與文字相比，體積更大空間的圖片、聲音和視頻存儲需求爆發(fā)。面對這些海量數(shù)據(jù)治理需求，數(shù)據(jù)倉庫、數(shù)據(jù)湖架構被企業(yè)廣泛應用。

當前許多人認為，面向領域主題的、集成的、穩(wěn)定的、能夠反映歷史數(shù)據(jù)變化的數(shù)據(jù)倉庫，已經(jīng)滿足不了人工智能、機器學習技術的數(shù)據(jù)需求，開始逐漸走下坡路，數(shù)據(jù)治理架構正在逐漸從數(shù)據(jù)倉庫跨越到數(shù)據(jù)湖。他們認為，數(shù)據(jù)湖是多結構數(shù)據(jù)的系統(tǒng)或存儲庫，以原始格式和模式存儲，通常作為對象“blob”或文件存儲，可以更好地解決企業(yè)數(shù)據(jù)需求，甚至有人認為數(shù)據(jù)湖就是下一代數(shù)據(jù)倉庫。

事實上，大多數(shù)企業(yè)目前至少有一個或者多個數(shù)據(jù)倉庫服務于各種下游應用程序，而且把所有的原始數(shù)據(jù)都放到數(shù)據(jù)湖，可能會提升數(shù)據(jù)的使用難度，對于企業(yè)數(shù)據(jù)治理來說也不是一個小的挑戰(zhàn)；此外，從實時性方面，數(shù)據(jù)湖也做不到真正的實時。

然而，企業(yè)數(shù)據(jù)的使用場景如今已然發(fā)生巨大變化，需求從離線場景轉(zhuǎn)變到實時數(shù)據(jù)分析場景。數(shù)據(jù)規(guī)模發(fā)展到一定程度后，離線數(shù)據(jù)的缺點就會愈發(fā)凸顯，企業(yè)對于實時數(shù)據(jù)治理有了更高的要求，希望從業(yè)務端獲取到數(shù)據(jù)后，能夠立即被清洗處理，從而滿足基于數(shù)據(jù)的挖掘、預測和分析。

所以“湖倉一體”作為一種新興架構，結合了數(shù)據(jù)倉庫與數(shù)據(jù)湖的優(yōu)點，在類似數(shù)據(jù)湖的低成本存儲上，實現(xiàn)了與數(shù)據(jù)倉庫中類似的數(shù)據(jù)結構和數(shù)據(jù)管理功能，在擴展性、事務性以及靈活度上都體現(xiàn)出了獨有的優(yōu)勢，是解決目前企業(yè)數(shù)據(jù)治理需求的更優(yōu)解。

火山引擎與英特爾在云原生大數(shù)據(jù)領域深入合作，從用戶云業(yè)務需求出發(fā)提升數(shù)據(jù)價值。從湖倉一體方面，英特爾技術團隊和火山引擎技術團隊聯(lián)合對 ClickHouse 軟件進行優(yōu)化，通過對硬件指令等其他的優(yōu)化，使 ClickHouse 核心代碼的性能有了 1.5 倍以上的提升，ClickHouse（Repartition-Block shuffle）性能加速 4.2 倍。

英特爾和火山引擎 ByteHouse 的合作優(yōu)化

總體而言，湖倉一體是一種更開放的新型架構，有人做了一個比喻，“這種操作方式類似于在湖邊搭建了很多小房子，有的負責數(shù)據(jù)分析，有的運轉(zhuǎn)機器學習，有的來檢索音視頻等，至于那些數(shù)據(jù)源流，都可以從數(shù)據(jù)湖里輕松獲取。”

Gartner 也發(fā)布了湖倉一體的未來應用場景預測，“湖倉一體架構需要支持三類實時場景，第一類是實時持續(xù)智能；第二類是實時按需智能；第三類是離線按需智能。這三類場景將可以通過快照視圖、實時視圖以及實時批視圖提供給數(shù)據(jù)消費者，這同樣是未來湖倉一體架構需要持續(xù)演進的方向。”

“AI 與大數(shù)據(jù)一體化”重塑數(shù)據(jù)價值

如今各行各業(yè)都在探索怎樣讓 AI 在實際應用中提高工作效率或者體驗，但有數(shù)據(jù)表明，85% 以上的人工智能項目都是以失敗而告終的，并沒有真正地得到交付。歸其原因是，實驗室中正在跑的人工智能模型、算法和真正落地到生產(chǎn)環(huán)境或業(yè)務場景中的東西要求是不一樣的。這意味著，企業(yè)想真正地將算法、AI 模型運用到生產(chǎn)系統(tǒng)中，需要經(jīng)過非常復雜的 AB 測試，但將 AI 模型算法和真實的業(yè)務數(shù)據(jù)流水線相結合是一個非常大的挑戰(zhàn)。

回想一下，在構建一些 AI 架構時，大家通常的做法是利用一個大數(shù)據(jù)處理平臺，然后對數(shù)據(jù)進行處理，處理完后再將數(shù)據(jù)拷貝到另外一個 AI 集群或是深度學習的集群中進行訓練。顯而易見，數(shù)據(jù)拷貝的過程會產(chǎn)生一定的時間成本和移植成本，解決了這個問題，可以大大提高企業(yè)研發(fā)效率，快速實現(xiàn)降本增效。

將大數(shù)據(jù)分析與 AI 平臺融為一體的模式成為了企業(yè)解決以上問題的方案，其也正在成為一種行業(yè)的新趨勢。構建一個端到端的大數(shù)據(jù) AI 的流水線，將大數(shù)據(jù) +AI 的流程從數(shù)據(jù)的獲得、讀取、數(shù)據(jù)的處理到特征的處理、建模、訓練、部署、推理等流水線都統(tǒng)一起來，是實現(xiàn) AI 真正落地的關鍵點。

為了支撐大數(shù)據(jù)的處理，英特爾在“AI+ 大數(shù)據(jù)”方面做的第一件事情就是構建統(tǒng)一的大數(shù)據(jù) AI 平臺、集群——英特爾 BigDL ，其是用于 Spark 的分布式深度學習庫，可以直接在現(xiàn)有 Spark 或 Apache Hadoop 集群之上運行，并可以將深度學習應用程序編寫為 Scala 或 Python 程序。

作為底層計算平臺，英特爾 BigDL 針對分布式的英特爾® 至強® 處理器 CPU 集群進行了大數(shù)據(jù) AI 平臺的構建，包括在硬件上的眾多優(yōu)化，包括 CPU 本身對 AI 的支持。雖然英特爾® 至強® 處理器是一個通用處理器，但它提供了非常多的硬件指令及針對 AI 優(yōu)化和加速的硬件支持，包括在低精度 INT8 上的 AVX512_VNNI , 以提升 DL 性能。其主要具有以下特點：

豐富的深度學習支持：基于 Torch BigDL 為深度學習提供全面支持，包括數(shù)值計算（通過 Tensor 和高級神經(jīng)網(wǎng)絡）；此外，可以將預訓練的 Caffe * 或 Torch 模型加載到 Spark 框架中，然后使用 BigDL 庫運行推理應用他們的數(shù)據(jù)。
高效的橫向擴展：BigDL 可以通過使用 Spark 以及同步隨機梯度下降 (SGD) 和 Spark 中的 all-reduce 通信的有效實現(xiàn)，有效地向外擴展以執(zhí)行“大數(shù)據(jù)規(guī)模”的數(shù)據(jù)分析。
極高的性能：BigDL 在每個 Spark 任務中使用英特爾® 數(shù)學核心函數(shù)庫（英特爾® MKL）和多線程編程，BigDL 和英特爾® MKL 專為英特爾® 至強® 處理器設計和優(yōu)化，可提供極高的性能。

萬事達卡在企業(yè)的數(shù)據(jù)倉庫建構在分布式大數(shù)據(jù)平臺之上，便是直接用英特爾 BigDL 來構建 AI 應用，將大數(shù)據(jù)的數(shù)據(jù)處理與人工智能的處理直接統(tǒng)一起來，幫助平臺支撐超過 20 億的用戶。平臺上的幾千億的交易數(shù)據(jù)訓練了非常多的 AI 模型，其中最大的模型在一個任務運行在 500 臺以上的英特爾服務器上進行大規(guī)模分布式訓練，差不多在 5 小時之內(nèi)訓練出一個大規(guī)模的 AI 模型，提高各種 AI 能力，實現(xiàn)了超大規(guī)模用戶量的支撐。

寫在最后

經(jīng)過近 20 年的發(fā)展，大數(shù)據(jù)的技術棧逐漸成熟，“大數(shù)據(jù)”如今幾乎已經(jīng)是程序員技術棧的標配，基本上大多數(shù)應用環(huán)境都會牽扯到數(shù)據(jù)治理、數(shù)據(jù)處理。

近年來，云計算、人工智能等技術的發(fā)展，還有底層芯片和內(nèi)存端的變化以及視頻等應用的普及，都給大數(shù)據(jù)技術帶來了新的要求。不管是應用基于數(shù)據(jù)還是要用數(shù)據(jù)改善應用，怎樣能夠把整個技術平臺和軟件平臺做得更加易用，這對于廠商來說是亟待解決的難題。此外，人工智能、大數(shù)據(jù)技術的應用場景都非常廣泛，但在具體應用開發(fā)的技術實現(xiàn)上還有很多缺陷，如何實現(xiàn)技術突破和技術創(chuàng)新，這是所有人都面臨的難點。

我們可以預測到的是，未來的大數(shù)據(jù)技術會沿著異構計算、云化，AI 融合、內(nèi)存計算等方向持續(xù)更迭，目前我們看到的這些難點應該都會被逐一解決，但當我們在進行算法、架構優(yōu)化時，也要記得硬件是實現(xiàn)所有技術演進升級的基本盤。當在軟件層找不到解決方案的時候，也可以嘗試把目光放到硬件層。

注：文章及圖片轉(zhuǎn)載自網(wǎng)絡，如有侵權請聯(lián)系刪除

分享到：微信 QQ好友新浪微博 QQ空間騰訊微博人人網(wǎng)

国产精品午夜在线_av免费不卡国产观看国产_成人精品免费视频_国产91人人超碰_同房视频无码三区

云原生大數(shù)據(jù)、湖倉一體、AI for Data，未來“誰主

大數(shù)據(jù)平臺云原生化是必然趨勢

“湖倉一體”是解決實時性數(shù)據(jù)問題的新興架構

“AI 與大數(shù)據(jù)一體化”重塑數(shù)據(jù)價值

寫在最后

国产精品午夜在线_av免费不卡国产观看国产_成人精品免费视频_国产91人人超碰_同房视频无码三区

云原生大數(shù)據(jù)、湖倉一體、AI for Data，未來“誰主

大數(shù)據(jù)平臺云原生化是必然趨勢

“湖倉一體”是解決實時性數(shù)據(jù)問題的新興架構

“AI 與大數(shù)據(jù)一體化”重塑數(shù)據(jù)價值

寫在最后

云原生大數(shù)據(jù)、湖倉一體、AI for Data，未來“誰主