作者:馬超
王師北定中原日,家書勿忘告乃翁。在新任CEO帕特·基辛格回歸以后,英特爾推出至強三代Ice Lake-SP處理器。Ice Lake-SP的發(fā)布,不但用最好的方式告慰了近幾年相繼離世的前任掌門人葛洛夫和歐德寧,同時也給了那些將英特爾戲稱為“牙膏廠”的聲音予以相應的回擊。
Ice Lake-SP與去年6月發(fā)布的Cooper Lake-SP處理器,共同構(gòu)成第三代至強可擴展處理器系列。在最新的Ice Lake-SP的處理器中,英特爾使用10 納米制程工藝,每顆CPU可提供的核心個數(shù)也由28個上升到40個,綜合性能指標提高2.65 倍,每插槽最多可支持6TB的DDR4-3200內(nèi)存,支持8內(nèi)存通道和 64 個四代 PCIe 通道。
與很多硅谷大佬一樣,帕特·基辛格也是在十八九歲年紀輕輕時就走上了工作崗位。不同的是,在英特爾的資助下,帕特拿到了圣克拉拉大學的電氣工程學士學位和斯坦福大學計算機科學的碩士學位,而且帕特的學位絕不是個簡單走個過場、鍍個金,RISC之父、谷歌母公司Alphabet現(xiàn)任董事長約翰·亨尼斯就是他在斯坦福的碩士導師。
碩士畢業(yè)后,帕特·基辛格在80386的研發(fā)工作中逐漸嶄露頭角,并被時任CEO安迪·葛洛夫所賞識,后來帕特主導了80486芯片的設(shè)計工作,帶領(lǐng)英特爾取得了成功。2000年,帕特·基辛格正式出任公司CTO,歷史總是向人們展示其相似之美,2001年其作為CTO見證了初代至強芯片的從無到有,20年后他又作為CEO主導了三代至強的發(fā)布。
這次至強三代在安全計算、AI加速、云優(yōu)化及存儲提速方面都有實質(zhì)性進展,這些新技術(shù)不但讓聯(lián)通這樣的通訊運營商有了更強大的流量處理能力;也讓中興、新華三等廠商可以向客戶提供更加安全可靠的解決方案,為5G網(wǎng)絡上的加密流量保駕護航。下面筆者就為大家逐一進行解讀。
安全計算:打開一片新天地
首先聊聊筆者最熟悉的安全計算領(lǐng)域,多方安全計算絕大部分的應用場景可以百萬富翁問題來表述,假如兩個百萬富翁街頭邂逅,他們都想炫一下富,比比誰更有錢,但是出于隱私,都不想讓對方知道自己到底擁有多少財富,如何在不借助第三方的情況下,讓他們知道彼此之間到底誰更有錢?
針對這個問題,在上世紀80年代,姚期智院士提出了解決方案,并因此獲取了圖靈獎,從理論層面證明了多方可信計算問題的可行性。
但在實踐層面多方安全計算依然困擾業(yè)界,尤其在金融行業(yè)更是如此,通常來說金融機構(gòu)都有很多非常具有價值的數(shù)據(jù),但是怎么發(fā)揮數(shù)據(jù)的價值卻讓各大銀行犯了難,就算有宇宙行之稱的工商銀行,市場占有率也不到10%,單靠他們一家的數(shù)據(jù)訓練不出特別好的模型,而把各大銀行的數(shù)據(jù)都拿出來共享,又會存在客戶隱私泄漏的風險。
如何在不讓其它參與者看到真實數(shù)據(jù)的情況下進行計算,并把姚期智院士的解決方案落地,就成了一個難題。
在這個經(jīng)典問題之下,目前只有少數(shù)幾個平臺能做到讓數(shù)據(jù)在不泄露的情況下聯(lián)合多方的數(shù)據(jù)進行聯(lián)合計算、并得到明文計算結(jié)果,從而實現(xiàn)數(shù)據(jù)的所有權(quán)和數(shù)據(jù)使用權(quán)的分離,而且這還都是基于區(qū)塊鏈軟件技術(shù)機制保證安全可信。
而英特爾至強三代支持的SGX則從硬件角度用戶打消了相關(guān)顧慮,安全計算實際是給計算機加了一個安全密室,即使擁有最高權(quán)限的特權(quán)管理員也不能進入安全密室,更無法在安全密室 前布放監(jiān)控。安全密室與外界的一切交互全部要經(jīng)過加密并進行完整性校驗。
幾年前,英特爾已經(jīng)實現(xiàn)SGX技術(shù),但當時SGX能創(chuàng)建的內(nèi)存空間只有128M,而目前的AI機器學習模型動轍要上百M,大的甚至要幾十上百個G,當時的SGX根本放不下這樣的模型,無法在多方安全計算中使用。
不過這次Ice Lake-SP最高可以支持1T的安全空間,這種程度的提升將全面拓展SGX的應用場景,比如騰訊就聯(lián)合北京微芯邊緣計算和區(qū)塊鏈研究院,將區(qū)塊鏈與SGX結(jié)合,保障數(shù)據(jù)安全性,做到最終數(shù)據(jù)可用不可見,從而打破目前各機構(gòu)邊緣之間的數(shù)據(jù)孤島,發(fā)揮數(shù)據(jù)的最大價值。
AVX-512與VNNI雙劍合璧,AI算力大提升
本次Ice Lake-SP還新發(fā)布了AVX-512與VNNI兩種AI運算加速技術(shù),本質(zhì)上它們都屬于SIMD技術(shù),而SIMD的由來要從芯片流水線技術(shù)聊起,CPU的震蕩頻率也被稱為主頻,是CPU處理性能的直接體現(xiàn),CPU的每個動作都需要用晶體震蕩而觸發(fā)。
以加法ADD指令為例,想完成這個執(zhí)行指令需要取指、譯碼、取操作數(shù)、執(zhí)行以及取操作結(jié)果等若干步驟,每個步驟都需要一次晶體震蕩才能推進,因此在流水線技術(shù)出現(xiàn)之前執(zhí)行一條指令至少需要5到6次晶體震蕩周期才能完成。
針對這樣的問題,芯片設(shè)計人員提出了參考工廠流水線機制的想法,因為取指、譯碼這些模塊其實都是獨立的,完成可以在同一時刻并發(fā)執(zhí)行,那么只要將多條指令的相關(guān)步驟放在同一時刻執(zhí)行,比如指令1取指,指令2譯碼,指令3取操作數(shù)等等步驟都可以并發(fā)執(zhí)行。
以上圖這個流水線為例 ,在T5也就是第5個震蕩周期,指令流水線就建立成型,自此以后每個震蕩周期T,都可以取到一個指令的結(jié)果了,也就是說平均每條指令就只需要一個震蕩周期就可以完成,這樣就能大幅提升CPU的運算速度。
SIMD(Single Instruction Multiple Data),也就是單指令多數(shù)據(jù)流技術(shù),其實就是一種數(shù)據(jù)流水線的技術(shù),我們知道很多計算的操作數(shù)可能很長,其中最典型的就是雙精度數(shù)據(jù)的運算,因為雙精度數(shù)需要高低位的兩個操作數(shù)才能表示,因此在傳統(tǒng)的體系架構(gòu)下,雙精度運算就要執(zhí)行低位相加、高位相加、進位符處理三條CPU指令才能完成,為此英特爾提出了在一個指令周期內(nèi)處理多條數(shù)據(jù)的SIMD指令集MMX。
在此之前,想在個人PC上想播放圖像,都是需要安裝專門的硬件解壓卡的,不過解壓卡也像同年代的大哥大、BB機一樣,被新興的MMX技術(shù)瞬間干掉了。
近年來隨著AI計算的興起,在AI的神經(jīng)網(wǎng)絡世界中,現(xiàn)有的方法效率還是太低,以深度神經(jīng)網(wǎng)絡為例,神經(jīng)元可以抽象為對于輸入數(shù)據(jù)乘以權(quán)重以表示信號強度乘積加總,再由ReLU、Sigmoid等應用激活函數(shù)調(diào)節(jié),本質(zhì)是將輸入數(shù)據(jù)與權(quán)重矩陣相乘,并輸入激活函數(shù),對于有三個輸入數(shù)據(jù)和兩個全連接神經(jīng)元的單層神經(jīng)網(wǎng)絡而言,需要把輸入和權(quán)重進行六次相乘,并得出兩組乘積之和。
這實際上就是一個矩陣乘法運算,因此AI運算中的向量與矩陣的運算才是基礎(chǔ)。而VR虛擬現(xiàn)實技術(shù)也比較類似,它也需要不斷進行矩陣的變換操作,所以說矩陣操作才是AI、VR等領(lǐng)域的最基礎(chǔ)算式。
而矩陣的維度又不固定,這也是在AI運算任務中GPU這種異構(gòu)計算方案大行其道的原因,不過英特爾這次又帶來了AVX512加VNNI的組合產(chǎn)品。
AVX512是最新一代的SIMD指令集,VNNI(Vector Neural Network Intruction)也就是矢量神經(jīng)網(wǎng)絡指令集,其實是一種支持變長輸入的指令集。
我們可以把這項技術(shù)簡單理解為在一個周期內(nèi)能將指令所需的所有操作數(shù)全部取到,而且讀操作數(shù)的個數(shù)還是可變長的,這其實就已經(jīng)吸引了異構(gòu)計算的精華了。
從騰訊介紹的情況看,在3D人臉建模,也就是通過2D照片進行3D建模的計算中,在VNNI技術(shù)加持下建模速度提升4.24倍以上,這意味著原有基于3D人臉建模比較慢的各種優(yōu)化、緩存、預處理都不需要了,在大部分場景當中騰訊都能為游戲玩家提供所見即所得的3D頭像。
逆天的虛擬化和容器加速
另外一個值得注意的是,Ice Lake-SP的大家庭中有兩款專為云計算虛擬機和容器進行優(yōu)化的型號,其中P后綴:專為虛擬化層提供優(yōu)化,為虛擬機提供更高的頻率;V后綴:代表為SaaS優(yōu)化,針對高密度、低功耗容器環(huán)境,提高編排效率。
P后綴的8358P系列其能耗指標TDP是240W,這對于風冷服務器來說壓力是不低的,不過這對于已經(jīng)大規(guī)模推廣液冷技術(shù),能夠給服務器“泡澡”的阿里云來講就不是什么問題,因此我們看到阿里云是目前使用至強三代比較多的國內(nèi)云廠商之一。
阿里云與英特爾同步發(fā)布的第七代ECS云產(chǎn)品,搭載的就是這款I(lǐng)ce Lack,如果筆者所料不錯的話,其小型號就應該是我們剛剛提到的8358P系列的芯片。據(jù)阿里云的介紹,第七代ECS相較于上一代整體算力提升了40%。在MySQL、Redis、Nginx等互聯(lián)網(wǎng)典型場景中,第七代ECS最大性能提升了50%。
在Ice Lack的加持下,阿里云在容器部署密度最大可以提升到6倍,存儲云盤掛載密度最高提升1倍。第七代ECS還能在3分鐘內(nèi)交付50萬核VCPU,單實例10秒可拉起,要知道筆者目前所親眼見到的最快VCPU交付也只能達到每分鐘萬核的速度,這種3分鐘內(nèi)交付50萬核的供給效率令人贊嘆。
傲騰-可能是影響最深遠的革命性技術(shù)
還有一項名為傲騰非易失性存儲技術(shù)也特別值得關(guān)注,數(shù)據(jù)局部性原理是計算機發(fā)展歷史上最偉大的發(fā)現(xiàn)之一,也是程序員在編程過程中必須要考慮的規(guī)律,比如數(shù)據(jù)單元A1被訪問了,那么A1的鄰居A0和A2被訪問到的可能性也會極大的增加,因此CPU一般都會根據(jù)數(shù)據(jù)局部性原理進行優(yōu)化,建立CPU到內(nèi)存的高速緩存機制。
當數(shù)據(jù)單元A1被訪問的同時,將它的鄰居們調(diào)入高速緩存,而經(jīng)過大規(guī)模的實踐后人們發(fā)現(xiàn),高速介質(zhì)與低速介質(zhì)之間的速度差距在10倍左右時,提速效果最為明顯。
因此我們看到英特爾的CPU往往分為三級高速緩存,彼此之間的速度差距大概在8到10倍之間,其中高速緩存中的第三級緩存又比內(nèi)存快10倍,這樣彼此之間各差10倍左右的緩存體系加速效果最好,這就像軍事行動中,先鋒部隊既要率先行動,又不能與大部隊過于脫節(jié),才能圓滿完成任務。
而現(xiàn)在計算機架構(gòu)中,內(nèi)存比硬盤快了幾千倍,速度相差太多,用內(nèi)存介質(zhì)給硬盤進行緩存效果往往不是很好。
英特爾傲騰技術(shù)是一個介于內(nèi)存以及存儲之間的新介質(zhì),為硬盤緩存體系提供了新方案,根據(jù)英特爾的介紹,傲騰200持久化內(nèi)存產(chǎn)品,單根將提供512G的容量,不但具備了很強的靈活性,也提供了高于內(nèi)存的容量,為加速數(shù)據(jù)提供了更好的性能。如果傲騰這個產(chǎn)品能提供比內(nèi)存更低的價格,又比硬盤更快的速度。那么在數(shù)據(jù)洪流來臨的時代,傲騰和至強的聯(lián)手,可能會給英特爾帶來一定優(yōu)勢。
概括來說,英特爾再次回到了極致技術(shù)道路上,最后用英特爾前任CEO安迪·葛洛夫的名言做結(jié)尾:“唯一不變就是變,只有偏執(zhí)狂才能生存”。