“新計算”帶來“新商業”的重構,“新商業”也會不斷推動“新計算”的重構,這是必然發生的循環。
怎么理解算力?確切地說,怎么理解云時代的算力?算力可以比照電力,以往根據發電量大概能夠判斷出經濟形勢,算力未來也是一樣。
數字化就是一百年前的電氣化,算力就是一百年前的電力。發電量的背后是一臺一臺的發電機,算力的背后是無數的云數據中心,云計算匯聚算力的過程,類似發電廠形成的過程。
在電力應用的歷史上,有一個并不太“出名”的人物——塞繆爾·英薩爾(Samuel Insull),他是愛迪生的私人秘書,后來成為通用電氣的副總裁。當華爾街認為每個家庭都應該有一臺發電機,但發電機的價格就像私人游艇一樣的奢侈品,英薩爾卻用大型蒸汽渦輪機來生產廉價的電力,實現規模經濟以此克服市場成本,讓電力觸手可及。
發電廠解決了電力生產、匯聚和流通的問題,電力得以變成社會基礎設施。從歷史角度來看,作為奢侈品的電力,顯然沒有作為普及品的電力對社會經濟的影響深遠。
云計算時代,同樣要解決算力生產、匯聚和流通的問題,我們正處在量變到質變的關口。
云計算改變了什么?
上一階段的云計算主要體現在算力商業模式的變化,比如自建變成代建、租用、隨需隨用,這是在一種新商業關系支持下,計算能力的新型組織方式。
當云計算發展到一定規模之后,技術和商業邏輯也會隨之變化。或者說,云計算發展到一定程度,整個體系就要被重構。
比如這些年來設備供應商就發現,原先批發、托管、零售的模式在商業上被重構了。而云計算企業本身,也一樣需要思考在下一個技術體系或者商業體系下,自己的定位是什么,能力是什么。
“新計算”帶來“新商業”的重構,“新商業”也會不斷推動“新計算”的重構,這是必然發生的循環。
在看到技術創新帶來商業邏輯重構之后,阿里云需要思考,是簡單地靠規模優勢把歷史價值吃盡,還是尋求新的創新能力去創造新時代的更大價值?阿里云已經走在后者的路上。
例如自研CPU,以前如果商業平臺沒有規模,自研CPU是沒有價值的,而隨著商業平臺規模化,自研CPU的使用量占比越來越高,此時云廠商有能力定義下一代的CPU、下一代GPU,甚至下一代的計算體系。這是真正令人興奮的議題。
云計算是“規模+技術”的模型,必須對技術和規模都有足夠的追求。而從歷史上看,這樣的企業模型才更有競爭力,比如蘋果是“技術+規模”,亞馬遜也是。
我認為,中國云計算現在可能面臨一個最大的轉折點。云計算的門檻很高,全世界的頭部云計算廠商主要是海外廠商,中國還有希望,但這個希望是否可以實現,還是要客觀認識很多基礎問題。
比如,什么是云計算?云計算的商業模式跟技術體系的關系到底是什么?必須要“Back to Basic”,透徹地洞悉下一代的技術結構和商業模式。
什么將改變云計算?
阿里云要去理解下一代的計算,首先要清楚“計算”一詞的定義。“計算”看上去包羅萬象,我們可以把所有現在沒有看清楚、想清楚的東西,都放到里面。從我的角度,計算創新方向理解應該有三個層次:
第一,回到傳統意義的算力,云廠商集中給企業提供計算能力服務,比企業自營自建更高效、更有性價比,商業公司本身可以不關注復雜的計算能力構建,只要按需使用算力,有效解決自己的商業問題,把原來本質上的托管形式變成一種服務——這不只是商業模式的問題,同樣是技術問題。
第二,“算力”本身在變化,或者說“計算能力”所針對的目標、服務的場景變了。比如自動駕駛有大規模數據處理的需求,原來的計算架構并不是最高效的方式,需要新的思路和新的技術能力。
第三,一個客戶需要的算力,其中既有傳統的算力,也有創新的,如何組織最有效的“計算”來解決?客戶工作負載可能是無數個多種計算的總和,如果要實現很高的效率,就需要有適用的算力,把所有工作負載全部編排拆解,其成本非常高。
對此阿里云已經有一些實踐。譬如CIPU的誕生,是云服務商對算力需求給予回應,能夠將虛擬化損耗降到0。其實,阿里云的神龍架構和AWS的Nitro比DPU這一概念出現還要早,春江水暖鴨先知,這就是云服務商應對算力需求變化作出的改變。
更進一步,2022年6月,阿里云宣布推出CIPU(Cloud Infrastructure Processing Units,云基礎設施處理器),這是為新型云數據中心設計的專用處理器,將替代CPU成為云時代IDC的處理核心,它可對計算資源進行云化加速,并可通過部署飛天云計算操作系統對算力資源進行管控。
阿里云彈性計算產品線負責人旭卿所負責的相關研發團隊,是CIPU的基礎,在2015年就開始技術攻關,經過多年自研迭代,神龍、彈性RDMA網絡等核心技術不斷深入垂直整合,演進出以CIPU為中心的全新架構形態。
在這個全新體系架構下,CIPU向下對數據中心的計算、存儲、網絡資源快速云化,并進行硬件加速,向上接入飛天云計算操作系統,將全球數百萬臺服務器連成一臺超級計算機。而CIPU又將改變傳統數據中心的形態,完成一次由內而外的體系變化。
再如智算中心,融合了多種算力,阿里云正式推出全棧智能計算解決方案“飛天智算平臺”,并啟動張北和烏蘭察布兩座超大規模智算中心。其中張北超級智算中心總建設規模為12 EFLOPS(每秒1200億億次浮點運算)AI算力,將超過谷歌的9 EFLOPS和特斯拉的1.8 EFLOPS。
一個工作負載輸送到智算中心,在飛天智算平臺的分解下,CPU、GPU、XPU各行其職,并不是云服務商的算力硬件一定比其他服務商好很多,而是對工作負載的理解和構建新型算力的方式不同。
不同人對云計算有不同的理解,例如,有人來買云計算,考慮買了一百個核、買了多少存儲,然后比較一下是貴了還是便宜了,這還是資源型的購買。客戶真正需要的其實是一個能解決問題的服務,并不是那些數字。
Serverless(無服務器)是很重要的發展趨勢,將理順大家對云計算的認知,云計算不是“云+計算器”,也不是“云+計算機”,而是以云的方式組織符合時代需求的算力,交付的是能力,這是一個全新的邏輯。
而要做到這一點,云計算企業就必須在技術上不斷創新、進步,要站在時代前面定義問題。
舉例來看,AI越來越多地在商業世界中扮演重要角色,要使其發揮更大的作用,應該有新的計算能力。
中國的人工智能應用過去比較集中在視覺領域,我認為會繼續發揚光大,特別是以自動駕駛為代表的領域。但自動駕駛也需要決策,三到五年之內或許有基礎性的突破,云服務商需要提供新型算力,自動駕駛的算力數據量巨大、模型巨大,需要有新型的計算體系支撐。
其他領域也要用大數據做模型預測,也叫決策智能。數據量超大,意味著要有新型的網絡結構,加上強算力和優化模型,現在很多模型參數已經上百萬億,云計算必須解決這些問題。
算力的未來是想象力
技術型的公司,對技術做戰略性判斷一定是頭等大事,這考驗著我們一個很樸素的能力——“定義問題的能力”。中國企業似乎最缺乏定義問題的能力,在很長一段時間,都是別人提供定義,我們負責跟隨。
定義問題的能力并不簡單。比如電力是直流電還是交流電,是走高端路線還是平民路線,計算機發展早期也有人說,“世界只需要五臺計算機”,后來PC時代到來,其言論不攻自破,然而隨著云計算時代漸進,定義問題的前提又發生了變化。
其實現在的云計算也面臨著同樣的問題。算力下一步演進投入會更大,會朝著軟硬件結合的方向,硬件需要三五年的周期,一個芯片往往要多次流片,必須要定義好真正值得解決的問題。
大企業戰略的核心,就是要防止“把問題定義錯了”的風險,而在正確的問題上,做一些“有質量的浪費”都是值得的。
所以,阿里云現在開始重新定義問題,再一次用技術創新解決真實的問題,云計算的技術門檻跟規模門檻都非常高,我們要敢于再次走進無人區,這不只是勇氣,而是不得不做的正確的事,規模越大,技術創新得到的回報也越大。云計算要么巨虧,要么有非常好的經濟效益,沒有中間路線。
算力的未來是想象力。正如一百年前,沒有人想象得到電視、電冰箱、電腦,如今人們無法想象一個算力的未來,算力的極大豐富將帶來我們想象得到的以及我們還想象不到的產品技術和生活工作方式——一切始于我們將如何定義算力。
文/張建鋒 阿里云智能總裁、阿里巴巴達摩院院長