應用

技術

物聯網世界 >> 物聯網新聞 >> 物聯網熱點新聞
企業(yè)注冊個人注冊登錄

國產工業(yè)軟件背后的算力“戰(zhàn)爭”

2022-12-12 14:11 物聯網智庫
關鍵詞:算法算力

導讀:在傳統(tǒng)工業(yè)領域,大量的研發(fā)制造經驗通常存在資深人員的腦袋里,通過“老師傅帶徒弟”的方式來進行傳承。而工業(yè)軟件的價值,則體現在把這些珍貴的經驗轉變成數據和算法,然后固化在軟件中。

在傳統(tǒng)工業(yè)領域,大量的研發(fā)制造經驗通常存在資深人員的腦袋里,通過“老師傅帶徒弟”的方式來進行傳承。而工業(yè)軟件的價值,則體現在把這些珍貴的經驗轉變成數據和算法,然后固化在軟件中。

曾經,工業(yè)軟件是如同“掃地僧”般的存在。一方面,“他”非常低調,普羅大眾幾乎不會對其給予特別的關注;另一方面,“他”實力強大,以人類基礎學科和工程知識集大成者的身份撐起了整個工業(yè)體系。

然而,近年來接連不斷的國際制裁,卻讓國產工業(yè)軟件暴露于聚光燈下,站上了風口浪尖。CAD、CAE和EDA是工業(yè)軟件賽道中最難翻越的三座大山,當前,國產產品在其中的表現可謂不容樂觀。

數據最能說明現狀的嚴峻性:EDA軟件是芯片研發(fā)過程中不可或缺的關鍵設計工具,被業(yè)內稱為“芯片之母”,而美國Synopsys、美國Cadence和德國Siemens EDA三巨頭卻占據了國內將近90%的市場,相比之下國產EDA廠商的份額只有可憐的11.5%。

研發(fā)設計類軟件CAD的情況甚至更加糟糕,綜合多家研究機構的數據——法國達索、德國西門子、美國PTC以及美國Autodesk在我國市場占有率高達90%以上,國內數碼大方、中望軟件、山大華天等只占不到10%的市場。和CAD關系緊密的仿真CAE軟件幾乎面臨著相同的局面,全球CAE市場基本被德國西門子、美國Ansys和法國達索前三大供應商所主導,中國CAE市場國產化率不足5%。

當工業(yè)軟件化身別國手中的制裁大棒時,國產工業(yè)軟件亟需打響一場“突圍戰(zhàn)”。在突圍的背后,除了扎實的基礎學科知識積累、市場用戶的驗證、軟件本身產品力比拼外,還有不可忽視的隱藏致勝要素——算力。

CAE和HPC是一對“天作之合”

任何一件工業(yè)產品在推向市場之前都必須經過反復驗證,在工程領域,工程師的產品試驗如同是“戴著鐐銬跳舞”。一副“鐐銬”是物理試驗條件,為了滿足很多工業(yè)產品嚴苛的工況,相關生產樣件往往需要環(huán)境配合進行高低溫試驗,比如等到冬天才能前往漠河開始試驗,準備時間長、約束條件多;還有一些試驗,諸如發(fā)動機燃燒室內的汽油噴射和燃燒,物理試驗條件根本無法模擬。另一副“鐐銬”是成本,為了驗證新車的安全性,碰撞測試必不可少,但不可能測試一次就付出報廢一輛車的代價。

仿真軟件CAE通過將物理試驗搬到虛擬世界中,讓這些問題迎刃而解,變相地帶來了品質的提升。尤其是在產品快速迭代的當下,CAE的價值得到進一步的凸顯。

回想一下,大學時我們求解高階多變量的方程式就已經很困難了,而想要用CAE模擬更多、更復雜的物理過程,想要在虛擬世界里研究飛機的飛行,汽車的碰撞,想要擴展到多物理場乃至實現“數字孿生”,其計算量可想而知。以“制造皇冠上的明珠”——航天發(fā)動機為例,其研發(fā)過程涉及動力學、傳熱學、材料力學、理論力學、流體力學、斷裂力學、彈性力學、機械動力學等諸多學科,是牛頓力學時代所有力學的集大成,是所有科技成果的結晶。為了保障產品質量,工程師需要驗證各個部件在高溫、高壓、高轉速復雜環(huán)境下的工況,搞清楚部件相互之間如何影響,還同時要滿足高性能、長壽命、高可靠、輕重量、安全性、經濟性和日益苛刻的環(huán)保性等多維約束條件。如果每一個要素都要求解N個方程,CAE背后需要的計算量簡直難以想象,強大的超算幾乎是必不可少的武器。

說到計算,不知道大家是否記得當年“兩彈元勛”鄧稼先先生研制第一顆原子彈的故事。1959年,蘇聯停止對華技術援助,撤回所有專家。離開前,有三位蘇聯核專家在課堂上留下了一個關于內爆過程中產生壓力的技術指標。但是,在研究人員歷經二十天的計算之后,這個參數出現了偏差,計算工作因此陷入僵局。為了獲得準確的結果,鄧稼先帶領研究人員用手搖計算機、計算尺乃至算盤反復計算,最后從理論上證明蘇聯數據是有問題的。正確的參數給原子彈理論設計奠定了堅實基礎,1964年10月16日,我國第一顆原子彈爆炸成功。

image.png

國家博物館館藏 鄧稼先領導研制中國第一顆原子彈時使用的手搖計算機

如今,鄧稼先用過的那臺手搖計算機正安靜躺在中國國家博物館的展臺上,時代變遷,站在前人栽種的大樹下,現代科學家和工程師們擁有了無與倫比的計算資源和條件,HPC(高性能計算)帶來的算力資源為CAE等工業(yè)軟件提供了源源不斷的算力,讓CAE求解不僅能夠算得快,海量算力讓更高精度的計算可以在可接受的時間內完成,也讓CAE算得更準。

由于各種專業(yè)的仿真軟件都需要運行在大量的算力資源上才能完成,CAE天生的求解計算從誕生之初就和HPC緊密結合。

CAE仿真過程的算力之痛

應用CAE軟件對工程或產品進行性能分析和模擬時,一般要經歷三道流程:前處理-求解-后處理。這個過程中,算力本應該是支撐其計算的加速器,但如果算力資源的使用、分配和調度存在問題,那么反而可能成為限制研發(fā)效率的桎梏。

在汽車行業(yè),近年來車廠的概念車層出不窮,一款款新車的成功上市,意味著背后的高效研發(fā)。而汽車本身又是一種極其復雜的產品,研發(fā)過程需要安全碰撞仿真、NVH噪聲仿真、CFD仿真等……當前汽車CAE分析項種類最高多達600余種。

image.png

大多數汽車制造企業(yè)的CAE部門通常采用工作站模式進行單機計算,這個過程存在很多問題和挑戰(zhàn):

首先,汽車CAE仿真業(yè)務流程因文件拷貝存在“斷點”,工程師用個人工作站進行前后處理,計算前要上傳文件到HPC,計算后要下載結果到個人工作站,加之往往研發(fā)中心和數據中心分隔兩地通過內網互聯,帶寬有限,工程師上傳和下載數據的等待時間并不增值,是妥妥的浪費;第二,對整車級別大型CAE模型、高精度渲染等場景,個人工作站有時性能不足,共享高性能工作站既不方便,也難以維護,還帶來數據無意泄露的風險;第三,車企在建設計算集群時,硬件選型過程中,因為沒有建立專門的實驗室、也不具備采購各類設備進行benchmark的能力,可用來測試的硬件設備非常有限,不同軟件的計算模型不同,對計算資源的性能要求也不一樣,如何從可獲得的各類硬件中選擇出最適合目標應用、最佳性價比的算力組合,一直是一個挑戰(zhàn);最后,項目研發(fā)過程中資源需求必然存在波峰波谷,單項目周期超過60%的時間資源不足,資源按部門分配,共享難度大,作業(yè)等待時間長,而車型數據凍結后,CAE需求銳減,資源閑置,企業(yè)也希望能進一步平抑波動提高對算力資源的利用率,從而降低HPC的擁有成本。

image.png

某中國高端品牌車型的代表性企業(yè)之一,就在高速發(fā)展過程中遭遇了這些挑戰(zhàn)。由于組織結構和管理體系的問題,其線下HPC資源均是購買2~3年以上的V3和V4主機,設備性能不滿足業(yè)務增長要求;PamCrash碰撞計算需要用時超過30小時以上,研發(fā)部門工作效率很低。面對市場的壓力和激烈的競爭,該企業(yè)也在積極求變,并選擇華為HPC來幫助其消除這些煩惱。

具體而言,該企業(yè)采用國產高性能服務器,通過100G IB網絡連接。HPC資源建設在華為云廣州資源池上,從佛山分廠通過專線接入,高速訪問HPC物理機集群, 同時通過華為公有云平臺組件提供網絡安全防護服務。在公有云中批量部署彈性云服務器,作為調度任務的計算節(jié)點,計算任務從云下調度到云上執(zhí)行,計算結果自動回傳到線下的NFS服務器。在這套完整解決方案的助力下,該企業(yè)取得的受益也非常顯著:其研發(fā)碰撞測試時間由原來線下30小時提高到線上18小時完成,效率提升40%。

從中我們可以看出,華為HPC方案的本質是將其30余年積累的ICT技術和數字化實踐,以云的方式開放分享給企業(yè)客戶,為企業(yè)構建穩(wěn)定可靠、安全可信、可持續(xù)發(fā)展的新一代ICT基礎設施,這帶給客戶的優(yōu)勢顯而易見。

客戶可以基于極致性能的產品獲得業(yè)務增長所需的算力。例如,華為TaiShan 200 Pro2480高性能服務器基于鯤鵬920處理器,最高能夠提供256核、3.0GHz主頻的計算能力和最多25個SSD硬盤,適合為企業(yè)關鍵業(yè)務提供澎湃的高可靠算力。而這些算力如同從水龍頭里取水一樣方便——既免去了高昂的建設、管理成本,又能避免算力資源在項目的各個階段以及各部門之間分配不合理的情況,讓算力資源充分適配不同業(yè)務場景對高性能計算的需求。從長期來看,這將幫助企業(yè)帶來效率的增長和OPEX的降低。

CAE“算力”國產化敲響警鐘

正因為算力如此重要,所以限制算力也能成為扼制的手段。

數據顯示,2021年所有國內服務器操作系統(tǒng)裝機量中,Linux市場占有率達到79.1%,CentOS是Linux生態(tài)下的優(yōu)秀開發(fā)版本之一。據媒體報道,2021年12月31日,CentOS Linux 8 停止維護,CentOS Linux 7于2020年第四季度停止更新,并將于2024年6月30日停止維護,這意味著使用廣泛的CentOS服務器系統(tǒng)即將停服。CentOS作為免費的、開源的、可以重新分發(fā)的開源操作系統(tǒng),在國內服務器操作系統(tǒng)的占有率非常高,涉及到各個行業(yè)。對于用戶來講,CentOS停服后將無法得到官方的系統(tǒng)升級和補丁安裝支持,一旦發(fā)現新的安全漏洞并被黑客利用,將帶來宕機、服務中斷、數據泄露等風險,網絡信息安全風險陡增。

不只是軟件和操作系統(tǒng),硬件方面的烏云也久久不散。2020年4月,英偉達官方宣布正式完成對Mellanox 70億美元的收購。Mellanox是一家以色列芯片廠商,數十年來一直在InfiniBand和以太網互聯產品的研發(fā)領域深耕。2010年底,Mellanox曾收購著名Infiniband交換機廠商Voltaire,這一收購成就了其在高性能計算、云計算、數據中心、企業(yè)計算、存儲市場上的全面業(yè)務能力。眾所周知,今年9月,英偉達和AMD將對中國進行高算力GPU斷供的消息刷屏各大科技媒體,雖然初期斷供范圍只是高端芯片,未來涉及的范圍難以預估。

市場上主流的CAE軟件中,歐美商業(yè)軟件居多,這些軟件都已適配x86硬件架構,但是對于新崛起的ARM架構來說,至少還需要重新編譯才能使用。然而,編譯和性能優(yōu)化是需要源代碼的,讓這些歐美軟件開放源碼,似乎是不可能的事情。

這些事件為工業(yè)軟件“算力”國產化敲響警鐘,未來工業(yè)軟件之戰(zhàn)的背后還有暗潮洶涌的算力戰(zhàn)爭。從這個角度來說,產業(yè)呼喚國產自主的HPC產品。而華為HPC基于華為自主研制的算、存、管、網、智5類芯片,具備硬件層的自主可控能力;支持國內唯一自主演進的openEuler操作系統(tǒng),從系統(tǒng)層面支持自主可控,免去卡脖子風險。垂直的全棧技術能力,才是算力和軟件持續(xù)演進的堅實保障。

基于全棧的優(yōu)勢,華為100G AI Fabiric RoCE交換機針對高性能并行計算場景下常用的MPI協議進行適配,通過在網計算、AI動態(tài)水線等黑科技,將IP網絡做到和IB網絡差不多的性能,微秒級時延,滿負載下0丟包,成為平替Infiniband的選擇。其自研的多瑙調度系統(tǒng)也憑借0信任和支持多集群混合調度等特性贏得客戶青睞,從國外IBM Spectrum LSF以及Altair PBS Pro的包圍中贏得了屬于自己的份額,成為國產調度系統(tǒng)的新秀。

寫在最后

《外交評論》雜志的一文中提及:當前,國家間地緣經濟競爭模式隨著生產方式的變革而變化,數據、硬件與算法已成為數字時代最核心的生產資源,構成了國家的數字資源。

數字化的底層競爭是計算,計算的最終形態(tài)是智能。不僅限于前文提及的工業(yè)軟件,泛在計算都可以用HPC提供算力——諸如圖形渲染、AI訓練、大數據計算等場景,只要能用“命令行”啟動的任務,都可以跑在調度系統(tǒng)上面,分時復用集群計算資源。

未來在數字經濟時代占據高地,國人必須從底層構建自己的計算平臺,因為中國的鋼鐵長城決不能建立在它國的沙子堆之上。自主創(chuàng)新是一條漫長但必須堅持的路,前路依然任重道遠,依然荊棘叢叢,但我們已經啟程。