6月13日,在德國漢堡舉行的國際超級計算大會2025公布了新一期系統(tǒng)數(shù)據(jù)吞吐能力IO500排行榜,鵬城實驗室的人工智能大科學(xué)裝置——「鵬城雲(yún)腦Ⅱ」連續(xù)第十次斬獲總冠軍。
消除AI大模型訓(xùn)練過程中的文件讀寫瓶頸
據(jù)了解,「鵬城雲(yún)腦Ⅱ」自2020年10月上線運行以來,採用對國產(chǎn)自主軟硬件高度優(yōu)化的SuperFS新一代大規(guī)模分布式文件系統(tǒng),針對海量訓(xùn)練數(shù)據(jù)訪問帶寬瓶頸,提出了分布式高性能存儲緩存架構(gòu),利用計算節(jié)點內(nèi)高帶寬閃存與高性能網(wǎng)絡(luò),以及去中心化設(shè)計,實現(xiàn)了數(shù)據(jù)全分散存儲並提供全局視圖,通過直通式數(shù)據(jù)傳輸?shù)燃夹g(shù)極大提升了數(shù)據(jù)存取性能。針對文件數(shù)據(jù)訪問延遲高的問題,提出了內(nèi)核旁路技術(shù),結(jié)合RDMA網(wǎng)絡(luò)降低延遲,利用協(xié)程機制設(shè)計高並發(fā)任務(wù)調(diào)度,並行文件系統(tǒng)的訪問帶寬達4.8TB/s,消除了AI大模型訓(xùn)練過程中的文件讀寫瓶頸。
公開資料顯示,超算存儲500強(IO500)是高性能計算領(lǐng)域針對存儲性能評測的國際權(quán)威排行榜。IO500測試包括數(shù)據(jù)帶寬BW(GiB/S)和元數(shù)據(jù)性能MD(KIOP/S)兩大部分,各項分?jǐn)?shù)取幾何平均後得到總分。自2017年11月開始,每年IO500榜單會在美國SC大會和德國ISC大會上發(fā)布。
早在2020年舉行的美國超算大會(SC20)和中國超算大會期間,首次亮相的「鵬城雲(yún)腦Ⅱ」便一舉奪得IO500總排行榜、10節(jié)點排行榜兩項冠軍以及AIPerf500的世界冠軍。此後,鵬城實驗室與各合作單位通過不斷創(chuàng)新和改進自主研發(fā)的操作系統(tǒng),成功將其綜合性能提升了數(shù)倍。
伴隨以「鵬城雲(yún)腦Ⅱ」為代表的新基建推進,高性能算力基礎(chǔ)設(shè)施的服務(wù)半徑亦不斷延伸。
在斬獲IO500全球排行十連冠的同一天,第四屆粵港澳大灣區(qū)(廣東)算力產(chǎn)業(yè)大會暨第三屆中國算力網(wǎng)大會也在廣東韶關(guān)舉行,會上成立了由鵬城實驗室發(fā)起並聯(lián)合海內(nèi)外多家單位共同創(chuàng)建的學(xué)術(shù)組織——AI Edge聯(lián)盟,吸引了70多家來自海內(nèi)外的高校、科研機構(gòu)、企業(yè)、開源社區(qū)加入。
以網(wǎng)強算 以邊助雲(yún)
據(jù)悉,AI Edge是一種面向智能應(yīng)用、基於開放性可編程統(tǒng)一算力架構(gòu)的綜合移動信息服務(wù)基礎(chǔ)設(shè)施,兼具邊緣計算AI服務(wù)、網(wǎng)絡(luò)智能優(yōu)化與控制、通信傳輸與信息處理等三種功能。AI Edge聯(lián)盟的核心理念在於充分挖掘移動通信網(wǎng)絡(luò)的潛力,通過「以網(wǎng)強算,以邊助雲(yún)」,構(gòu)建算力網(wǎng)不可或缺的脈絡(luò)延伸。
記者6月15日從鵬城實驗室獲悉,目前「鵬城雲(yún)腦Ⅱ」已在科研創(chuàng)新方面發(fā)揮了積極作用。其中在大模型研究中,其強大的數(shù)據(jù)處理能力為模型訓(xùn)練提供了高效的數(shù)據(jù)支持;在天氣預(yù)測領(lǐng)域,能夠快速處理海量氣象數(shù)據(jù),顯著提高預(yù)測的準(zhǔn)確性和時效性;在分子動力學(xué)、藥物研發(fā)、基因分析等生命科學(xué)領(lǐng)域,也為相關(guān)研究提供了有力的數(shù)據(jù)處理保障。
頂圖圖說:位於深圳南山區(qū)的人工智能大科學(xué)裝置「鵬城雲(yún)腦」。(深圳商報)