【開源鏈接】
https://github.com/thu-pacman/chitu
14日,清華大學(xué)高性能計(jì)算研究所翟季冬教授團(tuán)隊(duì)與清華系科創(chuàng)企業(yè)清程極智聯(lián)合宣布,開源大模型推理引擎“赤兔Chitu”,該引擎首次實(shí)現(xiàn)在非英偉達(dá)Hopper架構(gòu)GPU及各類國產(chǎn)芯片上原生運(yùn)行FP8精度模型,為國產(chǎn)AI芯片的廣泛應(yīng)用和生態(tài)建設(shè)帶來了新的突破。
打破“硬件綁定”困境,F(xiàn)P8模型部署不再受限
DeepSeek的發(fā)展推動(dòng)了 FP8 精度模型成為行業(yè)主流,隨著DeepSeek的持續(xù)火熱, 企業(yè)大模型私有化部署的需求也呈現(xiàn)井噴態(tài)勢。
然而,當(dāng)前全球領(lǐng)先的FP8模型長期依賴英偉達(dá)H系列高端GPU,這使得國內(nèi)企業(yè)在部署大模型時(shí)受限于AI芯片的限制。一方面,英偉達(dá)H系列芯片的進(jìn)口受限,導(dǎo)致國內(nèi)企業(yè)難以獲取高性能硬件支持;另一方面,大多數(shù)國產(chǎn)芯片因不支持FP8數(shù)據(jù)類型,無法充分發(fā)揮新一代AI模型的性能,企業(yè)部署成本高昂。
為打破這一困境,清華大學(xué)與清程極智聯(lián)合開源的“赤兔”推理引擎應(yīng)運(yùn)而生。該引擎通過底層技術(shù)革新,首次實(shí)現(xiàn)了非H卡設(shè)備(包括英偉達(dá)Hopper架構(gòu)之前的GPU卡及各類國產(chǎn)卡)對原生FP8模型的高效部署,擺脫對特定硬件的依賴,極大地降低了企業(yè)部署AI模型的門檻和成本。
清華大學(xué)翟季冬教授強(qiáng)調(diào),赤兔凝結(jié)了團(tuán)隊(duì)多年并行計(jì)算與編譯優(yōu)化技術(shù)積累,目標(biāo)是“彌合先進(jìn)模型與多樣化硬件之間的差距,讓國產(chǎn)算力真正‘跑起來’,為中國大模型產(chǎn)業(yè)落地提供關(guān)鍵支撐”。清程極智CEO湯雄超表示:“赤兔的定位是成為連接多元算力與大模型應(yīng)用的橋梁。我們不僅支持英偉達(dá)全系列GPU,還針對國產(chǎn)芯片深度優(yōu)化,未來將陸續(xù)開源適配版本?!?p>
性能實(shí)測:GPU減半 速度還提3倍
“赤兔”引擎在性能優(yōu)化和架構(gòu)適應(yīng)性方面展現(xiàn)了顯著優(yōu)勢。
在首期開源版本中,赤兔引擎部署DeepSeek-R1-671B滿血版時(shí),在A800集群的測試中,相比部分國外開源框架,GPU使用量減少50%的情況下推理速度仍有3.15倍提速。這意味著企業(yè)可以用更少的硬件資源獲得更高的推理性能,極大降低了部署門檻和運(yùn)營成本。
在幫助企業(yè)降本增效的同時(shí),赤兔引擎的技術(shù)可實(shí)現(xiàn)模型效果不受損。這一成果源于團(tuán)隊(duì)對GeMM、MoE等核心算子的指令級優(yōu)化,直接處理FP8數(shù)據(jù)而非簡單量化,確保模型精度無損。
目前,赤兔引擎目標(biāo)建立覆蓋從純CPU到大規(guī)模集群的全場景大模型部署需求,適配英偉達(dá)多款GPU及多款國產(chǎn)芯片。同時(shí)面對市場上不同的大模型算力優(yōu)化需求,赤兔支持低延遲、高吞吐、小顯存三方面優(yōu)化,用最低成本實(shí)現(xiàn)最高性能?!被谶@樣的設(shè)計(jì)理念,集成赤兔引擎的大模型部署服務(wù)客戶覆蓋面非常廣泛。
直面大模型部署成本痛點(diǎn),推動(dòng)AI普及
今年以來,隨著DeepSeek—R1、QwQ 等優(yōu)秀的國產(chǎn)開源大模型的不斷涌現(xiàn),大模型私有化部署的需求越來越旺盛,但大模型部署和運(yùn)營成本居高不下,因此顯著降低推理成本對推廣 AI 應(yīng)用至關(guān)重要。為此,赤兔引擎從底層設(shè)計(jì)上便將“算力效率”作為首要優(yōu)化目標(biāo),力求以更低資源消耗實(shí)現(xiàn)更高性能輸出。
本次開源的版本特別聚焦于當(dāng)前市場最迫切的需求——將DeepSeek-R1 FP8精度模型無損且高效地部署在存量英偉達(dá)GPU上。團(tuán)隊(duì)表示,針對多款國產(chǎn)芯片特別優(yōu)化的版本也將陸續(xù)開源。這一突破不僅為企業(yè)提供了更高效、更靈活的AI部署解決方案,降低了大模型落地門檻,也為國產(chǎn)AI算力的發(fā)展帶來了新的契機(jī)。
此外,清程極智推出基于赤兔的“推理一體機(jī)”,提供開箱即用部署方案及專業(yè)運(yùn)維服務(wù),進(jìn)一步簡化企業(yè)AI落地流程。
開源共建:為國產(chǎn)芯片“搶時(shí)間”
清程極智CEO湯雄超表示:當(dāng)前國內(nèi)在推理引擎這一核心環(huán)節(jié),仍缺乏生產(chǎn)級開源產(chǎn)品。開源“赤兔”引擎是助力國內(nèi)AI生態(tài)建設(shè)的重要一步。
為加速生態(tài)建設(shè),赤兔團(tuán)隊(duì)與多家國產(chǎn)芯片廠商展開合作,開放代碼貢獻(xiàn)通道,縮短硬件適配周期?!伴_源不僅是技術(shù)共享,更是為國產(chǎn)芯片‘搶時(shí)間’,當(dāng)新模型或數(shù)據(jù)類型出現(xiàn)時(shí),赤兔能助力國產(chǎn)芯片跟上國際節(jié)奏,縮小與國際先進(jìn)芯片之間的‘時(shí)間差’?!睖鄢硎尽?p>
隨著“赤兔”引擎的開源,“國產(chǎn)大模型+國產(chǎn)引擎+國產(chǎn)芯片”技術(shù)閉環(huán)正在加速成型,中國大模型產(chǎn)業(yè)從技術(shù)到生態(tài)的全面突破,已按下加速鍵。“無論用什么卡,赤兔都會是高性價(jià)比的選擇?!背嗤脠F(tuán)隊(duì)的這句話折射出國產(chǎn)AI基礎(chǔ)設(shè)施從追趕邁向引領(lǐng)的決心。
上一篇: 英飛凌在Embedded World 2025上展示支持高品質(zhì)設(shè)計(jì)的創(chuàng)新MCU解決方案
下一篇:歐盟 CRA 落地,開源軟件何去何從?
- 使用 MaxLinear, Inc 的 SPX385AN-1.2/TR 的參考設(shè)計(jì)
- LTC4089,通用鋰離子電池充電器可在僅 2cm2 的面積內(nèi)從 USB 和 6V 至 36V 輸入供電
- LTC3425 的典型應(yīng)用 - 5A、8MHz、4 相同步升壓型 DC/DC 轉(zhuǎn)換器
- LT1934ES6 3.3V降壓轉(zhuǎn)換器典型應(yīng)用電路
- 使用 Analog Devices 的 LT1764AEFE-1.5 的參考設(shè)計(jì)
- EVAL-ADUC7039QSPZ,用于汽車系統(tǒng)的 ADUC7039 集成精密電池傳感器的評估板
- ADP1612-BL1-EVZ,用于 ADP1612 升壓轉(zhuǎn)換器的空白評估板
- DI-132 - 1.75W高效率線性充電器替代品
- 使用 MaxLinear, Inc 的 XRP7618IGB-F 的參考設(shè)計(jì)
- 基于STM32的貪吃蛇游戲設(shè)計(jì)(程序、PCB)
- 動(dòng)力電池“三國殺”:中企提前鎖定勝局,日韓廠商集體失守
- 研究人員開發(fā)出人工智能雷達(dá)技術(shù) 可用于高分辨率3D城市制圖
- 上半年動(dòng)力電池TOP15:寧德時(shí)代和比亞迪裝車近200GWh 兩家公司新上榜
- 半年砸下數(shù)千億元!“并購”浪潮下,汽車芯片大戰(zhàn)再起風(fēng)云
- 奇瑞人形機(jī)器人9月開售并將面向個(gè)人用戶,機(jī)器人時(shí)代該來了嗎?
- 華為李文廣:華為智能駕駛規(guī)劃曝光,加速追趕特斯拉
- 功能迭代和功能安全的矛盾及車端應(yīng)用層-下
- 功能迭代和功能安全的矛盾及車端應(yīng)用層-中
- 功能迭代和功能安全的矛盾及車端應(yīng)用層-上
- 車云一體其他層面的架構(gòu)設(shè)計(jì)借鑒-下
- 三菱電機(jī)表示協(xié)作機(jī)器人MELFA與工業(yè)自主機(jī)器人媲美
- 機(jī)器視覺可讓工業(yè)機(jī)器人成為協(xié)作機(jī)器人
- 服務(wù)機(jī)器人的機(jī)遇與挑戰(zhàn)
- 掃地機(jī)器人集合介紹
- 工業(yè)機(jī)器人的控制方式解析
- STM32f10x.h中出現(xiàn)“#ifdef __cplusplus extern "C" { #endif”的定義
- STM32數(shù)據(jù)類型定義
- stm32 數(shù)據(jù)類型的定義(常用的U8,U16,U32到底代表什么)
- STM32系統(tǒng)頭文件之?dāng)?shù)據(jù)類型定義u8 u16哪里來的
- STM8S105S4_PKT學(xué)習(xí)筆記(1) LED燈
- 針對TMS320C54x DSP的DSP_BIOS II 使用指南
- 也許是你自己----學(xué)霸哪些事兒,,,,
- 通過NFS方式,開發(fā)板共享主機(jī)Redhat一個(gè)目錄下的內(nèi)容,ls出現(xiàn)問題
- USB Type-C™和 USB 功率傳輸電源路徑設(shè)計(jì)注意
- 預(yù)言有禮:5G來了會對你所在的領(lǐng)域或行業(yè)有哪些影響?【已抽獎(jiǎng)】
- CAN控制器模塊
- 經(jīng)典的C51學(xué)習(xí)教程
- xds510仿真器轉(zhuǎn)讓
- 北京街頭外國小伙扶摔倒中年女子遭訛詐 報(bào)道續(xù)
- 持幣120求購stm32f429 discovery[結(jié)貼已收]