【ITBEAR科技資訊】5月11日消息,日本多家產學研機構組成的聯(lián)合研究團隊近日發(fā)布了一款名為 Fugaku-LLM 的大型語言模型。該模型獨具特色,因為它是在全球最快的Arm架構超級計算機“富岳”上進行訓練的,充分展現(xiàn)了日本在科技領域的創(chuàng)新實力。
據(jù)悉,F(xiàn)ugaku-LLM模型的開發(fā)工作于2023年5月正式啟動,由富士通、東京工業(yè)大學、日本東北大學和日本理化學研究所等核心機構共同負責。而在研發(fā)過程中,名古屋大學、CyberAgent公司及HPC-AI領域的創(chuàng)新企業(yè)Kotoba Technologies也于2023年8月加入了這一宏偉計劃。
研究團隊在新聞稿中自豪地表示,他們成功挖掘了富岳超級計算機的巨大潛能。通過優(yōu)化算法和提升計算效率,團隊將矩陣乘法的計算速度提高了6倍,通信速度也實現(xiàn)了3倍的提升。這一重要突破證明了大型純CPU超級計算機在訓練大型語言模型方面的可行性。
Fugaku-LLM模型擁有龐大的參數(shù)規(guī)模,達到了130億,成為日本國內最大的大型語言模型。為了構建這一模型,研究團隊動用了富岳超算的13824個計算節(jié)點,在龐大的3800億個Token上進行了深入訓練。訓練資料中有60%是日語內容,其余40%則涵蓋了英語、數(shù)學、代碼等多個領域。
該模型在日語表達方面尤為出色,研究團隊宣稱Fugaku-LLM能夠在交流中自然運用日語敬語等特殊表達方式,這在國際范圍內都是罕見的。在日語MT-Bench模型基準測試中,F(xiàn)ugaku-LLM的平均得分高達5.5,位居基于日本語料資源的開放模型之首。在人文社科類別中,它更是斬獲了9.18的優(yōu)異成績。
目前,這款杰出的Fugaku-LLM模型已經在GitHub和Hugging Face平臺上公開發(fā)布。外部研究人員和工程師在遵守相關許可協(xié)議的前提下,可將該模型廣泛應用于學術研究和商業(yè)領域。