你好,歡迎來到川北在線
微信
騰訊微博
新浪微博
MiniMax攻克關鍵技術開源新架構,傳統(tǒng)Transformer架構不再是唯一選擇
時間:2025-01-16 19:25   來源:科技網   責任編輯:毛青青
  MiniMax攻克關鍵技術開源新架構,傳統(tǒng)Transformer架構不再是 選擇
 
  日月開新元,萬象啟新篇。
 
  1月15日,MiniMax發(fā)布并開源新一代01系列模型,包含基礎語言大模型 MiniMax-Text-01 和視覺多模態(tài)大模型MiniMax-VL-01。該系列模型使用多項突破性創(chuàng)新,以大規(guī)模應用線性注意力機制打破Transformer傳統(tǒng)架構記憶瓶頸,在綜合性能比肩GPT-4o、Claude-3.5等海外領軍模型的基礎上,能夠高效處理高達400萬token的輸入,可輸入長度是GPT-4o的32倍,Claude-3.5-Sonnet的20倍。
 
  目前,MiniMax-01系列開源模型已應用于MiniMax旗下產品海螺AI并在全球上線,企業(yè)與個人開發(fā)者可前往MiniMax開放平臺使用API。
 
  以架構創(chuàng)新實現(xiàn)高效超長文本輸入
 
  2017年,具有里程碑意義的論文《Attention Is All You Need》正式發(fā)表,Transformer架構問世并逐步發(fā)展成為該領域的主流技術范式。自2023年起,自然語言處理領域迎來了一股創(chuàng)新浪潮,對模型架構的創(chuàng)新需求日益增加。
 
  MiniMax-01系列模型首次將線性注意力機制擴展到商用模型的級別,并使其綜合能力達到全球第一梯隊。而受益于此次架構創(chuàng)新,該系列模型在處理長輸入的時候具有非常高的效率,接近線性復雜度。從Scaling Law、與MoE的結合、結構設計、訓練優(yōu)化和推理優(yōu)化等層面綜合考慮,MiniMax選擇模型參數(shù)量為4560億,其中每次激活459億,能夠高效處理高達400萬token的上下文,將有效替代Transformer傳統(tǒng)架構并開啟超長文本輸入時代。

 

    MiniMax-01模型發(fā)布后,在國內外迅速掀起了熱議浪潮。海外媒體與AI從業(yè)者聚焦該模型,深入探討其技術內涵與潛在價值,對其所展現(xiàn)出的創(chuàng)新性給予了高度肯定。

 

 

  性能比肩國際領軍模型
 
  在應用創(chuàng)新架構之外,MiniMax大規(guī)模重構了01系列模型的訓練和推理系統(tǒng),包括更高效的MoE All-to-all通訊優(yōu)化、更長的序列的優(yōu)化,以及推線性注意力層的高效Kernel實現(xiàn),使得模型能力可與全球 閉源模型相媲美。
 
  在業(yè)界主流的文本和多模態(tài)理解任務處理表現(xiàn)上,MiniMax-01系列模型大多情況下可以追平海外公認 的兩個模型,GPT-4o-1120以及Claude-3.5-sonnet-1022。過往的模型能力評測中,Google的自研模型Gemini有著顯著的長文優(yōu)勢。而在01系列模型參評的長文任務下,相較于Gemini等一眾全球 模型,MiniMax-01隨著輸入長度變長,性能衰減最慢,效果及其出眾。

▲ 多項任務評測結果顯示,MiniMax-01系列模型核心性能穩(wěn)居全球第一梯隊。(圖源MiniMax-01系列模型技術報告)

 

  ▲ MiniMax-01系列模型長上下文處理能力全球領先。(圖源MiniMax-01系列模型技術報告)
 
  加速AI Agent時代到來
 
  2025年,AI將迎來至關重要的發(fā)展節(jié)點,AI Agent有望成為新一年最重要的產品形態(tài),引領AI從傳統(tǒng)的“工具”角色向更具互動性與協(xié)作性的“伙伴”角色轉變。AI Agent時代,由于智能體處理的任務變得越來越復雜,涉及的數(shù)據(jù)量也越來越大,單個智能體的記憶以及多個智能體協(xié)作間的上下文都會變得越來越長。因此,長上下文能力與多模態(tài)處理能力的提升,是AI Agent為各行業(yè)帶來更為豐富、高效、智能的解決方案的必要條件。
 
  MiniMax在Github上開源了Text-01模型、VL-01模型的完整權重,以便于更多開發(fā)者做有價值、突破性的研究。MiniMax表示,“我們認為這有可能啟發(fā)更多長上下文的研究和應用,從而更快促進Agent時代的到來,二是開源也能促使我們努力做更多創(chuàng)新,更高質量地開展后續(xù)的模型研發(fā)工作。”
 
  憑借開放、共享、協(xié)作的特點,開源模型激發(fā)AI產業(yè)的創(chuàng)新活力,正在成為賦能新質生產力發(fā)展的關鍵引擎。受益于Linear Attention層面的架構創(chuàng)新、算力層面的優(yōu)化,以及集群上的訓推一體的設計,MiniMax以業(yè)內極具性價比的價格提供文本模型和多模態(tài)理解模型的API服務,標準定價是輸入token 1元/百萬token,輸出token 8元/百萬token。
 
  論文鏈接:https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf

   投稿郵箱:chuanbeiol@163.com   詳情請訪問川北在線:http://fishbao.com.cn/

川北在線-川北全搜索版權與免責聲明
①凡注明"來源:XXX(非在線)"的作品,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責,本網不承擔此類稿件侵權行為的連帶責任。
②本站所載之信息僅為網民提供參考之用,不構成任何投資建議,文章觀點不代表本站立場,其真實性由作者或稿源方負責,本站信息接受廣大網民的監(jiān)督、投訴、批評。
③本站轉載純粹出于為網民傳遞更多信息之目的,本站不原創(chuàng)、不存儲視頻,所有視頻均分享自其他視頻分享網站,如涉及到您的版權問題,請與本網聯(lián)系,我站將及時進行刪除處理。



合作媒體
金寵物 綠植迷 女邦網 IT人
法律顧問:ITLAW-莊毅雄律師