免费xxxx大片国产片_精品在线一区_亚洲午夜福利av_亚洲色大成人一区二区_无码熟妇人妻AV在线影片免费

您的位置:首頁(yè) >財(cái)經(jīng) >

MosaicML 推出 30B 模型 — 挑戰(zhàn) LLaMA、Falcon 和 GPT_熱點(diǎn)在線

2023-06-23 17:49:55 來(lái)源:博客園

MosaicML正在推出其第二個(gè)開源大型語(yǔ)言模型(LLM),稱為MPT-30B,這是繼五月份首次推出的較小的MPT-7B模型之后。


(資料圖片)

為了討論新模型及其對(duì)開發(fā)人員的意義,我采訪了MosaicML聯(lián)合創(chuàng)始人兼首席執(zhí)行官Naveen Rao。他之前的創(chuàng)業(yè)公司是Nervana,這是一家深度學(xué)習(xí)公司,于2016年被英特爾收購(gòu),所以他最近在人工智能行業(yè)并不重要。

顧名思義,MPT-30B是一個(gè)300億參數(shù)模型。該公司聲稱它在質(zhì)量上超過(guò)了OpenAI的GPT-3,盡管其參數(shù)數(shù)量約為1/6(GPT-3有1750億個(gè))?!斑@意味著MPT-30B更容易在本地硬件上運(yùn)行,并且部署推理的成本要低得多,”該公司表示。

MosaicML vs. LLaMA 和 Falcon

MPT-30B比其他模型(包括GPT-3,LLaMA和Falcon(每個(gè)2,000個(gè)令牌)在更長(zhǎng)的序列(最多8,000個(gè)令牌)上進(jìn)行訓(xùn)練。根據(jù)MosaicML的說(shuō)法,“它旨在在實(shí)踐中處理更長(zhǎng)的序列,使其非常適合數(shù)據(jù)密集型企業(yè)應(yīng)用程序。

實(shí)際上,這意味著用戶可以輸入更長(zhǎng)的提示。事實(shí)上,MosaicML之前的7B參數(shù)模型帶有一個(gè)微調(diào)選項(xiàng),稱為MPT-7B-StoryWriter-65k+,具有巨大的65,000“上下文長(zhǎng)度”。

“更長(zhǎng)的上下文[長(zhǎng)度]意味著更靈活的用法,”Rao說(shuō)?!拔覀儗⒂形⒄{(diào)的版本,特別適合寫散文——寫更長(zhǎng)的輸出。

MosaicML平臺(tái);通過(guò)其公司博客

Rao想要強(qiáng)調(diào)的另一個(gè)區(qū)別是它的注意力機(jī)制。當(dāng)谷歌在2017年發(fā)表其著名的關(guān)于變壓器技術(shù)的論文《注意力是你所需要的一切》(Attention Is All You Need)時(shí),它指出,“多頭自我注意”是為AI提供突破的訓(xùn)練機(jī)制(OpenAI隨后借用這一見解來(lái)構(gòu)建GPT)。

“注意力是變壓器模型的內(nèi)在部分,”Rao解釋道?!斑@實(shí)際上使他們能夠看到一個(gè)句子,一個(gè)段落或整個(gè)文本語(yǔ)料庫(kù)的聯(lián)系。

Rao 告訴我,MosaicML 使用了一種名為“閃光注意力”的技術(shù),這是 2022 年一篇學(xué)術(shù)論文的主題。

“它使你能夠更快地進(jìn)行推理和訓(xùn)練 - Falcon和LLaMA都沒(méi)有這個(gè),”他說(shuō)?!耙虼耍瑥挠?jì)算的角度來(lái)看,我們的方法實(shí)際上效率更高。

Rao補(bǔ)充說(shuō),新模型更適合企業(yè)使用,因?yàn)樗按笮『线m”以“適應(yīng)實(shí)際硬件的限制”。他指出,深度學(xué)習(xí)GPU通常使用40-80千兆字節(jié)的內(nèi)存。根據(jù)Rao的說(shuō)法,開源的Falcon LLM正在與這種限制作斗爭(zhēng)。

“奇怪的是,他們發(fā)布的獵鷹模型是一個(gè)400億參數(shù)模型。這不太適合 80 GB GPU,因?yàn)樗每吭谶吘墶?/p>

他補(bǔ)充說(shuō),它自己的300億個(gè)參數(shù)模型更小,以便更好地針對(duì)GPU進(jìn)行優(yōu)化?!八](méi)有真正損害我們的性能,它將讓你非常輕松地適應(yīng)80-gGPU,”他說(shuō)。

Rao聲稱其新的30B參數(shù)模型在性能上也優(yōu)于LLaMA和Falcon。

“由于我們的效率方法,我們實(shí)際上訓(xùn)練的計(jì)算比LLaMA和Falcon少。所以訓(xùn)練實(shí)際上要便宜得多。但我們基本上是平價(jià)的。這取決于評(píng)估指標(biāo)——比如,對(duì)于編碼,這個(gè)模型實(shí)際上比這兩個(gè)模型做得更好。在其他事情上,情況更糟。

當(dāng)然,LLaMA和Falcon背后的人可能會(huì)對(duì)此提出異議。但是很難獨(dú)立驗(yàn)證MosaicML的說(shuō)法,因?yàn)镽ao談到的三個(gè)開源LLM項(xiàng)目(MosaicML,LLaMA或Falcon)都沒(méi)有使用斯坦福大學(xué)的HELM措施進(jìn)行測(cè)試。

MosaicML vs. OpenAI

那么MosaicML的模型與OpenAI的GPT-4相比如何呢?Rao 承認(rèn) GPT-4 在大多數(shù)方面的能力方面都更勝一籌。然而,他重申,MosaicML的模型提供了更長(zhǎng)的上下文長(zhǎng)度,這允許獨(dú)特的用例 - 例如生成F. Scott Fitzgerald的著名小說(shuō)“了不起的蓋茨比”的尾聲。(題外話:作為一名前英國(guó)文學(xué)專業(yè)的學(xué)生,這是我最不想從法學(xué)碩士那里得到的東西!

Rao說(shuō),像GPT-4這樣的大型模型的主要挑戰(zhàn)是運(yùn)行它們的高成本,這使得大多數(shù)企業(yè)都不切實(shí)際。MosaicML還專注于為具有特定數(shù)據(jù)(包括敏感數(shù)據(jù))的公司提供服務(wù),以微調(diào)其特定行業(yè)的模型。

在用例方面,Rao解釋說(shuō),醫(yī)療保健和銀行業(yè)等行業(yè)可以從MosaicML解釋和匯總大量數(shù)據(jù)的能力中受益。例如,在醫(yī)學(xué)領(lǐng)域,該模型可以解釋實(shí)驗(yàn)室結(jié)果,并通過(guò)分析各種輸入來(lái)提供對(duì)患者病史的見解。

Rao強(qiáng)調(diào)了開源模型在這些場(chǎng)景中的重要性,因?yàn)榻】担ɑ驅(qū)嶋H上是財(cái)務(wù))數(shù)據(jù)的本質(zhì)需要在防火墻后面進(jìn)行安全處理,而不是通過(guò)API將其發(fā)送給OpenAI之類的公司。

開發(fā)人員如何使用 MosaicML

我問(wèn)開發(fā)人員如何開始使用MosaicML的平臺(tái)。Rao回答說(shuō),MosaicML提供了各種選擇,具體取決于開發(fā)人員的需求和專業(yè)知識(shí)。對(duì)于簡(jiǎn)單的集成,他們提供了一個(gè)類似于其他公司(如OpenAI)的API,允許開發(fā)人員輕松地將MosaicML的模型整合到他們的前端應(yīng)用程序中。他聲稱,與其他提供商的類似規(guī)模的模型相比,MosaicML的模型更具成本效益。

開發(fā)人員還可以選擇通過(guò)使用自己的數(shù)據(jù)對(duì)其進(jìn)行微調(diào)來(lái)自定義 MosaicML 模型。他們可以下載模型、進(jìn)行修改,并使用自定義版本創(chuàng)建自己的 API。

對(duì)于擁有大量數(shù)據(jù)的高級(jí)開發(fā)人員,Rao表示,MosaicML的工具可用于從頭開始預(yù)訓(xùn)練自定義模型,并使用MosaicML的平臺(tái)為它們提供服務(wù)。

然后我問(wèn)了MosaicML與流行的第三方工具(如LangChain)的兼容性。

“你通過(guò)LangChain獲得的所有工具都可以與我們的API一起使用,”他回答道?!罢嬲岬氖牵梢栽谂c我們一起構(gòu)建的自定義模型之上使用這些工具。因此,我們基本上在定制方面為開發(fā)人員提供了令人難以置信的能力——甚至擁有整個(gè)模型。您進(jìn)入該模型的所有數(shù)據(jù)(權(quán)重,所有內(nèi)容)都?xì)w您所有,因此可以完全自定義。這就是我們實(shí)現(xiàn)的目標(biāo)。有了這些API提供商(如OpenAI),你得到的是你所得到的——零定制。

團(tuán)隊(duì)開源

盡管在我們的采訪中談到了LLaMA和Falcon,但最終Rao認(rèn)為他們都在同一個(gè)團(tuán)隊(duì)中 - 而像OpenAI這樣的專有平臺(tái)才是真正的競(jìng)爭(zhēng)對(duì)手。

“這使權(quán)力回到了企業(yè)開發(fā)人員手中,”他說(shuō),關(guān)于開源LLM,“將所有這些放在一個(gè)集中的地方,在那里你可以得到你得到的東西,這是一個(gè)很大的負(fù)面結(jié)果。

他還堅(jiān)持認(rèn)為,開源LLM正在“縮小與這些閉源模型的差距”。他承認(rèn),也許還沒(méi)有完全,但他認(rèn)為開放的LLM已經(jīng)“跨越了這些模型實(shí)際上非常有用的門檻”。

MosaicML推出30B模型 - 接受LLaMA,F(xiàn)alcon和GPT的帖子首先出現(xiàn)在The New Stack上。

關(guān)鍵詞: