關(guān)注:解讀丨微軟開(kāi)源DeepSpeed-Chat 機(jī)構(gòu):賦能整個(gè)AI行業(yè)提升效率和降低成本 加快應(yīng)用落地

來(lái)源:DoNews快訊


(資料圖片僅供參考)

事件:DeepSpeed-Chat可以簡(jiǎn)易地進(jìn)行類ChatGPT模型的訓(xùn)練和推理:用一個(gè)腳本,能夠采用預(yù)先訓(xùn)練的Huggingface模型,使用 DeepSpeed-RLHF系統(tǒng)運(yùn)行完成 InstructGPT訓(xùn)練的所有三個(gè)步驟(1.監(jiān)督微調(diào)2.獎(jiǎng)勵(lì)模型微調(diào)和3.人類反饋強(qiáng)化學(xué)習(xí)(RLHF))并生成自己的類 ChatGPT的模型。 國(guó)盛證券點(diǎn)評(píng):DeepSpeed-HE是DeepSpeed-RLHF系統(tǒng)的引擎,具備三大優(yōu)勢(shì):1)效率比現(xiàn)有其他系統(tǒng)快15倍以上。在Azure Cloud上以低于13美元和9美元的價(jià)格在30小時(shí)內(nèi)訓(xùn)練OPT-18B,在300小時(shí)內(nèi)訓(xùn)練OPT-600B。2)具備出色的可擴(kuò)展性:支持?jǐn)?shù)千億參數(shù)的模型,可以在一天內(nèi)訓(xùn)練一個(gè)龐大的175B模型。3)讓訓(xùn)練硬件成本親民:只需一個(gè) GPU,就支持超過(guò)13億個(gè)參數(shù)的訓(xùn)練模型。DeepSpeed-Chat的開(kāi)源賦能整個(gè)AI行業(yè)提升效率和降低成本,加快應(yīng)用落地。有望幫助大模型廠商加快訓(xùn)練,并能讓中小廠商在做細(xì)分領(lǐng)域應(yīng)用時(shí),基于自己的場(chǎng)景和數(shù)據(jù)低成本快速實(shí)現(xiàn)自己的小型類ChatGPT模型,或在微調(diào)大模型時(shí)降低成本。影響:1)加速應(yīng)用百花齊放,降低訓(xùn)練門檻。如辦公、多模態(tài)GPT、智能助理、金融、醫(yī)療等場(chǎng)景訓(xùn)練中FINETUNE難度與便捷性比以前好很多。2)中期加大算力需求:我們一直強(qiáng)調(diào),訓(xùn)練端算力需求極其有限,而應(yīng)用爆發(fā)才是指數(shù)型增長(zhǎng)。DEEP SPEED-chat加速各類應(yīng)用落地,中期算力需求有望迎來(lái)大爆發(fā)。這和市場(chǎng)目前的誤解有差異。(格隆匯)

標(biāo)簽:

推薦

財(cái)富更多》

動(dòng)態(tài)更多》

熱點(diǎn)