10 月 12 日消息 語言模型(Language Model)簡單來說就是一串詞序列的概率分布,主要作用是為一個長度為 m 的文本確定一個概率分布 P,表示這段文本存在的可能性。
大家之前可能或多或少聽說過 GPT-3,OpenAI 的語言模型,堪稱地表最強(qiáng)語言模型,也被認(rèn)為是革命性的人工智能模型。除此之外還有 BERT、Switch Transformer 等重量級產(chǎn)品,而且業(yè)內(nèi)其他企業(yè)也在努力推出自家的模型。
微軟和英偉達(dá)今天宣布了由 DeepSpeed 和 Megatron 驅(qū)動的 Megatron-Turing 自然語言生成模型(MT-NLG),這是迄今為止訓(xùn)練的和最強(qiáng)大的解碼語言模型。
作為 Turing NLG 17B 和 Megatron-LM 的繼任者,這個模型包括 5300 億個參數(shù),而且 MT-NLG 的參數(shù)數(shù)量是同類現(xiàn)有模型 GPT-3 的 3 倍,并在一系列廣泛的自然語言任務(wù)中展示了無與倫比的準(zhǔn)確性,例如:
完成預(yù)測
閱讀理解
常識推理
自然語言推理
詞義消歧
105 層、基于轉(zhuǎn)換器的 MT-NLG 在零、單和少樣本設(shè)置中改進(jìn)了先前進(jìn)的模型,并為兩個模型規(guī)模的大規(guī)模語言模型設(shè)定了新標(biāo)準(zhǔn)和質(zhì)量。
據(jù)悉,模型訓(xùn)練是在基于 NVIDIA DGX SuperPOD 的 Selene 超級計算機(jī)上以混合精度完成的,該超級計算機(jī)由 560 個 DGX A100 服務(wù)器提供支持,這些服務(wù)器以完整的胖樹(FatTree)配置與 HDR InfiniBand 聯(lián)網(wǎng)。每個 DGX A100 有 8 個 NVIDIA A100 80GB Tensor Core GPU,通過 NVLink 和 NVSwitch 相互完全連接。微軟 Azure NDv4 云超級計算機(jī)使用了類似的參考架構(gòu)。
免責(zé)聲明:本文僅代表作者個人觀點(diǎn),與每日科技網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。
本網(wǎng)站有部分內(nèi)容均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實性負(fù)責(zé),若因作品內(nèi)容、知識產(chǎn)權(quán)、版權(quán)和其他問題,請及時提供相關(guān)證明等材料并與我們聯(lián)系,本網(wǎng)站將在規(guī)定時間內(nèi)給予刪除等相關(guān)處理.
精彩推薦
-
采購拿回扣問題,教你一個小妙招,看看怎么做!
2017-09-18 11:09 廣告 閱讀
-
苦逼的老板,教你一個小妙招,怎么防采購拿回扣!
2017-09-18 11:09 廣告 閱讀
-
傳播易上線視頻制作頻道
2020-11-18 14:03:07 更新 閱讀
-
1+X無代碼研習(xí)營:讓無代碼助力軟件開發(fā)團(tuán)隊釋放
2023-03-16 14:48:09 更新 閱讀
-
ChatGPT之后 標(biāo)貝科技關(guān)于如何為預(yù)訓(xùn)練大語言模
2023-03-15 17:52:37 更新 閱讀
-
云原生安全,會有一個較大的潛在市場|統(tǒng)信軟件
2023-03-15 17:51:39 更新 閱讀
-
impact.com與Google加深技術(shù)融合,全面升級終端
2023-03-13 10:32:08 更新 閱讀
-
【星環(huán)科技新科技 星力量獲獎案例巡展】—云上貴
2023-03-13 10:30:53 更新 閱讀
-
千元級價格萬元級品質(zhì),科大訊飛智能助聽器讓老
2023-03-08 16:53:17 更新 閱讀