一级毛片福利影院_国产一区二区三区高清av_亚洲网友拍到精美视频_黄色网站在线看精品

重磅|標(biāo)貝科技非平衡專業(yè)語(yǔ)料上線 助推GPT大模型技術(shù)應(yīng)用落地

        【每日科技網(wǎng)】

  隨著ChatGPT和GPT4.0的相繼問(wèn)世,拉開(kāi)了大語(yǔ)言模型和生成式AI產(chǎn)業(yè)蓬勃發(fā)展的序幕。國(guó)內(nèi)外各大企業(yè)和科研機(jī)構(gòu)對(duì)ChatGPT的持續(xù)跟進(jìn),加速推進(jìn)大語(yǔ)言模型的研發(fā)和產(chǎn)品化。

  目前市面上出現(xiàn)了諸多類ChatGPT大模型,功能層面也從通用領(lǐng)域擴(kuò)展到垂直應(yīng)用領(lǐng)域。例如,百度推出的“文心一言”,騰訊的“混元”,阿里的“通義千言”,360、華為、商湯、京東、科大訊飛、字節(jié)跳動(dòng)等巨頭企業(yè)也動(dòng)作頻頻,形成了全新的產(chǎn)業(yè)格局。

  ChatGPT大模型背后是人工智能算法、算力和數(shù)據(jù)的再一次融合升級(jí)。簡(jiǎn)單來(lái)說(shuō),應(yīng)用要高效運(yùn)行起來(lái),就需要強(qiáng)大算力的支持,而要讓應(yīng)用背后的算法更為聰明,則離不開(kāi)高質(zhì)量數(shù)據(jù)資源。

  而擺在“中國(guó)ChatGPT”面前的問(wèn)題,首當(dāng)其中就是中文語(yǔ)料庫(kù)的不足。當(dāng)前GPT大模型主流數(shù)據(jù)集和評(píng)估基準(zhǔn)多以英文為主,缺少中文特點(diǎn)、文化,難以滿足關(guān)鍵行業(yè)應(yīng)用選型和優(yōu)化的實(shí)際需求,這就會(huì)造成所訓(xùn)練的模型對(duì)于中英文問(wèn)題的回答質(zhì)量并不一致。

  以的Common Crawl數(shù)據(jù)集為例,中文數(shù)據(jù)占比僅有4.8%。此外,一些對(duì)模型能力提升巨大的語(yǔ)料里面,中文占比甚至?xí),例如在源代碼的備注里面,英文語(yǔ)料占比高達(dá)90%,在專業(yè)科研論文審稿意見(jiàn)里,英文占比95%。

  因此,“中國(guó)版ChatGPT”如果要把中文回答做好,就需要大量高質(zhì)量的中文語(yǔ)料;诖耍瑯(biāo)貝科技啟動(dòng)了大模型技術(shù)的非平衡專業(yè)語(yǔ)料的構(gòu)建工作,將于近期陸續(xù)推出一系列高質(zhì)量的數(shù)據(jù)集,持續(xù)解決多領(lǐng)域的GPT大模型非平衡語(yǔ)料問(wèn)題 。

  標(biāo)貝非平衡專業(yè)語(yǔ)料庫(kù)

  標(biāo)貝科技的非平衡專業(yè)語(yǔ)料庫(kù)是基于多年累積的專業(yè)數(shù)據(jù)增強(qiáng)技術(shù)和經(jīng)驗(yàn),針對(duì)優(yōu)質(zhì)中文數(shù)據(jù)資源稀缺的領(lǐng)域、話題和人機(jī)交互方式等方面,補(bǔ)全當(dāng)前開(kāi)源基礎(chǔ)數(shù)據(jù)的偏差或失衡,構(gòu)造的一系列增強(qiáng)語(yǔ)料庫(kù),來(lái)提高中文GPT類模型的泛化能力和魯棒性。

  以標(biāo)貝科技第一批專業(yè)語(yǔ)料——編程輔助數(shù)據(jù)集為例 ,F(xiàn)有的公開(kāi)數(shù)據(jù)中可以獲得的高質(zhì)量的帶有中文注釋的代碼數(shù)據(jù)極少,預(yù)訓(xùn)練的基礎(chǔ)語(yǔ)言模型可能無(wú)法在稀缺的中文描述、源代碼實(shí)現(xiàn)的關(guān)聯(lián)中學(xué)習(xí)到別的代碼邏輯。所以目前公開(kāi)的大多數(shù)中文類GPT模型都無(wú)法滿足高性能的編程請(qǐng)求。

  針對(duì)這個(gè)場(chǎng)景,標(biāo)貝科技發(fā)布了高質(zhì)量的中文注釋代碼數(shù)據(jù)集。該數(shù)據(jù)集是一個(gè)大體量的開(kāi)放代碼學(xué)習(xí)的數(shù)據(jù)集,從真實(shí)的Github開(kāi)源項(xiàng)目中收集而來(lái),超過(guò)百億字符,包括高質(zhì)量代碼的中文注釋內(nèi)容以及對(duì)應(yīng)的原始編碼,可以用于繼續(xù)微調(diào)(Further pretraining)大型語(yǔ)言模型,以輔助計(jì)算機(jī)編程和相關(guān)教學(xué)任務(wù)。

  標(biāo)貝科技編程輔助數(shù)據(jù)集樣例

  C源代碼:左側(cè)為原始代碼數(shù)據(jù),右側(cè)為增強(qiáng)后的帶有中文注釋的代碼數(shù)據(jù)

重磅|標(biāo)貝科技非平衡專業(yè)語(yǔ)料上線 助推GPT大模型技術(shù)應(yīng)用落地

  python源代碼:左側(cè)為原始代碼數(shù)據(jù),右側(cè)為增強(qiáng)后的帶有中文注釋的代碼數(shù)據(jù)

重磅|標(biāo)貝科技非平衡專業(yè)語(yǔ)料上線 助推GPT大模型技術(shù)應(yīng)用落地

  標(biāo)貝科技編程輔助數(shù)據(jù)集特點(diǎn)

  (1)數(shù)據(jù)集包含多種類型的代碼和文本,包括真實(shí)的開(kāi)源項(xiàng)目、常見(jiàn)的框架、語(yǔ)言等。

  (2)數(shù)據(jù)集由開(kāi)源社區(qū)作者或知名公司提供,具有廣泛的功能實(shí)現(xiàn)和編程范式。

  (3)數(shù)據(jù)集包含各種復(fù)雜度和難度等級(jí)的代碼,以支持不同層次的用戶進(jìn)行訓(xùn)練。

  標(biāo)貝科技致力于為大語(yǔ)言模型提供終身學(xué)習(xí)語(yǔ)料

  ChatGPT的大規(guī)模語(yǔ)言模型浪潮興起伊始,對(duì)數(shù)據(jù)也提出了全新的要求。如何為大語(yǔ)言模型提供的、多樣化高質(zhì)量語(yǔ)料,成為行業(yè)面臨的共同挑戰(zhàn)。

  作為行業(yè)的AI數(shù)據(jù)解決方案提供商,標(biāo)貝科技堅(jiān)持?jǐn)?shù)據(jù)服務(wù)的創(chuàng)新,積極探索如何滿足大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的需求,增加數(shù)據(jù)使用的價(jià)值。在對(duì)話大模型優(yōu)化數(shù)據(jù)設(shè)計(jì)方案上,標(biāo)貝科技不僅提供最基本的數(shù)據(jù)采集和清洗技術(shù)服務(wù),還擁有一系列高效處理數(shù)據(jù)、優(yōu)化模型的技術(shù)能力,持續(xù)推動(dòng)以GPT為代表的大模型技術(shù)及應(yīng)用的創(chuàng)新引領(lǐng)。

  接下來(lái),標(biāo)貝科技還將逐步推出專業(yè)審稿意見(jiàn)數(shù)據(jù)、中文推理鏈數(shù)據(jù)、中文視頻的VQA數(shù)據(jù)等多個(gè)專業(yè)領(lǐng)域的數(shù)據(jù)語(yǔ)料 。同時(shí),我們還可以根據(jù)垂直領(lǐng)域需求,提供相應(yīng)的語(yǔ)料定制服務(wù)。歡迎對(duì)以上數(shù)據(jù)集感興趣的行業(yè)伙伴聯(lián)系我們。

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與每日科技網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

本網(wǎng)站有部分內(nèi)容均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),若因作品內(nèi)容、知識(shí)產(chǎn)權(quán)、版權(quán)和其他問(wèn)題,請(qǐng)及時(shí)提供相關(guān)證明等材料并與我們聯(lián)系,本網(wǎng)站將在規(guī)定時(shí)間內(nèi)給予刪除等相關(guān)處理.