隨著ChatGPT和GPT4.0的相繼問(wèn)世,拉開(kāi)了大語(yǔ)言模型和生成式AI產(chǎn)業(yè)蓬勃發(fā)展的序幕。國(guó)內(nèi)外各大企業(yè)和科研機(jī)構(gòu)對(duì)ChatGPT的持續(xù)跟進(jìn),加速推進(jìn)大語(yǔ)言模型的研發(fā)和產(chǎn)品化。
目前市面上出現(xiàn)了諸多類ChatGPT大模型,功能層面也從通用領(lǐng)域擴(kuò)展到垂直應(yīng)用領(lǐng)域。例如,百度推出的“文心一言”,騰訊的“混元”,阿里的“通義千言”,360、華為、商湯、京東、科大訊飛、字節(jié)跳動(dòng)等巨頭企業(yè)也動(dòng)作頻頻,形成了全新的產(chǎn)業(yè)格局。
ChatGPT大模型背后是人工智能算法、算力和數(shù)據(jù)的再一次融合升級(jí)。簡(jiǎn)單來(lái)說(shuō),應(yīng)用要高效運(yùn)行起來(lái),就需要強(qiáng)大算力的支持,而要讓應(yīng)用背后的算法更為聰明,則離不開(kāi)高質(zhì)量數(shù)據(jù)資源。
而擺在“中國(guó)ChatGPT”面前的問(wèn)題,首當(dāng)其中就是中文語(yǔ)料庫(kù)的不足。當(dāng)前GPT大模型主流數(shù)據(jù)集和評(píng)估基準(zhǔn)多以英文為主,缺少中文特點(diǎn)、文化,難以滿足關(guān)鍵行業(yè)應(yīng)用選型和優(yōu)化的實(shí)際需求,這就會(huì)造成所訓(xùn)練的模型對(duì)于中英文問(wèn)題的回答質(zhì)量并不一致。
以的Common Crawl數(shù)據(jù)集為例,中文數(shù)據(jù)占比僅有4.8%。此外,一些對(duì)模型能力提升巨大的語(yǔ)料里面,中文占比甚至?xí),例如在源代碼的備注里面,英文語(yǔ)料占比高達(dá)90%,在專業(yè)科研論文審稿意見(jiàn)里,英文占比95%。
因此,“中國(guó)版ChatGPT”如果要把中文回答做好,就需要大量高質(zhì)量的中文語(yǔ)料;诖耍瑯(biāo)貝科技啟動(dòng)了大模型技術(shù)的非平衡專業(yè)語(yǔ)料的構(gòu)建工作,將于近期陸續(xù)推出一系列高質(zhì)量的數(shù)據(jù)集,持續(xù)解決多領(lǐng)域的GPT大模型非平衡語(yǔ)料問(wèn)題 。
標(biāo)貝非平衡專業(yè)語(yǔ)料庫(kù)
標(biāo)貝科技的非平衡專業(yè)語(yǔ)料庫(kù)是基于多年累積的專業(yè)數(shù)據(jù)增強(qiáng)技術(shù)和經(jīng)驗(yàn),針對(duì)優(yōu)質(zhì)中文數(shù)據(jù)資源稀缺的領(lǐng)域、話題和人機(jī)交互方式等方面,補(bǔ)全當(dāng)前開(kāi)源基礎(chǔ)數(shù)據(jù)的偏差或失衡,構(gòu)造的一系列增強(qiáng)語(yǔ)料庫(kù),來(lái)提高中文GPT類模型的泛化能力和魯棒性。
以標(biāo)貝科技第一批專業(yè)語(yǔ)料——編程輔助數(shù)據(jù)集為例 ,F(xiàn)有的公開(kāi)數(shù)據(jù)中可以獲得的高質(zhì)量的帶有中文注釋的代碼數(shù)據(jù)極少,預(yù)訓(xùn)練的基礎(chǔ)語(yǔ)言模型可能無(wú)法在稀缺的中文描述、源代碼實(shí)現(xiàn)的關(guān)聯(lián)中學(xué)習(xí)到別的代碼邏輯。所以目前公開(kāi)的大多數(shù)中文類GPT模型都無(wú)法滿足高性能的編程請(qǐng)求。
針對(duì)這個(gè)場(chǎng)景,標(biāo)貝科技發(fā)布了高質(zhì)量的中文注釋代碼數(shù)據(jù)集。該數(shù)據(jù)集是一個(gè)大體量的開(kāi)放代碼學(xué)習(xí)的數(shù)據(jù)集,從真實(shí)的Github開(kāi)源項(xiàng)目中收集而來(lái),超過(guò)百億字符,包括高質(zhì)量代碼的中文注釋內(nèi)容以及對(duì)應(yīng)的原始編碼,可以用于繼續(xù)微調(diào)(Further pretraining)大型語(yǔ)言模型,以輔助計(jì)算機(jī)編程和相關(guān)教學(xué)任務(wù)。
標(biāo)貝科技編程輔助數(shù)據(jù)集樣例
C源代碼:左側(cè)為原始代碼數(shù)據(jù),右側(cè)為增強(qiáng)后的帶有中文注釋的代碼數(shù)據(jù)
python源代碼:左側(cè)為原始代碼數(shù)據(jù),右側(cè)為增強(qiáng)后的帶有中文注釋的代碼數(shù)據(jù)
標(biāo)貝科技編程輔助數(shù)據(jù)集特點(diǎn)
(1)數(shù)據(jù)集包含多種類型的代碼和文本,包括真實(shí)的開(kāi)源項(xiàng)目、常見(jiàn)的框架、語(yǔ)言等。
(2)數(shù)據(jù)集由開(kāi)源社區(qū)作者或知名公司提供,具有廣泛的功能實(shí)現(xiàn)和編程范式。
(3)數(shù)據(jù)集包含各種復(fù)雜度和難度等級(jí)的代碼,以支持不同層次的用戶進(jìn)行訓(xùn)練。
標(biāo)貝科技致力于為大語(yǔ)言模型提供終身學(xué)習(xí)語(yǔ)料
ChatGPT的大規(guī)模語(yǔ)言模型浪潮興起伊始,對(duì)數(shù)據(jù)也提出了全新的要求。如何為大語(yǔ)言模型提供的、多樣化高質(zhì)量語(yǔ)料,成為行業(yè)面臨的共同挑戰(zhàn)。
作為行業(yè)的AI數(shù)據(jù)解決方案提供商,標(biāo)貝科技堅(jiān)持?jǐn)?shù)據(jù)服務(wù)的創(chuàng)新,積極探索如何滿足大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的需求,增加數(shù)據(jù)使用的價(jià)值。在對(duì)話大模型優(yōu)化數(shù)據(jù)設(shè)計(jì)方案上,標(biāo)貝科技不僅提供最基本的數(shù)據(jù)采集和清洗技術(shù)服務(wù),還擁有一系列高效處理數(shù)據(jù)、優(yōu)化模型的技術(shù)能力,持續(xù)推動(dòng)以GPT為代表的大模型技術(shù)及應(yīng)用的創(chuàng)新引領(lǐng)。
接下來(lái),標(biāo)貝科技還將逐步推出專業(yè)審稿意見(jiàn)數(shù)據(jù)、中文推理鏈數(shù)據(jù)、中文視頻的VQA數(shù)據(jù)等多個(gè)專業(yè)領(lǐng)域的數(shù)據(jù)語(yǔ)料 。同時(shí),我們還可以根據(jù)垂直領(lǐng)域需求,提供相應(yīng)的語(yǔ)料定制服務(wù)。歡迎對(duì)以上數(shù)據(jù)集感興趣的行業(yè)伙伴聯(lián)系我們。
免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與每日科技網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。
本網(wǎng)站有部分內(nèi)容均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),若因作品內(nèi)容、知識(shí)產(chǎn)權(quán)、版權(quán)和其他問(wèn)題,請(qǐng)及時(shí)提供相關(guān)證明等材料并與我們聯(lián)系,本網(wǎng)站將在規(guī)定時(shí)間內(nèi)給予刪除等相關(guān)處理.
精彩推薦
-
采購(gòu)拿回扣問(wèn)題,教你一個(gè)小妙招,看看怎么做!
2017-09-18 11:09 廣告 閱讀
-
苦逼的老板,教你一個(gè)小妙招,怎么防采購(gòu)拿回扣!
2017-09-18 11:09 廣告 閱讀
-
傳播易是如何破局廣告營(yíng)銷和廣告投放的
2021-05-14 16:33:30 更新 閱讀
-
尖貨爆料!速來(lái)【數(shù)碼預(yù)爆臺(tái)】領(lǐng)取618福利和AI新
2024-06-21 18:33:22 更新 閱讀
-
喜獲國(guó)際設(shè)計(jì)大獎(jiǎng)丨十字勛章減重大師Pro商務(wù)背包
2024-06-12 14:04:28 更新 閱讀
-
Baseus倍思音頻品鑒會(huì):一場(chǎng)產(chǎn)品與技術(shù)的對(duì)話
2024-05-29 11:13:32 更新 閱讀
-
212攜手極致軍工品質(zhì),煥新出發(fā)
2024-05-22 21:16:00 更新 閱讀
-
第四屆全球應(yīng)用算法BPAA大賽再度升級(jí),增添三大
2024-05-17 17:55:36 更新 閱讀
-
三維天地助力實(shí)驗(yàn)室質(zhì)量管理工作無(wú)紙化、流程化
2024-05-09 15:35:04 更新 閱讀