&

【每日科技網(wǎng)】

　　隨著ChatGPT和GPT4.0的相繼問(wèn)世，拉開(kāi)了大語(yǔ)言模型和生成式AI產(chǎn)業(yè)蓬勃發(fā)展的序幕。國(guó)內(nèi)外各大企業(yè)和科研機(jī)構(gòu)對(duì)ChatGPT的持續(xù)跟進(jìn)，加速推進(jìn)大語(yǔ)言模型的研發(fā)和產(chǎn)品化。

　　目前市面上出現(xiàn)了諸多類ChatGPT大模型，功能層面也從通用領(lǐng)域擴(kuò)展到垂直應(yīng)用領(lǐng)域。例如，百度推出的“文心一言”，騰訊的“混元”，阿里的“通義千言”，360、華為、商湯、京東、科大訊飛、字節(jié)跳動(dòng)等巨頭企業(yè)也動(dòng)作頻頻，形成了全新的產(chǎn)業(yè)格局。

　　ChatGPT大模型背后是人工智能算法、算力和數(shù)據(jù)的再一次融合升級(jí)。簡(jiǎn)單來(lái)說(shuō)，應(yīng)用要高效運(yùn)行起來(lái)，就需要強(qiáng)大算力的支持，而要讓應(yīng)用背后的算法更為聰明，則離不開(kāi)高質(zhì)量數(shù)據(jù)資源。

　　而擺在“中國(guó)ChatGPT”面前的問(wèn)題，首當(dāng)其中就是中文語(yǔ)料庫(kù)的不足。當(dāng)前GPT大模型主流數(shù)據(jù)集和評(píng)估基準(zhǔn)多以英文為主，缺少中文特點(diǎn)、文化，難以滿足關(guān)鍵行業(yè)應(yīng)用選型和優(yōu)化的實(shí)際需求，這就會(huì)造成所訓(xùn)練的模型對(duì)于中英文問(wèn)題的回答質(zhì)量并不一致。

　　以的Common Crawl數(shù)據(jù)集為例，中文數(shù)據(jù)占比僅有4.8%。此外，一些對(duì)模型能力提升巨大的語(yǔ)料里面，中文占比甚至?xí)�，例如在源代碼的備注里面，英文語(yǔ)料占比高達(dá)90%，在專業(yè)科研論文審稿意見(jiàn)里，英文占比95%。

　　因此，“中國(guó)版ChatGPT”如果要把中文回答做好，就需要大量高質(zhì)量的中文語(yǔ)料�；诖耍瑯�(biāo)貝科技啟動(dòng)了大模型技術(shù)的非平衡專業(yè)語(yǔ)料的構(gòu)建工作，將于近期陸續(xù)推出一系列高質(zhì)量的數(shù)據(jù)集，持續(xù)解決多領(lǐng)域的GPT大模型非平衡語(yǔ)料問(wèn)題。

　　標(biāo)貝非平衡專業(yè)語(yǔ)料庫(kù)

　　標(biāo)貝科技的非平衡專業(yè)語(yǔ)料庫(kù)是基于多年累積的專業(yè)數(shù)據(jù)增強(qiáng)技術(shù)和經(jīng)驗(yàn)，針對(duì)優(yōu)質(zhì)中文數(shù)據(jù)資源稀缺的領(lǐng)域、話題和人機(jī)交互方式等方面，補(bǔ)全當(dāng)前開(kāi)源基礎(chǔ)數(shù)據(jù)的偏差或失衡，構(gòu)造的一系列增強(qiáng)語(yǔ)料庫(kù)，來(lái)提高中文GPT類模型的泛化能力和魯棒性。

　　以標(biāo)貝科技第一批專業(yè)語(yǔ)料——編程輔助數(shù)據(jù)集為例 �，F(xiàn)有的公開(kāi)數(shù)據(jù)中可以獲得的高質(zhì)量的帶有中文注釋的代碼數(shù)據(jù)極少，預(yù)訓(xùn)練的基礎(chǔ)語(yǔ)言模型可能無(wú)法在稀缺的中文描述、源代碼實(shí)現(xiàn)的關(guān)聯(lián)中學(xué)習(xí)到別的代碼邏輯。所以目前公開(kāi)的大多數(shù)中文類GPT模型都無(wú)法滿足高性能的編程請(qǐng)求。

　　針對(duì)這個(gè)場(chǎng)景，標(biāo)貝科技發(fā)布了高質(zhì)量的中文注釋代碼數(shù)據(jù)集。該數(shù)據(jù)集是一個(gè)大體量的開(kāi)放代碼學(xué)習(xí)的數(shù)據(jù)集，從真實(shí)的Github開(kāi)源項(xiàng)目中收集而來(lái)，超過(guò)百億字符，包括高質(zhì)量代碼的中文注釋內(nèi)容以及對(duì)應(yīng)的原始編碼，可以用于繼續(xù)微調(diào)(Further pretraining)大型語(yǔ)言模型，以輔助計(jì)算機(jī)編程和相關(guān)教學(xué)任務(wù)。

　　標(biāo)貝科技編程輔助數(shù)據(jù)集樣例

　　C源代碼：左側(cè)為原始代碼數(shù)據(jù)，右側(cè)為增強(qiáng)后的帶有中文注釋的代碼數(shù)據(jù)

重磅|標(biāo)貝科技非平衡專業(yè)語(yǔ)料上線助推GPT大模型技術(shù)應(yīng)用落地

　　python源代碼：左側(cè)為原始代碼數(shù)據(jù)，右側(cè)為增強(qiáng)后的帶有中文注釋的代碼數(shù)據(jù)

　　標(biāo)貝科技編程輔助數(shù)據(jù)集特點(diǎn)

　　(1)數(shù)據(jù)集包含多種類型的代碼和文本，包括真實(shí)的開(kāi)源項(xiàng)目、常見(jiàn)的框架、語(yǔ)言等。

　　(2)數(shù)據(jù)集由開(kāi)源社區(qū)作者或知名公司提供，具有廣泛的功能實(shí)現(xiàn)和編程范式。

　　(3)數(shù)據(jù)集包含各種復(fù)雜度和難度等級(jí)的代碼，以支持不同層次的用戶進(jìn)行訓(xùn)練。

　　標(biāo)貝科技致力于為大語(yǔ)言模型提供終身學(xué)習(xí)語(yǔ)料

　　ChatGPT的大規(guī)模語(yǔ)言模型浪潮興起伊始，對(duì)數(shù)據(jù)也提出了全新的要求。如何為大語(yǔ)言模型提供的、多樣化高質(zhì)量語(yǔ)料，成為行業(yè)面臨的共同挑戰(zhàn)。

　　作為行業(yè)的AI數(shù)據(jù)解決方案提供商，標(biāo)貝科技堅(jiān)持?jǐn)?shù)據(jù)服務(wù)的創(chuàng)新，積極探索如何滿足大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的需求，增加數(shù)據(jù)使用的價(jià)值。在對(duì)話大模型優(yōu)化數(shù)據(jù)設(shè)計(jì)方案上，標(biāo)貝科技不僅提供最基本的數(shù)據(jù)采集和清洗技術(shù)服務(wù)，還擁有一系列高效處理數(shù)據(jù)、優(yōu)化模型的技術(shù)能力，持續(xù)推動(dòng)以GPT為代表的大模型技術(shù)及應(yīng)用的創(chuàng)新引領(lǐng)。

　　接下來(lái)，標(biāo)貝科技還將逐步推出專業(yè)審稿意見(jiàn)數(shù)據(jù)、中文推理鏈數(shù)據(jù)、中文視頻的VQA數(shù)據(jù)等多個(gè)專業(yè)領(lǐng)域的數(shù)據(jù)語(yǔ)料。同時(shí)，我們還可以根據(jù)垂直領(lǐng)域需求，提供相應(yīng)的語(yǔ)料定制服務(wù)。歡迎對(duì)以上數(shù)據(jù)集感興趣的行業(yè)伙伴聯(lián)系我們。

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與每日科技網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

本網(wǎng)站有部分內(nèi)容均轉(zhuǎn)載自其它媒體，轉(zhuǎn)載目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)，若因作品內(nèi)容、知識(shí)產(chǎn)權(quán)、版權(quán)和其他問(wèn)題，請(qǐng)及時(shí)提供相關(guān)證明等材料并與我們聯(lián)系，本網(wǎng)站將在規(guī)定時(shí)間內(nèi)給予刪除等相關(guān)處理.

精彩推薦