91&

【每日科技網(wǎng)】

　　在算力新時代，從通用計算到智算，CPU可以做更多，價值也更加凸顯。

　　作為一種基于人工智能(AI)技術(shù)的計算方式，其含義既包含了AI，還包含了對高性能算力的要求。

　　擁抱大模型不容易

　　ChatGPT的橫空出世拉開了AI大模型的新時代，而近期的文生視頻模型SORA又讓業(yè)界為之激動不已。據(jù)了解，Sora所需token(文本處理最小單位)數(shù)量相較于文本及圖片模型的推理呈數(shù)量級增長。經(jīng)中信證券簡單估算，對于一個60幀的視頻(約6至8秒)，Sora要生成至少約120萬個token，這是相當(dāng)大的計算量。

　　科技爆炸的背后需要算力膨脹來匹配，大型AI模型的興起帶來了對智能計算能力的積極需求，于是，我們看到業(yè)界在算力基礎(chǔ)設(shè)施方面進(jìn)行積極布局，芯片需求得到極大釋放，但是現(xiàn)實卻有點不盡如人意。

　　網(wǎng)上信息顯示，以O(shè)penAI在GPT-3模型為例，該模型擁有1750億個參數(shù)，需要龐大算力，訓(xùn)練成本高達(dá)1650萬美元。使用GPT-3開發(fā)的ChatGPT在推論方面的成本更高，每月燒掉4千萬美元。這不僅增加了企業(yè)成本，對地球資源、環(huán)境可持續(xù)發(fā)展性也可能產(chǎn)生影響。

　　被廣泛應(yīng)用于人工智能的訓(xùn)練、推理、科學(xué)計算等領(lǐng)域的GPU似乎成為頂流，并且愈發(fā)呈現(xiàn)出“一卡難求”的趨勢。但是對于實際的企業(yè)AI落地應(yīng)用而言，真的無法低成本擁抱大模型了嗎?業(yè)務(wù)場景的需求對AI算力要求幾何?如何挖掘現(xiàn)有算力潛能?

　　俗話說，“自古華山一條道”，但是對于算力芯片卻不是，特別是對于大語言模型(以下簡稱：LLM)推理，CPU在某些場景下其實更適合。

　　為什么選擇CPU？

　　相比GPU，CPU此前在LLM的熱度表現(xiàn)并不算高，業(yè)界往往認(rèn)為CPU在AI時代已經(jīng)“過時”。

　　但事實并非如此。

　　大模型通常都分為訓(xùn)練和推理兩個階段，在訓(xùn)練環(huán)節(jié)需要處理海量數(shù)據(jù)，因此對算力性能要求較高;但推理階段不僅幾乎貫穿業(yè)務(wù)全流程，對算力的要求也沒有那么高，隨著CPU性能的提升，在部分場景下用CPU來完成AI推理工作對企業(yè)來說是更加適合的選擇。

　　一方面，CPU資源更容易獲取，也不需要導(dǎo)入異構(gòu)硬件平臺，額外進(jìn)行相關(guān)人才的儲備，更容易實現(xiàn)廣泛部署;另外，充分利用現(xiàn)有IT設(shè)施有助于TCO(總體擁有成本)優(yōu)化，以用更低的成本實現(xiàn)更優(yōu)的性能表現(xiàn)。

　　其次，通過分布式的解決方案，能夠有效解決CPU計算速度的問題。CPU甚至可以支持幾百GB的內(nèi)存，能夠輕松應(yīng)付甚至70B的LLM ，而且CPU的特性是通用和靈活，以及在軟件兼容性方面的多年積累，在承載和部署人工智能應(yīng)用工作負(fù)載方面更具優(yōu)勢。

　　這就是CPU的破局，選擇CPU進(jìn)行LLM探索逐漸成為企業(yè)的新選擇。

　　近年來，隨著大模型的迅速發(fā)展，光學(xué)字符識別(OCR)技術(shù)已成為LLM的重要入口。亞信科技就在自家OCR-AIRPA方案中采用了CPU作為硬件平臺，實現(xiàn)了從FP32到INT8/BF16的量化，從而在可接受的精度損失下，增加吞吐量并加速推理。將人工成本降至原來的1/5到1/9，效率還提升了約5-10倍。

　　深耕醫(yī)療行業(yè)多年，已幫助多家三甲醫(yī)院推進(jìn)信息化和數(shù)字化建設(shè)的衛(wèi)寧健康就選擇與英特爾合作，通過軟硬適配、優(yōu)化模型算法等手段，成功在CPU(第五代至強® 可擴展處理器)上提升了面向醫(yī)療垂直領(lǐng)域的大模型WiNGPT的性能，讓基于它的AI應(yīng)用的交付、部署和應(yīng)用更為高效便捷，能在任何一家已使用衛(wèi)寧WiNEX系統(tǒng)的醫(yī)院迅速上崗。

　　第五代至強® 可擴展處理器每個內(nèi)核均具備AI加速功能，無需添加獨立加速器，即可處理要求嚴(yán)苛的端到端AI工作負(fù)載。英特爾® 矩陣擴展(英特爾® AMX)為矩陣運算的加速提供了強大支持，可支持BFloat16和INT8兩種數(shù)據(jù)類型，完全有能力處理要求嚴(yán)苛的AI工作負(fù)載。

　　相比同樣內(nèi)置AMX的第四代至強® 可擴展處理器，得益于自身在微架構(gòu)和整體性能上的提升，五代® 至強的推理性能提升高達(dá)42%。

　　目前，LLM更多是云端部署，但是由于涉及隱私安全，本地部署LLM的需求也越發(fā)強烈。針對會議摘要、文章總結(jié)等離線場景，百億參數(shù)的LLM就可以完全勝任，CPU的性能就可以運行，成本優(yōu)勢更加明顯，還能降低部署成本。

　　更強通用計算，兼顧AI加速

　　當(dāng)然，AI不是只有大模型，英特爾® 至強® 可擴展處理器除了持續(xù)在CPU加速AI這條路上深耕，也一直在持續(xù)挖掘CPU在通用計算領(lǐng)域的價值。

　　與前一代產(chǎn)品相比，第五代英特爾® 至強® 可擴展處理器有高達(dá)1.84倍的平均性能提升，可在進(jìn)行通用計算時將整體性能提升高達(dá)21%，并在一系列客戶工作負(fù)載中將每瓦性能提升高達(dá)36%。

　　例如制造領(lǐng)域在高度精細(xì)且較為耗時的瑕疵檢測環(huán)節(jié)，部分企業(yè)就復(fù)用了既有的CPU平臺，構(gòu)建了橫跨“云-邊-端”的AI 缺陷檢測方案。為了達(dá)到更好的應(yīng)用效果，在使用計算機視覺方案之外，還可以融入深度學(xué)習(xí)和機器學(xué)習(xí)的技術(shù)，構(gòu)建三者混合模式的方案。

　　星環(huán)科技則基于第五代至強® 可擴展處理器推出了Transwarp Hippo 分布式向量數(shù)據(jù)庫解決方案，實現(xiàn)了約2倍的代際性能提升，可有效滿足大模型時代海量、高維向量的存儲和計算需求。

　　數(shù)據(jù)作為AI三駕馬車之一，其重要性自然不言而喻。除了可用作向量數(shù)據(jù)庫這一種，對于處理數(shù)據(jù)時候可能涉及的邏輯運算、內(nèi)存操作，第五代英特爾® 至強® 可擴展處理器也可以提供充足的支持。它可以將壓縮/解壓縮和數(shù)據(jù)傳輸?shù)荣Y源密集型任務(wù)從CPU內(nèi)核卸載至內(nèi)置的英特爾® 數(shù)據(jù)分析引擎，釋放數(shù)據(jù)分析和數(shù)據(jù)庫運行的時鐘周期，以提高每秒事物處理量，用戶可以在每臺服務(wù)器上擴展容量或運行更多應(yīng)用。

　　結(jié)合第五代英特爾® 至強® 可擴展處理器更快的內(nèi)存和更大的三級緩存，英特爾® 存內(nèi)分析加速器(英特爾® IAA)和英特爾® 數(shù)據(jù)流加速器(英特爾® DSA)能夠在提高查詢吞吐量的同時，進(jìn)行數(shù)據(jù)復(fù)制和轉(zhuǎn)換操作，從而實現(xiàn)內(nèi)存數(shù)據(jù)庫、大數(shù)據(jù)分析和數(shù)據(jù)倉庫的性能提升。

　　AI對隱私計算的需求也在增加，英特爾® 可信域擴展(英特爾® TDX)提供虛擬機(VM)層面的隔離和保密性，從而增強隱私性和對數(shù)據(jù)的管理。在基于英特爾® TDX的機密虛擬機中，客戶機操作系統(tǒng)和虛擬機應(yīng)用被隔離開來，而不會被云端主機、虛擬機管理程序和平臺的其他虛擬機訪問。

　　此外，英特爾還在軟件創(chuàng)新方面持續(xù)發(fā)力，以確�，F(xiàn)有的人工智能框架和應(yīng)用能夠充分發(fā)揮硬件潛力，從而加速行業(yè)的發(fā)展。

　　英特爾提供了完善的人工智能軟件生態(tài)方案和工具鏈，不僅持續(xù)為主流開源框架PyTorch、TensorFlow等貢獻(xiàn)力量，還提供了多種針對英特爾平臺的優(yōu)化插件，如IPEX(Intel® Extension for PyTorch)、ITEX(Intel® Extension for TensorFlow)等，以及xFT(xFasterTransformer)、OpenVINO™ 工具套件等多種優(yōu)化工具。這些技術(shù)可極大地提升AI性能，包括LLM、文字生成圖片Stable Diffusion等，未來的熱門方向——文字生成視頻，同樣能夠從中受益。

　　IPEX配合PyTorch，支持PyTorch框架下90%的主流模型，其中深度優(yōu)化模型有50個以上�？蛻糁灰ㄟ^簡單幾步即可完成BF16混合精度轉(zhuǎn)換，模型即可在保持精度的同時在CPU上高效部署。

　　結(jié)語

　　多年來，英特爾一直不遺余力地進(jìn)行軟硬件創(chuàng)新，為了迎合人工智能時代對算力的渴求，不斷推陳出新，提供更加強大、更加先進(jìn)的CPU處理器和其他硬件方案。

　　CPU運行LLM并不是“癡人說夢”，因為CPU在進(jìn)化一直在進(jìn)行，得益于硬件級創(chuàng)新和借助軟件充分挖掘硬件性能，英特爾為AI時代的算力基礎(chǔ)設(shè)施提供了新的選擇機會。

　　我想客戶和市場也是樂見其成的，畢竟這是一個雙贏的結(jié)果。市場不希望單一的選擇，而是多樣化的選擇。這就像x86的發(fā)展一樣，開放帶來產(chǎn)業(yè)的繁榮。

　　在生成式AI和LLM狂奔的同時，CPU也在與時俱進(jìn)，讓自己適配客戶需求和選擇。依托軟硬件和生態(tài)協(xié)同，CPU正在迎來新的高光時刻，推動人工智能行業(yè)邁向新的高度，展現(xiàn)出無限的潛力與可能性。

免責(zé)聲明：本文僅代表作者個人觀點，與每日科技網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實，對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關(guān)內(nèi)容。

本網(wǎng)站有部分內(nèi)容均轉(zhuǎn)載自其它媒體，轉(zhuǎn)載目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點和對其真實性負(fù)責(zé)，若因作品內(nèi)容、知識產(chǎn)權(quán)、版權(quán)和其他問題，請及時提供相關(guān)證明等材料并與我們聯(lián)系，本網(wǎng)站將在規(guī)定時間內(nèi)給予刪除等相關(guān)處理.

精彩推薦