摘要:未來企業(yè)之間的競(jìng)爭(zhēng)將更加集中在數(shù)據(jù)上,誰能夠更好地利用數(shù)據(jù),誰就有可能在未來的競(jìng)爭(zhēng)中取勝。而看好AI,就應(yīng)該看好向量數(shù)據(jù)庫,這是騰訊云的邏輯。------騰訊云數(shù)據(jù)庫副總經(jīng)理羅云
昨天,騰訊云在北京召開發(fā)布會(huì),宣布重新定義向量數(shù)據(jù)庫,并發(fā)布了國內(nèi)AI原生的向量數(shù)據(jù)庫Tencent Cloud VectorDB。
先來快速了解下騰訊云重新定義向量數(shù)據(jù)庫的思考維度:
圖片來自,發(fā)布會(huì)現(xiàn)場(chǎng)拍攝。
騰訊云提出,向量數(shù)據(jù)庫不僅應(yīng)該支持自然語言查詢,更應(yīng)將AI算法深度融合至計(jì)算層、存儲(chǔ)層和數(shù)據(jù)庫引擎中,從而提升AI原生應(yīng)用的開發(fā)效率。
關(guān)于騰訊云對(duì)向量數(shù)據(jù)庫的重新定義,你有什么看法?在老魚看來,是具有創(chuàng)新性的,該定義把AI與數(shù)據(jù)庫技術(shù)深度融合,涉及到自然語言查詢,以及深度結(jié)合AI的數(shù)據(jù)算子和存儲(chǔ)優(yōu)化,這些都為處理大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)帶來了新的可能性。
此次重新定義的價(jià)值表現(xiàn)在兩個(gè)方面。首先,這提供了一種全新的AI應(yīng)用開發(fā)解決方案。通過自然語言查詢和AI算法的深度結(jié)合,可以極大提高開發(fā)效率。其次,利用存儲(chǔ)優(yōu)化和AI的輔助,可以顯著降低存儲(chǔ)成本并提高數(shù)據(jù)處理效率。
向量數(shù)據(jù)庫及其核心工作原理
在ChatGPT火起來之前,可能90%的吃瓜群眾都不知道向量數(shù)據(jù)庫為何物?如今,如果你還不知道向量數(shù)據(jù)庫,那就out啦。因?yàn),幾乎所有由大語言模型(LLM)驅(qū)動(dòng)的 AI產(chǎn)品或技術(shù)都使用了向量數(shù)據(jù)庫,向量數(shù)據(jù)庫是AI的基礎(chǔ)設(shè)施。
那么,向量數(shù)據(jù)庫究竟是什么?通俗地講,是一種幫助機(jī)器學(xué)習(xí)模型在海量數(shù)據(jù)中找到相似樣本的技術(shù)。這可能聽起來有些抽象,那就讓老魚用一個(gè)例子來解釋一下。
假設(shè)一個(gè)圖書館就是一個(gè)數(shù)據(jù)庫,而書就是數(shù)據(jù)庫中的數(shù)據(jù)。在傳統(tǒng)的數(shù)據(jù)庫中,我們通過書名、作者、出版日期等關(guān)鍵詞去搜索我們想要的書籍。這個(gè)過程類似于我們?cè)跀?shù)據(jù)庫中通過關(guān)鍵詞檢索需要的數(shù)據(jù)。
然而,向量數(shù)據(jù)庫的運(yùn)作機(jī)制又是怎樣的呢?在一個(gè)"向量"圖書館中,假設(shè)你不僅想找到一本特定的書,你還想找到所有和這本書類似的書,例如內(nèi)容、風(fēng)格、主題都相似的書。這在傳統(tǒng)圖書館中可能是一項(xiàng)極具挑戰(zhàn)的任務(wù),因?yàn)檫@需要逐一瀏覽和對(duì)比每一本書的內(nèi)容。
然而,在"向量"圖書館中,每本書都會(huì)被轉(zhuǎn)換成一個(gè)向量,它像書的指紋,包含了書的所有特征信息。然后,我們可以通過計(jì)算這些向量之間的距離或相似度,找到與特定書最相似的其他書籍。這就是向量數(shù)據(jù)庫的核心工作原理。
例如, "I like to eat pizza" 這句話,在我們?nèi)祟惖难壑袠O為簡單,但在計(jì)算機(jī)眼中,它會(huì)被解構(gòu)成每一個(gè)單詞對(duì)應(yīng)的向量。如下:
有趣的是,語義相似的句子會(huì)對(duì)應(yīng)到相似的向量。就像我們經(jīng)常玩的魔方,可以通過轉(zhuǎn)動(dòng)、找到與目標(biāo)向量近似的向量。
在現(xiàn)實(shí)中,向量數(shù)據(jù)庫被廣泛應(yīng)用在AI和機(jī)器學(xué)習(xí)領(lǐng)域,特別是在處理和查詢大量高維向量數(shù)據(jù)的場(chǎng)景,如人臉識(shí)別,語音識(shí)別,商品推薦等等。通過向量數(shù)據(jù)庫,我們可以在海量數(shù)據(jù)中,快速有效地找到相似的向量,從而提高檢索的效率和精度。這種能力不僅極大地推動(dòng)了AI技術(shù)的實(shí)用化,也使得我們的生活變得更加便捷和個(gè)性化。
向量數(shù)據(jù)庫與大模型、生成式人工智能的邏輯關(guān)系
我們?cè)賮砜匆豢聪蛄繑?shù)據(jù)庫與大模型以及生成式人工智能的邏輯關(guān)系。
應(yīng)用開發(fā)者如何使用向量數(shù)據(jù)庫和大模型處理和查詢過程?通常,這個(gè)過程包括文本分割、Embedding轉(zhuǎn)換、向量存儲(chǔ)、問題查詢、向量檢索、最后到大模型的推理。
老魚盡量把復(fù)雜的技術(shù)講得簡單一些,向量數(shù)據(jù)庫就像是一個(gè)擁有極為豐富藏書的圖書館,大模型則好比一位擁有專業(yè)圖書館管理員,總能在海量的書籍中迅速找到讀者所需的信息。而生成式人工智能,就像是一位敏捷的作家,能基于圖書館中已有的信息創(chuàng)作出全新的作品。
騰訊云重新定義了向量數(shù)據(jù)庫的概念,他們認(rèn)為向量數(shù)據(jù)庫不僅是一個(gè)數(shù)據(jù)的存儲(chǔ)庫,同時(shí)也是一種關(guān)鍵的訓(xùn)練工具。
這個(gè)定義的核心在于,向量數(shù)據(jù)庫能顯著提升生成式人工智能的輸出質(zhì)量,同時(shí)拓寬了大模型的時(shí)間和空間邊界,解決了大模型對(duì)于新信息的無知和可能的隱私泄露問題。
眾所周知,現(xiàn)在的大模型,如GPT-4,其訓(xùn)練數(shù)據(jù)截止日期是2021年9月,那么對(duì)于此后的事情,它是一無所知的。然而,向量數(shù)據(jù)庫有能力存儲(chǔ)的信息,從而填補(bǔ)這個(gè)漏洞。
同時(shí),通過在本地存儲(chǔ)向量數(shù)據(jù),向量數(shù)據(jù)庫能有效地防止了大模型可能導(dǎo)致的隱私泄露風(fēng)險(xiǎn),這無疑是今天許多企業(yè)和組織極為關(guān)心的問題。
騰訊云向量數(shù)據(jù)庫能不能打?
評(píng)估一個(gè)向量數(shù)據(jù)庫能不能打,通常需要考量多個(gè)關(guān)鍵因素:性能、可靠性、易用性、擴(kuò)展性、成本效益,以及AI和機(jī)器學(xué)習(xí)的集成等。
1、性價(jià)比:向量數(shù)據(jù)庫應(yīng)當(dāng)保證良好的性能,同時(shí)盡量降低存儲(chǔ)和計(jì)算成本。
2、成熟度與可靠性:一個(gè)高質(zhì)量的向量數(shù)據(jù)庫應(yīng)該提供穩(wěn)定可靠的服務(wù),即使在面臨大規(guī)模并發(fā)查詢時(shí)也能保持高可用性,并且在硬件出現(xiàn)故障時(shí)能夠保證數(shù)據(jù)的持久性。
3、易用性:一個(gè)高質(zhì)量的向量數(shù)據(jù)庫應(yīng)該是簡單易用的,包括簡單快速的數(shù)據(jù)插入、查詢和刪除流程,同時(shí)提供易于理解和使用的API。此外,對(duì)于各種常見的數(shù)據(jù)格式和編程語言的支持也是必要的。
4、AI和機(jī)器學(xué)習(xí)的集成:對(duì)于AI原生向量數(shù)據(jù)庫,其是否能夠深度集成AI和機(jī)器學(xué)習(xí)算法,并提供豐富的AI功能,也是評(píng)價(jià)其成敗的一個(gè)重要指標(biāo)。
……
接下來,讓我們看一下騰訊云Tencent Cloud VectorDB展示的一些核心亮點(diǎn)數(shù)據(jù):
高吞吐:支持10億級(jí)向量檢索規(guī)模, 相比單機(jī)插件式索引規(guī)模提升10倍;具備百萬級(jí)每秒查詢(QPS)的峰值能力;
低延遲:P99響應(yīng)延遲20ms
高可用:基于騰訊集團(tuán)大規(guī)模運(yùn)營積累,日均處理萬億次請(qǐng)求,現(xiàn)網(wǎng)運(yùn)營可用性指標(biāo)達(dá)到99.99%
彈性擴(kuò)展一站式向量檢索數(shù)據(jù)庫 :Embedding+檢索集成方案,數(shù)據(jù)嵌入AI效率提升10倍
向量化能力(embedding):多次獲得權(quán)威機(jī)構(gòu)認(rèn)可,2021年曾登頂MS MARCO榜單第一、相關(guān)成果已發(fā)表于NLP頂會(huì)EMNLPACL。
低成本:將騰訊云向量數(shù)據(jù)庫用于大模型預(yù)訓(xùn)練數(shù)據(jù)的分類、去重和清洗相比傳統(tǒng)方式可以實(shí)現(xiàn)10倍效率的提升,如果將向量數(shù)據(jù)庫作為外部知識(shí)庫用于模型推理,則可以將成本降低2—4個(gè)數(shù)量級(jí)。
……
這些指標(biāo)意味著怎樣的水平?90%的吃瓜群眾可能沒有概念,那就讓我們深入解析一下。
騰訊云數(shù)據(jù)庫副總經(jīng)理羅云接受老魚采訪時(shí),他表示,Tencent Cloud VectorDB在業(yè)界處于已經(jīng)位居第一梯隊(duì)位置,其性能和谷歌的AI檢索引擎相媲美,,遠(yuǎn)超一些開源的解決方案。比如:簡單的FAISS庫應(yīng)用可能在數(shù)十萬到百萬級(jí)別,而插件式+單機(jī)能夠達(dá)到幾百萬,到億級(jí)別就比較少了。
羅云進(jìn)一步表示,Tencent Cloud VectorDB在接入層支持自然語言查詢,在計(jì)算層,通過AI算子替代企業(yè)尋找/調(diào)優(yōu)AI算法,將接入工期從1個(gè)月縮短到3天。在存儲(chǔ)層,融合智能壓縮算法,把向量存儲(chǔ)成本降低50%。
在接受采訪時(shí),羅云還分享了一份有趣的數(shù)據(jù):與傳統(tǒng)流程相比,使用Tencent Cloud VectorDB可以實(shí)現(xiàn)10倍的性能提升。在傳統(tǒng)開發(fā)流程中,AI應(yīng)用的開發(fā)者需要花費(fèi)大量時(shí)間進(jìn)行數(shù)據(jù)處理、模型選取、向量化等步驟。而在Tencent Cloud VectorDB的幫助下,這些步驟可以大大簡化,使開發(fā)者可以在更短的時(shí)間內(nèi)完成工作。
羅云對(duì)向量數(shù)據(jù)庫的市場(chǎng)前景表達(dá)了樂觀的看法,隨著AI技術(shù)的快速發(fā)展,他預(yù)計(jì)向量數(shù)據(jù)庫有望在NoSQL領(lǐng)域或整個(gè)數(shù)據(jù)庫領(lǐng)域占據(jù)重要的位置。
最后,對(duì)于Tencent Cloud VectorDB的目標(biāo)客戶,羅云表示主要是需要使用大模型和處理大量數(shù)據(jù)的企業(yè),特別是那些在AI,機(jī)器學(xué)習(xí),搜索和推薦系統(tǒng)等領(lǐng)域有大量應(yīng)用的公司。
而Tencent Cloud VectorDB的出現(xiàn),無疑為這些企業(yè)提供了一種新的選擇。從性能、可靠性和成本效益來看,Tencent Cloud VectorDB有明顯優(yōu)勢(shì)。那么,騰訊云向量數(shù)據(jù)庫能否吸引大量的企業(yè)用戶,從而改變現(xiàn)有的云數(shù)據(jù)庫市場(chǎng)競(jìng)爭(zhēng)格局,我們拭目以待。
文/老魚
免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與每日科技網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。
本網(wǎng)站有部分內(nèi)容均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),若因作品內(nèi)容、知識(shí)產(chǎn)權(quán)、版權(quán)和其他問題,請(qǐng)及時(shí)提供相關(guān)證明等材料并與我們聯(lián)系,本網(wǎng)站將在規(guī)定時(shí)間內(nèi)給予刪除等相關(guān)處理.
精彩推薦
-
采購拿回扣問題,教你一個(gè)小妙招,看看怎么做!
2017-09-18 11:09 廣告 閱讀
-
苦逼的老板,教你一個(gè)小妙招,怎么防采購拿回扣!
2017-09-18 11:09 廣告 閱讀
-
廣告商城平臺(tái)化:傳播易做大做強(qiáng)已成趨勢(shì)
2020-11-17 14:32:12 更新 閱讀
-
尖貨爆料!速來【數(shù)碼預(yù)爆臺(tái)】領(lǐng)取618福利和AI新
2024-06-21 18:33:22 更新 閱讀
-
喜獲國際設(shè)計(jì)大獎(jiǎng)丨十字勛章減重大師Pro商務(wù)背包
2024-06-12 14:04:28 更新 閱讀
-
Baseus倍思音頻品鑒會(huì):一場(chǎng)產(chǎn)品與技術(shù)的對(duì)話
2024-05-29 11:13:32 更新 閱讀
-
212攜手極致軍工品質(zhì),煥新出發(fā)
2024-05-22 21:16:00 更新 閱讀
-
第四屆全球應(yīng)用算法BPAA大賽再度升級(jí),增添三大
2024-05-17 17:55:36 更新 閱讀
-
三維天地助力實(shí)驗(yàn)室質(zhì)量管理工作無紙化、流程化
2024-05-09 15:35:04 更新 閱讀