近幾個月來,生成式人工智能憑借其創(chuàng)造獨特的文本、聲音和圖像的能力引起了人們的極大興趣。但生成式人工智能的力量并不局限于創(chuàng)造新的數(shù)據(jù)。
生成式人工智能的底層技術(例如Transformer和擴散模型)可以為許多其他應用提供動力,其中包括信息的搜索和發(fā)現(xiàn)。特別是,生成式人工智能可以徹底改變圖像搜索,使人們能夠以以前不可能的方式瀏覽視覺信息。
以下是人們需要知道的關于生成式人工智能如何重新定義圖像搜索體驗的內(nèi)容。
圖像和文本嵌入
傳統(tǒng)的圖像搜索依賴于圖像附帶的文本描述、標記和其他元數(shù)據(jù),這將用戶的搜索選項限制為已經(jīng)明確附加到圖像中的信息。上傳圖像的人必須認真考慮輸入的搜索查詢類型,以確保他們的圖像被他人發(fā)現(xiàn)。而在搜索圖像時,查詢信息的用戶必須嘗試想象圖像上傳者可能在圖像中添加了什么樣的描述。
俗話說,“一圖勝千言”。對于圖像的描述來說,可以編寫的內(nèi)容是有限的。當然,根據(jù)人們查看圖像的方式,可以采用很多方式進行描述。而人們有時根據(jù)圖中的物體進行搜索,有時根據(jù)風格、光線、位置等特征搜索圖像。不幸的是,圖像很少伴隨著如此豐富的信息。很多人上傳的許多圖像幾乎沒有附帶任何信息,這使得它們很難在搜索中被發(fā)現(xiàn)。
這就是人工智能圖像搜索發(fā)揮重要作用的地方。人工智能圖像搜索有不同的方法,不同的公司有自己的專有技術。然而,有些技術是這些公司所共有的。
人工智能圖像搜索以及許多其他深度學習系統(tǒng)的核心是嵌入,嵌入是不同數(shù)據(jù)類型的數(shù)值表示。例如,512×512分辨率的圖像包含大約26萬個像素(或特征)。嵌入模型試圖通過對數(shù)百萬張圖像進行訓練來學習視覺數(shù)據(jù)的低維表示。圖像嵌入可以有許多有用的應用,包括壓縮圖像、生成新圖像或比較不同圖像的視覺屬性。
同樣的機制適用于文本等其他形式。文本嵌入模型是文本摘錄內(nèi)容的低維表示。文本嵌入有許多應用,包括用于大型語言模型(LLM)的相似性搜索和檢索增強。