據(jù)外媒,知名機器學(xué)習(xí)公司OpenAI近日推出兩套多模態(tài)人工智能系統(tǒng)模型DALL-E和CLIP,DALL-E可以基于文本直接生成圖像,CLIP能夠完成圖像與文本類別的匹配。DALL-E可以將以自然語言形式表達的大量概念轉(zhuǎn)換為恰當(dāng)?shù)膱D像,并使用了GPT-3同樣的方法,只不過DALL-E將其應(yīng)用于文本-圖像對。
另一個神經(jīng)網(wǎng)絡(luò)CLIP能夠執(zhí)行一系列視覺識別任務(wù)。給出一組以語言形式表述的類別,CLIP能夠立即將一張圖像與其中某個類別進行匹配,而且它不像標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)那樣需要針對這些類別的特定數(shù)據(jù)進行微調(diào)。在ImageNet基準(zhǔn)上,CLIP的性能超過ResNet-50,在識別不常見圖像任務(wù)中的性能遠超ResNet。
雖然CLIP在識別常見對象時往往表現(xiàn)良好,但在計算圖像中對象數(shù)量等更抽象或更系統(tǒng)的任務(wù),以及預(yù)測照片中最靠近車輛間的距離等更復(fù)雜任務(wù)上的表現(xiàn)不佳。在這兩項任務(wù)上,zero-shotCLIP的效果也只比隨機猜測好一點。
責(zé)任編輯:YYX