該項目使用了一種名為句子嵌入的簡單對比學(xué)習(xí)(SimCSE)的自然語言處理模型。SimCSE是一個高性能模型,它創(chuàng)建向量表示*1來掌握文檔和其他文本的含義。該模型能夠計算不同文本之間的高精度語義相似度,有望在信息檢索和問答系統(tǒng)等領(lǐng)域得到應(yīng)用。
對于這個項目,兩家公司將基于專利數(shù)據(jù)庫對SimCSE模型進行預(yù)培訓(xùn),以矢量化專利數(shù)據(jù)文檔,從而可以高精度地找到類似的專利。這些公司已經(jīng)成功地利用張量網(wǎng)絡(luò)*2技術(shù)對SimCSE模型的數(shù)據(jù)進行了高效壓縮。
該模型有望在專利檢索和三井化學(xué)產(chǎn)品新應(yīng)用的搜索等領(lǐng)域得到實際應(yīng)用。
拓展閱讀: