是否可以直接创建图像嵌入(无需额外的文本)并将它们存储在数据库中?目的是通过前端的文本输入,使用相似性搜索来查找图像的内容。这是可行的吗?
理想情况下,我不想使用任何OCR技术,而是直接嵌入图像。
回答:
你有研究过多模态嵌入模型吗?
一个商业选项是亚马逊的Titan多模态嵌入G1模型。另一个是Coheres Embed,它也是多模态的。
在Huggingface上也有开源选项 – 例如可以参考这里。
是否可以直接创建图像嵌入(无需额外的文本)并将它们存储在数据库中?目的是通过前端的文本输入,使用相似性搜索来查找图像的内容。这是可行的吗?
理想情况下,我不想使用任何OCR技术,而是直接嵌入图像。
回答:
你有研究过多模态嵌入模型吗?
一个商业选项是亚马逊的Titan多模态嵌入G1模型。另一个是Coheres Embed,它也是多模态的。
在Huggingface上也有开源选项 – 例如可以参考这里。