Ferret 是 Apple 开发的创新型多模态大语言模型 (MLLM)。它旨在在图像理解和语言处理任务方面表现出色,特别注重理解空间参考。
Ferret 的主要功能是它能够以图像中任何粒度的任何位置引用和研磨任何内容。这意味着 Ferret 可以根据自然语言指令准确识别和定位图像中的特定物体、区域甚至细粒度细节。
为了实现此功能,Ferret 采用了结合了离散坐标和连续特征的混合区域表示。这种独特的方法使 Ferret 能够以统一的方式表示和理解图像中的区域。
此外,Ferret 接受了名为 GRIT 的综合参考和地面指令调整数据集的训练。该数据集包含大量涵盖各种空间知识层次的样本,使 Ferret 能够学习和理解不同类型的空间参考。
Ferret 的评估证明了其在经典参考和接地任务中的卓越性能。它在基于区域和本地化需求的多模式聊天方面优于现有的 MLLM。此外,Ferret 在描述图像细节和减少物体幻觉方面显示出显着的进步。
要了解有关 Ferret 及其在引用和接地方面的高级功能的更多信息,您可以访问由Haoxuan You 和其他作者撰写的题为“Ferret: Refer and Ground Anything Anywhere at Any Granularity”的完整论文,网址为 此链接。
如果您无法正常访问官网,可能是您的网络基础!
<小时/>