苹果公司工作的研究人员和来自哥伦比亚大学的研究人员在10月份悄然推出了开源多模态 LLM,这是一个名为"Ferret"的研究版本,可以使用图像区域进行查询。Ferret 于 10 月份在 Github 上发布,在很大程度上没有引起人们的注意,也没有发布任何公开发布或宣传操作。Ferret 的代码于 10 月 30 日与 Ferret-Bench 一起发布,并于 12 月 14 日推出了检查点版本。
该模型可以分析图像上绘制的区域,确定其中对用户查询有用的元素,并将其识别出来,在检测到的元素周围绘制一个边界框。然后,它就可以将识别出的元素用作查询的一部分,并以典型的方式作出响应。
从 Github 发布的信息中可以发现一个有趣的现象,Reddit 的 r/Apple 发现 Ferret 是"在 8 个 A100 GPU 和 80GB 内存上进行训练的"。鉴于苹果对 NVIDIA GPU 支持的历史,这被认为是对 GPU 生产商的罕见认可。
#免责声明#
①本站部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责。
②若您需要商业运营或用于其他商业活动,请您购买正版授权并合法使用。
③如果本站有侵犯、不妥之处的资源,请联系我们。将会第一时间解决!
④本站部分内容均由互联网收集整理,仅供大家参考、学习,不存在任何商业目的与商业用途。
⑤本站提供的所有资源仅供参考学习使用,版权归原著所有,禁止下载本站资源参与任何商业和非法行为,请于24小时之内删除!