包含"视觉大模型"标签的文章

  • 超越CLIP 视觉大模型训练新范式

      ​​https,github.com,OpenGVLab,LCL​​视觉backbone的数据瓶颈CLIP是第一个连接图像和文本的基础模型,但在大模型时代,仅凭对比学习的监督,已经不足够让下游视觉,语言模型,VLM,取得足够好的性能,尤其是在OCR等细粒度、高分辨率视觉任务上,而且这类方法通常要求图...

    2024-11-15 435
  • 视觉大模型在具身智能上还有很长的路要走! Meta推出开放世界具身问答数据集OpenEQA

      想象一个实体化的AI代理,充当家庭机器人的大脑或时尚的智能眼镜,这样的代理需要利用视觉等感知模态来理解周围环境,并能够用清晰、日常语言有效地与人交流,这类似于构建,世界模型,,即代理对外部世界的内部表示,可以通过语言查询,这是一个长期愿景和一个艰巨的研究挑战——Meta正在积极探索,近日,Meta发...

    2024-11-15 910

联系我们

QQ号:***

微信号:***

工作日:9:30-18:30,节假日休息