感知类总榜单,是将各项感知任务综合起来的总评分,显示是BLIP-2最高:
认知类总榜单,则是各种涉及认知类任务的榜单,加起来是MiniGPT-4最高:
一、LLaVA-1.5(浙大实验室》:LLaVA
二、ImageBind:(meta)
https://imagebind.metademolab.com/
https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf
https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/
https://github.com/facebookresearch/ImageBind
三、Yi-VL (零一万物)
[1]https://huggingface.co/01-ai
[2]https://www.modelscope.cn/organization/01ai
四、isualGLM-6B(智普AI):ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。
GitHub - THUDM/VisualGLM-6B: Chinese and English multimodal conversational language model | 多模态中英双语对话语言模型