【搬运】VLM简短综述 视觉语言模型:基本认识[TOC] 1. 定义和讨论范围定义:“Vision Language Models or VLMs are AI models that use both images and textual data to perform tasks that fundamentally need both of them.” VLM 隶属于 AI 模型,这类 AI 模型使用图像或文本 2025-06-26 #多模态大模型 #综述
QwenVL系列多模态模型学习笔记-第3篇 第二代 Qwen2-VL 应用案例模型下载 —— 基于魔塔社区本次 Qwen2-VL 开源了两个尺寸的模型,Qwen2-VL-2B-Instruct 和 Qwen2-VL-7B-Instruct,以及其 GPTQ 和 AWQ 的量化版本。 模型链接: Qwen2-VL-2B-Instruct:https://www.modelscope.cn/models/qwen/Qwen2-VL-2B-Ins 2025-06-25 #多模态大模型 #Qwen-VL
QwenVL系列多模态模型学习笔记-第2篇 第二代 Qwen2-VL 2024.09-2024.10 参考网页: 【多模态大模型】Qwen2-VL解剖 Qwen2-VL技术解析(二)- M-ROPE 引入原生动态分辨率(Naive Dynamic Resolution, NDR)机制 —— 实现了对任意分辨率图像/视频的灵活处理。 设计多模态旋转位置嵌入(Multimodal Rotary Position Embedding 2025-06-25 #多模态大模型 #Qwen-VL
QwenVL系列多模态模型学习笔记_第1篇 第一代 Qwen-VL 2023.08-2023.10 参考: Qwen-VL看这一篇就够了 当时大多数的 LVLMs 都是以粗粒度的方式感知图像,缺乏图像细粒度感知的能力(包括目标定位和文本读取等)。基于当时的问题,Qwen 团队引入了一个新的视觉编码器和位置感知适配器,并且设计了一个三阶段训练的流程用于优化 Qwen-VL 模型。Qwen-VL 的特点:性能领先、支持多语言、支持任意交错的 2025-06-25 #多模态大模型 #Qwen-VL