Meta 发布 Llama 3.2 多模态 AI 模型
Meta 今天发布了 Llama 3.2 系列开源模型,其中包括小型和中型视觉 LLMs(11B 和 90B),以及适合边缘和移动设备的小型纯文本模型(1B 和 3B),包括预训练和指令调整版本。 LLaMA 3.2 支持同时处理文本、图像和视频,能够理解并生成跨媒体内容。例如,用户可以在同一交互中结合文字和图像。 官方的评估结果显示,Llama 3.2 视觉模型在图像识别和一系列视觉理解任务上与 Claude 3 Haiku 和 GPT4o-mini 的性能相当。 Llama3.2-3B 文本模型在循指令、总结、提示重写和工具使用等任务上优于 Gemma 2 2.6B 和 Phi 3.5-mini 模型。 多模态模型 Llama3.2的11B和90B模型多模态是基于Llama3.1-8B、70B文本模型上,增量增加图像模型。 pretrain阶段: 文本模块由Llama3.1模型初始化,并初始化图像编码器,利用大规模噪声(图像、文本、6B数据对)对数据进行预训练 再用中等规模的高质量的领域、知识增强的(图像、文本、3M数据对)数据预训练。 posting-train阶段: 通过监督微...




