本项目仍处于开发阶段,目前发布的是供预览的测试版本,模型效果还在优化中。
本项目主要内容:
- 🚀 基于Chinese-LLaMA-Alpaca的多模态模型VisualCLA,具备多模态指理解和对话能力
- 🚀 提供了推理代码和基于Gradio/Text-Generation-WebUI的部署脚本
- 🚀 展示了模型在多模态指令理解任务上的效果,并开放了翻译的测试集
- 🚀 目前开源版本: VisualCLA-7B-v0.1(测试版)
Visual-Chinese-LLaMA-Alpaca(VisualCLA)是一个支持图像和文本输入的中文多模态模型。VisualCLA在中文Alpaca模型的基础上,添加了图像编码模块,使中文Alpaca模型能理解视觉信息。
VisualCLA由Vision Encoder、Resampler和LLM三部分组成:
Vision Encoder:采用ViT结构,对输入图像编码,得到图像的序列表示。发布的VisualCLA模型采用了CLIP-ViT-L/14作为图像编码器的结构和初始化权重。
Resampler:采用6层的类BERT结构,其结构与功能类似于Flamingo中的Perceiver Resampler或BLIP-2中的Q-Former,通过可训练的query向量对图像表示进行重采样,减小图像表示的长度。然后,通过线性层将图形表示对齐到LLM的维度。该部分的参数从头开始训练。
LLM:采用LLaMA模型,并使用Chinese-Alpaca-Plus 7B初始化。
图像经过Vision Encoder编码,通过Resampler映射为固定长度的表示。随后,将图像和文本表示拼接后送入LLM。LLM根据图像和文本指令生成结果。
训练策略
与Chinese-LLaMA-Alpaca类似,VisualCLA采用LoRA对模型进行高效精调。可训练参数包括图像编码器的LoRA参数,LLM的LoRA参数以及Resampler的全部参数。可参考模型结构图中的说明。训练过程分为两个阶段:
多模态预训练:采用中文图文对数据训练,模型根据图像生成对应的文本描述(caption)。 多模态指令精调:基于上一步得到的模型,在由多种有监督任务数据构建的多模态指令数据集上精调。数据集中包括视觉问答、视觉推理、开放域问答、OCR等任务类型。同时也混入了一部分纯文本指令数据,弥补多模态数据的不足以及缓解遗忘指令跟随能力。该阶段使用了与Chinese-Alpaca模型相同的指令模版。
官网
软件收集于互联网和粉丝上传,仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。
本站信息来自网络和网友,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。
本站如果侵犯你的利益,请务必携带权利证明请发送邮箱到doraera@163.com ,我们会第一时间为您处理。
[…] 地址:Visual-Chinese-LLaMA-Alpaca – 哆啦时代 (duoyoo.net) […]