Visual-Chinese-LLaMA-Alpaca

本项目仍处于开发阶段，目前发布的是供预览的测试版本，模型效果还在优化中。

本项目主要内容：

🚀 基于Chinese-LLaMA-Alpaca的多模态模型VisualCLA，具备多模态指理解和对话能力
🚀 提供了推理代码和基于Gradio/Text-Generation-WebUI的部署脚本
🚀 展示了模型在多模态指令理解任务上的效果，并开放了翻译的测试集
🚀 目前开源版本： VisualCLA-7B-v0.1（测试版）

Visual-Chinese-LLaMA-Alpaca（VisualCLA）是一个支持图像和文本输入的中文多模态模型。VisualCLA在中文Alpaca模型的基础上，添加了图像编码模块，使中文Alpaca模型能理解视觉信息。

VisualCLA由Vision Encoder、Resampler和LLM三部分组成：

Vision Encoder：采用ViT结构，对输入图像编码，得到图像的序列表示。发布的VisualCLA模型采用了CLIP-ViT-L/14作为图像编码器的结构和初始化权重。

Resampler：采用6层的类BERT结构，其结构与功能类似于Flamingo中的Perceiver Resampler或BLIP-2中的Q-Former，通过可训练的query向量对图像表示进行重采样，减小图像表示的长度。然后，通过线性层将图形表示对齐到LLM的维度。该部分的参数从头开始训练。

LLM：采用LLaMA模型，并使用Chinese-Alpaca-Plus 7B初始化。

图像经过Vision Encoder编码，通过Resampler映射为固定长度的表示。随后，将图像和文本表示拼接后送入LLM。LLM根据图像和文本指令生成结果。

训练策略

与Chinese-LLaMA-Alpaca类似，VisualCLA采用LoRA对模型进行高效精调。可训练参数包括图像编码器的LoRA参数，LLM的LoRA参数以及Resampler的全部参数。可参考模型结构图中的说明。训练过程分为两个阶段：

多模态预训练：采用中文图文对数据训练，模型根据图像生成对应的文本描述（caption）。多模态指令精调：基于上一步得到的模型，在由多种有监督任务数据构建的多模态指令数据集上精调。数据集中包括视觉问答、视觉推理、开放域问答、OCR等任务类型。同时也混入了一部分纯文本指令数据，弥补多模态数据的不足以及缓解遗忘指令跟随能力。该阶段使用了与Chinese-Alpaca模型相同的指令模版。

官网

https://github.com/airaria/Visual-Chinese-LLaMA-Alpaca

软件收集于互联网和粉丝上传，仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。

本站信息来自网络和网友，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。

本站如果侵犯你的利益，请务必携带权利证明请发送邮箱到doraera@163.com ，我们会第一时间为您处理。

{{userData.name}}已认证

Visual-Chinese-LLaMA-Alpaca

VisCPM

LLaSM

李跳跳派大星正式版[2.2]

PS 2024软件体验

书生·浦语

微软公布Office套件中尚未修复的安全漏洞补丁将在下周二发布

[WIN]开源虚拟显示器工具:Easy Virtual Display

WINDOWS 12系统概念版 iSO 镜像下载

{{userData.name}}已认证

相关文章：

VisCPM

LLaSM

BiLLa

MOSS

BayLing

Stable Diffusion