- 视觉GLM-6B
地址:VisualGLM-6B – 哆啦时代 (duoyoo.net)
简介:一个开源的多模态对话语言模型,支持图像、中文和英文。该语言模型基于ChatGLM-6B,拥有62亿个参数。图像部分通过训练BLIP2-Qformer在视觉模型和语言模型之间架起一座桥梁。整体模型共有78亿个参数。依靠 CogView 数据集中的 3000 万个高质量中文图文对和 3 亿个经过筛选的英文图文对进行预训练。
- 可见每千次展示费用
简介:开源的多模态大模型系列,支持双语多模态对话能力(VisCPM-Chat模型)和文本转图像生成能力(VisCPM-Paint模型)。 VisCPM 在数百亿参数的大型语言模型 CPM-Bee(10B)上进行训练,并集成了视觉编码器(Q-Former)和视觉解码器(Diffusion-UNet),支持视觉输入和输出信号。得益于CPM-Bee库优秀的双语能力,VisCPM只需通过英文多模态数据预训练就能泛化并实现优秀的中文多模态能力。
- 视觉中国-LLaMA-羊驼
地址:Visual-Chinese-LLaMA-Alpaca – 哆啦时代 (duoyoo.net)
简介:基于中国LLaMA&Alpaca大型模型项目开发的多模态中国大型模型。 VisualCLA在中文LLaMA/Alpaca模型上添加了图像编码等模块,使得LLaMA模型能够接收视觉信息。在此基础上,利用中文图文对数据进行多模态预训练,对齐图像和文本表示,赋予其基本的多模态理解能力;多模态指令的理解、执行和对话能力目前开源VisualCLA-7B-v0.1。
- LLaSM
简介:首个开源商用的支持中英文双语语音文本多模态对话的对话模型。便捷的语音输入将极大改善使用文本输入的大型模型的体验,同时避免基于 ASR 的解决方案带来的繁琐过程和可能引入的错误。目前LLaSM-Chinese-Llama-2-7B、LLaSM-Baichuan-7B等模型和数据集已开源。
软件收集于互联网和粉丝上传,仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。
本站信息来自网络和网友,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。
本站如果侵犯你的利益,请务必携带权利证明请发送邮箱到doraera@163.com ,我们会第一时间为您处理。