Mistral开源首个多模态大模型—Pixtral 12B

添加书签

AIGC开放社区
2024-09-12

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

法国著名开源大模型平台Mistral AI开源了，首个能够同时处理图像和文本的多模态大模型——Pixtral 12B。

Mistral AI开源的方式依然非常简单粗暴，直接上磁力链接，把所有模型权重都放出来了。

「AIGC开放社区」已经试验了一下，大小在23.64G左右，这个在多模态模型中属于比较小的了，估计能耗和部署方面会方便很多。

下载速度也是满载状态，说明这个模型还是相当受欢迎。如果你是千M光纤，估计几分钟就下完了。

不少网友对Mistral AI开源的新模型相当满意，再一次拉动了大模型开源领域向多模态进军。

Mistral刚刚发布了一个24G的重磅炸弹，迫不及待想看看这个多模态野兽能干点啥啦。

据悉，Pixtral有120亿参数，是在Mistral的一个文本模型Nemo 12B基础之上开发而成，与Anthropic的Claude系列和OpenAI的GPT-4o等其他多模态模型类似，能理解、回答任意大小图像的问题。

架构方面，40层、14,336个隐藏维度大小和32个注意力头，配备了400M的专用视觉编码器，支持1024×1024图像尺寸和 24个隐藏层的高级图像处理。词汇量大，其词汇表中大约有 13万个独特的标记，可实现细致入微的语言理解和生成。

此外，根据数据评测显示，Pixtral 12B在MMMU、Mathvista、ChartQA、DocVQA基准测试平台的数据比Phi-3、 Qwen-2 7B等知名多模态模型更好。

模型权重下载地址：magnet:?xt=urn:btih:7278e625de2b1da598b23954c13933047126238a&dn=pixtral-12b-240910&tr=udp%3A%2F%http://2Ftracker.opentrackr.org%3A1337%2Fannounce&tr=udp%3A%2F%http://2Fopen.demonii.com%3A1337%2Fannounce&tr=http%3A%2F%http://2Ftracker.ipv6tracker.org%3A80%2Fannounce

huggingface地址：https://huggingface.co/mistral-community/pixtral-12b-240910

END