超GPT-4o,1240亿参数!最强开源多模态模型 Pixtral Large!

8个月前 科技 62观看
摘要图片来源:由无界AI生成今天凌晨,法国著名开源大模型平台Mistral.ai,开源了超大多模态模型——Pixtral Large。Pixtral Large有1240亿参数,支持128K上下文,能理解文本、图表、图像等,也是Mistral.ai自家聊天助手 le Chat目前


xtL喜好网-记录每日喜好的科技时尚娱乐生活

图片来源:由无界AI生成图片来源:由无界AI生成

今天凌晨,法国著名开源大模型平台Mistral.ai,开源了超大多模态模型——Pixtral Large。xtL喜好网-记录每日喜好的科技时尚娱乐生活

Pixtral Large有1240亿参数,支持128K上下文,能理解文本、图表、图像等,也是Mistral.ai自家聊天助手 le Chat目前正在使用的视觉模型。支持中文、法文、英文等十多种主流语言。xtL喜好网-记录每日喜好的科技时尚娱乐生活

根据测试数据显示,Pixtral Large在MMMU、MathVista、ChartQA、DocVQA、VQAv2等基准测试的数据,超过了GPT-4o、Gemini-1.5 Pro、Claude-3.5 Sonnet、Llama-3.2 90B,成为目前最强的开源多模态模型。xtL喜好网-记录每日喜好的科技时尚娱乐生活

同时,Mistral.ai还发布了一个免费的支持PDF理解、网络搜索、Canvas、AI Agent、图片生成的多模态AI助手——le Chat。xtL喜好网-记录每日喜好的科技时尚娱乐生活

开源地址:https://huggingface.co/mistralai/Pixtral-Large-Instruct-2411xtL喜好网-记录每日喜好的科技时尚娱乐生活

Pixtral Large简单介绍

Pixtral Large是基于Mistral Large 2 开发而成,有1230亿参数多模态解码器和10亿参数视觉编码器xtL喜好网-记录每日喜好的科技时尚娱乐生活

多模态解码器是Pixtral Large的核心,主要负责整合和处理来自视觉编码器的图像信息以及文本数据。这个庞大的参数量使得解码器能够捕捉到复杂的模式和关系,无论是在文本中的长距离依赖还是在图像中的细节,实现高质量的图像描述、视觉问答和文档理解等。xtL喜好网-记录每日喜好的科技时尚娱乐生活

而10亿参数的视觉编码器则是Pixtral Large处理图像数据的关键。这个编码器专门设计用于将图像转换为模型可以理解的高维特征表示。xtL喜好网-记录每日喜好的科技时尚娱乐生活

通过这种方式,Pixtral Large能够理解图像中的视觉元素,并将这些信息与文本数据结合起来,以产生更丰富的上下文理解和更准确的任务执行。xtL喜好网-记录每日喜好的科技时尚娱乐生活

在技术层面,Pixtral Large的视觉编码器采用了先进的变换器架构,能够有效地处理不同分辨率和宽高比的图像。这种灵活性对于处理现实世界中的图像至关重要,因为这些图像的尺寸和形状千差万别。此外,视觉编码器还采用了自注意力机制,模型能够在处理图像时考虑到全局上下文,而不仅仅是局部特征。xtL喜好网-记录每日喜好的科技时尚娱乐生活

Pixtral Large的多模态解码器则进一步将这些视觉特征与文本信息结合起来。通过这种方式,模型不仅能够理解图像中的内容,还能够理解这些内容如何与文本数据相互作用和关联,它允许模型在处理多模态输入时动态地调整其关注点。xtL喜好网-记录每日喜好的科技时尚娱乐生活

此外,Pixtral Large还采用了一种新颖的序列打包技术,这使得模型能够在单个批次中高效地处理多张图像。通过构建块对角掩码来确保不同图像之间的特征不会相互干扰,从而提高了模型处理多图像数据的效率和准确性。xtL喜好网-记录每日喜好的科技时尚娱乐生活

在长上下文窗口方面,Pixtral Large拥有128K的上下文窗口,这使得模型能够处理大量的文本和图像数据。这对于理解和总结长篇文档或处理包含多个图像的复杂场景至关重要。长上下文窗口确保了模型能够在处理这些复杂任务时保持信息的连贯性和完整性xtL喜好网-记录每日喜好的科技时尚娱乐生活

le Chat介绍

今天凌晨,Mistral.ai还对他们的类ChatGPT助手le Chat进行了重磅更新。xtL喜好网-记录每日喜好的科技时尚娱乐生活

在这次更新中,Le Chat引入了网络搜索和引用功能,用户可以直接在聊天界面中搜索互联网上的最新信息,并获取带有引用链接的答案。对于学生和专业人士来说非常有帮助,可以在准备研究报告或学术论文时,快速准确地获取资料和数据。xtL喜好网-记录每日喜好的科技时尚娱乐生活

Le Chat还推出了一个全新的Canvas功能,支持想法的构思允许内联编辑和导出,极大地提高了创意工作的效率。用户可以在Canvas上进行头脑风暴、编辑内容,并将其导出为各种格式,方便进一步使用。xtL喜好网-记录每日喜好的科技时尚娱乐生活

现在Le Chat也能够处理大型、复杂的PDF文档和图像,得益于最新的多模态模型Pixtral Large,能够分析和总结文档中的图表、表格、图示、文本、公式和方程等内容。例如,它可以轻松解析著名的量子纠缠论文,展示出信息提取、总结和语义理解的强大能力。xtL喜好网-记录每日喜好的科技时尚娱乐生活

Le Chat还与Black Forest Labs合作,整合了领先的图像生成技术Flux Pro,使用户可以直接在Le Chat中生成高质量的图像。这一功能特别适用于创意设计和营销领域,用户可以快速生成符合需求的图像,提高工作效率。xtL喜好网-记录每日喜好的科技时尚娱乐生活

此外,Le Chat还提供了AI Agent功能。用户可以将特定类型的工作流程编码为 Agent,然后发布并与团队成员共享,实现更高效的工作流管理和自动化操作。常见的使用场景包括收据扫描、费用报告、会议纪要的总结和发票处理等。xtL喜好网-记录每日喜好的科技时尚娱乐生活

在性能提升方面,Le Chat通过投机性编辑技术,显著提高了响应速度,用户可以更快地获得高质量的回答和建议,提高了整体的工作效率。同时,Le Chat提供了一个从模型到输出的完全集成平台,用户可以在一个平台上完成所有的多模态任务,无需在多个工具之间切换,简化了工作流程。xtL喜好网-记录每日喜好的科技时尚娱乐生活

体验地址:https://chat.mistral.ai/chat(没锁区直接访问)xtL喜好网-记录每日喜好的科技时尚娱乐生活

大模型
展开全文
猜你感兴趣
消息称抖音正推进“V”项目,包括直播游戏互动、AI 分身功能等

消息称抖音正推进“V”项目,包括

11 月

11-19 110阅读
比亚迪成全球首家达成第1000万辆新能源汽车下线车企

比亚迪成全球首家达成第1000万辆

11月1

11-19 123阅读
雷军再回应小米SU7 Ultra车模难抢:行业自动化程度较低,产能严重不足

雷军再回应小米SU7 Ultra车模难

11 月

11-19 115阅读
看懂小米2024年Q3财报:史上强 手握现金1516亿元

看懂小米2024年Q3财报:史上强 手

11月18日

11-19 114阅读
年入上百亿,海尔旗下独角兽终止IPO

年入上百亿,海尔旗下独角兽终止IP

今年

11-19 112阅读
安倍遇刺事件的态度问题(安倍遇刺事件的态度问题)

安倍遇刺事件的态度问题(安

安倍遇刺事件的态度问题 刘明

11-19 107阅读
电影《朝花夕拾》将映   张珊萌担任制片人及主演

电影《朝花夕拾》将映

  “积谷防饥,养儿防老”,关注乡村“

11-19 108阅读
《芝麻胡同》郭秉惠人设崩了?她竟嫌弃起杏儿的出身

《芝麻胡同》郭秉惠人设崩

《芝麻胡同》中郭秉惠前期是一个

11-19 100阅读
李子柒被质疑漆器做假,发出过敏照片力证,全身红肿成“电视机”

李子柒被质疑漆器做假,发出

2024年11月12日停更长达三年的李子柒

11-19 126阅读
《角斗士2》横扫国际票房

《角斗士2》横扫国际票房

《角斗士2》在欧

11-19 105阅读
《这是我的战争》10周年纪念 最新慈善DLC即将登场

《这是我的战争》10周年纪

「妄想欢庆」——《这是我的战争》10周

11-19 135阅读
不能现实换钱的新型NFC?《宝可梦卡牌P》再创新热潮

不能现实换钱的新型NFC?《

近期《宝可梦卡牌P》APP正式推出,引发

11-19 128阅读
《星空》DLC差评托德后悔:不该太早更新地面载具

《星空》DLC差评托德后悔:

《星空:破碎空间》DLC 发布后,玩家给出

11-19 101阅读
重装机兵3大破坏密码大全_重装机兵3所有密码一览

重装机兵3大破坏密码大全_

大破坏密码是《重装机兵3》游戏里面用

11-19 381阅读
金庸群侠传3加强版古墓路线全流程详细攻略

金庸群侠传3加强版古墓路

金庸群侠传3游戏里面玩家可以自由选择

11-19 175阅读