本文经自动驾驶之心公众号授权转载,转载请联系出处。
大家好,我是戚张扬,目前就读于香港大学,今天和大家分享一篇我们关于视觉语言模型最新的研究,这篇论文提供了对谷歌的Gemini和OpenAI的GPT-4V(ision)两个SOTA模型的深入定性比较研究。我们的研究涉及到对这两个模型在视觉语言能力、与人类的互动、时间理解以及智力和情感智商等关键维度上的多方面评估。完整的例子和论文请见Arxiv Paper (115 pages)。
论文链接:https://arxiv.org/abs/2312.15011
我们的目标是澄清Gemini的输入模式。GPT-4V的输入模式支持连续摄入多个图像作为上下文,因此具有增强的记忆能力。然而,对于Gemini,它的独特属性体现在以下几个方面:
第节到第节 将多模态评估分为五个方面。第一级涉及对图像及其中文本的基本识别。第二级超越了识别,需要进一步的推理和推断。第三级包括多模态理解和涉及多个图像的推理。
第节到第节 评估了三项专业任务的性能,即对象定位、时间理解和多语言理解。
第节 展示了多模态大型模型的各种应用场景。我们旨在向行业展示更多可能性,提供创新的思路。可以根据特定领域的需求定制多模态大型模型。在这里,我们展示了七个子领域:
对图像内容的基本识别和理解,不涉及进一步的推理,包括识别地标、食物、标志、抽象图像、自动驾驶场景、虚假信息检测、发现差异和物体计数等任务。属于第一层最为基本的任务。一共有9个小节。
这里是测试模型基础的物体识别和描述能力。GPT-4V和Gemini都能够准确识别基本物体并根据需要提供文本描述,并无显著差异。
虽然这两个模型都擅长准确识别地标,但GPT-4V生成简洁的描述,而Gemini在旅游景点甚至室内倾向于提供更详细的叙述。甚至给出相应的景点其他图片和相关资料链接。
这两个模型都展现出识别广泛种类的菜肴的能力,扩展了它们对菜肴图像中细节如配料、装饰和烹饪技巧的识别能力。结论基本和风景名胜一样。
这两个模型都成功识别了标志并提供了全面的描述,捕捉了设计、颜色、形状和符号表示等各个方面的信息。
尽管GPT-4V提供了合理的回答,但Gemini提供的回答似乎不太符合逻辑。在识别七巧板这种抽象图片中,Gemini的能力相对欠缺。可能是由于是所有图拼接输入的结果。
这两个模型都擅长提供场景自动驾驶和物体的详细描述。在第一个例子中,Gemini的描述展示了一个小错误。
这个意思是给定一张图片。文字prompt中让模型在图片中寻找不存在的物体。我们发现这两个模型都能够提供与图像中所呈现的场景和物体相关的事实性描述。
任务是统计图片中水果的数量。两个模型在计数方面都有待提高。与GPT-4V相比,Gemini的计数能力相对较弱。由于Gemini的多模态记忆性能相对较弱,它无法被引导到正确的答案。
这里是两张图片找不同的能力。GPT-4V和Gemini在找不同方面都有一定的局限。GPT-4V找不同的能力更强一些,更加准确。
它集中在图像中的文本识别(包括OCR),如场景文本、数学公式和图表及表格文本识别等。同样,在这里不进行文本内容的进一步推断。属于第一层最为基本的任务。一共有9个小节。
这里是从股市交易板,室外店铺招牌等场景中去提取文字以及数字信息。这两个模型都展现出在许多复杂情境下识别场景文本的熟练能力。
这里是将图片中的公式转化为Latex格式,我们发现无论是GPT-4V还是Gemini在数学公式识别方面均较为欠缺。当公式变复杂时,都无法准确读出公式。
这里展示的是针对表格图片的文字识别和提取。整体来说,这里GPT-4V的能力不如Gemini Pro。
超越基本图像识别,这一部分涉及更高级的推理。这包括理解幽默和科学概念,以及像侦探工作、图像组合、智力测试中寻找模式以及情感理解和表达等逻辑推理能力。这里属于第二个层次即除了基本识别需要进行进一步的推理。一共有6个小节。
在幽默图片理解方面。GPT-4V和Gemini都展现出了令人满意的能力,可以理解嵌入在Memes中的幽默。
GPT-4V和Gemini都能够以理解科学的常识,并收集必要的信息来回答问题。在第一个例子中,Gemini的描述中存在遗漏。
这里的任务是给定一个房屋的图片,去推理屋子主人的性格。GPT-4V和Gemini都能够根据常识很好地推断图像。
这里是一个人用袋子装扮自己的头和身子。GPT-4V和Gemini都知道如何以合理的方式组合这三个部分。当然,在这里GPT-4V提供了一个更令人满意的答案,给出了三张子图片组合成一张图片的顺序。
对于Wechsler成人智力量表(WAIS)中的找规律问题,Gemini表现不佳。这表明它在识别和比较多个图像方面的能力可能有限。
在对于图片所表达的情感上。GPT-4V和Gemini都理解不同的视觉内容如何引发人类情感。
超越基本图像识别,这一部分涉及更高级的推理。这包括理解幽默和科学概念,以及像侦探工作、图像组合、智力测试中寻找模式以及情感理解和表达等逻辑推理能力。这里属于第二个层次即除了基本识别需要进行进一步的推理。一共有3个小节。
针对简单的数学问题,GPT-4V和Gemini都能够给出准确的回答。
这里我们展示的是针对流程图的理解。这个例子中两个模型都能够将流程图转化为Python代码。
这里展示的是一个公寓房屋的平面设计图。这里两个模型都给出了准确的回答。但是Gemini的回答更加的完整,有条理。
超越基本图像识别,这一部分涉及更高级的推理。这包括理解幽默和科学概念,以及像侦探工作、图像组合、智力测试中寻找模式以及情感理解和表达等逻辑推理能力。这里属于第三个层次针对图文的综合性理解。一共有2个小节。
这个图像涉及输入多张账单并计算其中的税款。GPT-4V可以准确提供输出,而Gemini对于连接在一起的图像的回答不令人满意。然而,它在为每张图像提供个别答案方面表现良好。
通过自我反思来改进文本到图像模型SDXL的生成文本提示,GPT-4V反映出了初始提示中没有提及狗的品种的错误,并做出了正确的修订。而Gemini生成的文本提示更好,提到了狗的品种。
强调对象定位能力,要求模型提供指定对象的相对坐标(左上角和右下角的坐标)。这包括关注室外物体,如停车场中的汽车和抽象图像定位。一共有2个小节。
这里是针对识别出停车场中的一个汽车。在这之前我们给出了一个啤酒瓶定位的例子。GPT-4V和Gemini都能够理解坐标以生成视觉指示输出。
这里是针对指出抽象物体七巧板中的一个部分的位置。通过提示它们输出定位框的角点,GPT-4V可以定位到抽象鹅的头部,而Gemini在这种情况下未能成功。
通过关键帧评估模型对时间性的理解。这一部分包括两项任务:一项涉及对视频序列的理解,另一项关注关键帧的排序。一共有2个小节。
在给定一系列连续动作的情况下,GPT-4V和Gemini都能够生成正确的理解。
寿司制作过程是无序的,只有GPT4-V能够找到正确的顺序,而Gemini在这种情况下失败了。
它全面评估在识别、理解和生成多种语言内容方面的能力。这包括在图像中识别非英语内容和以其他语言表达信息的能力。一共有2个小节。
GPT-4V和Gemini都能够用不同的语言描述图像。
GPT-4V和Gemini都可以识别这三张图片中的场景文本。
展示了多模态大型模型的各种应用场景。我们旨在向行业展示更多可能性,提供创新的思路。可以根据特定领域的需求定制多模态大型模型。在这里,我们展示了七个子领域。
这里是进行工业流水线上进行缺陷检测。这两个模型都能够相当准确地检测图像中物体的缺陷。然而,值得注意的是,在这类任务中,Gemini提供了更多的细节。
这里是超市自助收银的应用。虽然GPT-4V提供了更全面和详细的结果,但也存在一些错误。另一方面,Gemini只识别了四个对象,但是识别是正确的,甚至为每个项目都包括了相应的图像。这表明,虽然GPT-4V在发现方面提供了广度,但Gemini提供了准确性,在执行这类任务时展示了不同的优势。
这里是进行车祸现场的损伤程度判断。两者都展示了他们执行全面、详细和准确的损伤评估的能力。
这里是首先将单个物体的图片和名称输入给模型作为prompt,之后再输入一个完整的场景让模型去描述其中各个物体的相对位置。GPT-4V提供了更全面、准确和有条理的描述,而Gemini则表现不佳,未能识别左图中蜗牛壳的存在,并错误地描述了蜗牛的位置。这表明,虽然GPT-4V在提供详细和精确的描述方面表现出色。
针对图像生成文字prompt和生成图片的匹配度测试。这两个模型都准确描述了图像内容并提供了相应的解释和一致的分数。值得注意的是,Gemini为其评估提供了更详细的理由。
再Embodied AI的应用上。GPT-4V提供了正确的回答,并附带清晰而简洁的解释。相比之下,Gemini提供的回答完全不正确。
在这个例子中,我们给的是使用PC网络搜索引擎去搜索麻婆豆腐的菜谱。这里是从刚开机的电脑界面一步步利用多模态模型进行引导。这里我们仅仅给出了第一步。
在本节中,我们探索如何将GPT-4V和Gemini进行结合,利用他们各自的优势,一共有2个小节。
我们首先使用GPT-4V来描述图片中的所有物体,然后将GPT-4V的答案作为输入的一部分,使用Gemini来推荐类似产品的链接。
我们首先使用GPT-4V来描述图片中包含的所有场景,然后使用Gemini生成一个特定风格的长篇故事。
我们已经对GPT-4V和Gemini的多模态理解和推理能力进行了全面的比较,涵盖了多个方面,并得出了以下结论:
图像识别与理解。 在基本图像识别任务中,两个模型表现出了可比较的性能,并能够有效地完成任务。
图像中的文本识别与理解。 两个模型都擅长从图像中提取和识别文本。然而,在复杂的公式和仪表盘识别方面还需要改进。Gemini在读取表格信息方面表现更好。
图像推理能力。 在图像推理方面,两个模型都在常识理解方面表现出色。与GPT-4V相比,Gemini在寻找模式方面稍显不足(智力测试)。在情感理解测试中,两者都能理解情感并具有审美判断能力。
图像中的文本推理。 在文本推理领域,当处理复杂的基于表格的推理和数学问题解决任务时,Gemini表现出相对较低的性能水平。此外,Gemini倾向于提供更详细的输出。
综合图像和文本理解。 在涉及复杂文本和图像的任务中,由于Gemini无法一次输入多个图像,它在某些方面落后于GPT-4V,尽管在处理单一图像的文本推理方面与GPT-4V表现相似。
对象定位。 两个模型在现实世界的对象定位方面表现相似,Gemini在抽象图像(七巧板)的定位方面略逊一筹。
时间视频理解。 在理解时间性方面,Gemini的单一图像输入模式在某些方面不及GPT-4V,特别是在理解序列方面。
多语言能力。 两个模型都展现出良好的多语言识别、理解和输出能力,能够有效完成多语言任务。
在工业应用方面,Gemini在具体智能代理和GUI导航方面不如GPT-4V,这也归因于Gemini的单一图像、非记忆输入模式。结合这两个大型模型可以发挥它们各自的优势。总的来说,Gemini和GPT-4V都是强大而令人印象深刻的多模态大型模型。就整体性能而言,GPT-4V略优于Gemini Pro。这与Gemini报告的结果一致。我们期待Gemini Ultra和GPT-4.5的发布,它们有望为视觉多模态应用领域带来更多可能性。
如果您觉得有用,请引用:
@misc{qi2023gemini,
title={Gemini vs GPT-4V: A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Cases},
author={Zhangyang Qi and Ye Fang and Mengchen Zhang and Zeyi Sun and Tong Wu and Ziwei Liu and Dahua Lin and Jiaqi Wang and Hengshuang Zhao},
year={2023},
eprint={2312.15011},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
原文链接:https://mp.weixin.qq.com/s/ueSAHlSYdPP_emTYxMa2DQ