GPT-4.5 创造力比 GPT-4o 弱

文章简介:浙大上海 AI Lab 发布全球首个面向真实场景的多模态创造力评测基准

浙江大学联合上海人工智能实验室等团队发布了全球首个面向真实场景的多模态创造力评测基准——Creation-MMBench。这一基准旨在科学量化多模态大模型(MLLMs)的创造力,填补了现有评测基准在衡量模型创造性见解方面的空白。

多模态创造力的挑战

多模态大模型在日常问答和一些需要高度创造力的任务中表现出色,但在复杂场景下的创造性思维仍面临挑战。现有的评测基准多偏重分析性或实用性任务,难以真实反映模型在创意类任务中的表现。

Creation-MMBench 的核心特点

  • 真实场景与多模态融合:涵盖四大任务类别(文学创作、日常功能性写作、专业功能性写作、多模态理解与创作)和 51 项细粒度任务,提供 765 个高难度测试案例。
  • 复杂现实情境:基于真实图像标注,配套明确角色、特定背景、任务指令与额外要求,单任务最多支持 9 图输入。
  • 双重评估体系:采用视觉事实性评分(VFS)和创意奖励分(Reward)两个指标,结合多模态大模型作为评判模型,确保评估的客观性和公正性。

实验结果

  • 闭源模型表现:GPT-4o 在视觉事实性评分上表现突出,而 Gemini-2.0-Pro 在多模态创意性写作能力上表现优异,GPT-4.5 在多模态内容理解及创作任务上表现出色。
  • 开源模型表现:如 Qwen2.5-VL 和 InternVL2.5 等开源模型展现了较强的创作能力,但整体仍与闭源模型存在差距。
  • 视觉微调的影响:视觉指令微调对模型的创作能力存在潜在负面影响,可能导致模型在长文本创作中表现不佳。

总结

Creation-MMBench 为评估多模态大模型在真实场景中的创作能力提供了全新的工具。该基准不仅填补了现有评测基准的空白,还为研究人员和开发者提供了一个全面评估模型创造力的平台。
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...