热门

GPT-4.5 创造力比 GPT-4o 弱

Ai资讯2周前时间煮雨

695 00

文章简介：浙大上海 AI Lab 发布全球首个面向真实场景的多模态创造力评测基准

浙江大学联合上海人工智能实验室等团队发布了全球首个面向真实场景的多模态创造力评测基准——Creation-MMBench。这一基准旨在科学量化多模态大模型（MLLMs）的创造力，填补了现有评测基准在衡量模型创造性见解方面的空白。

多模态创造力的挑战

多模态大模型在日常问答和一些需要高度创造力的任务中表现出色，但在复杂场景下的创造性思维仍面临挑战。现有的评测基准多偏重分析性或实用性任务，难以真实反映模型在创意类任务中的表现。

Creation-MMBench 的核心特点

真实场景与多模态融合：涵盖四大任务类别（文学创作、日常功能性写作、专业功能性写作、多模态理解与创作）和 51 项细粒度任务，提供 765 个高难度测试案例。
复杂现实情境：基于真实图像标注，配套明确角色、特定背景、任务指令与额外要求，单任务最多支持 9 图输入。
双重评估体系：采用视觉事实性评分（VFS）和创意奖励分（Reward）两个指标，结合多模态大模型作为评判模型，确保评估的客观性和公正性。

实验结果

闭源模型表现：GPT-4o 在视觉事实性评分上表现突出，而 Gemini-2.0-Pro 在多模态创意性写作能力上表现优异，GPT-4.5 在多模态内容理解及创作任务上表现出色。
开源模型表现：如 Qwen2.5-VL 和 InternVL2.5 等开源模型展现了较强的创作能力，但整体仍与闭源模型存在差距。
视觉微调的影响：视觉指令微调对模型的创作能力存在潜在负面影响，可能导致模型在长文本创作中表现不佳。

总结

Creation-MMBench 为评估多模态大模型在真实场景中的创作能力提供了全新的工具。该基准不仅填补了现有评测基准的空白，还为研究人员和开发者提供了一个全面评估模型创造力的平台。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

小米米家 3D 版界面曝光：动态可视化直观管控家中智能设备

小米米家 3D 版界面曝光：动态可视化直观管控家中智能设备

Ai资讯新闻热点

4个月前

02,2150

OpenAI 发布 CoT 思维链研究成果，监控阻止大模型恶意行为

OpenAI 发布 CoT 思维链研究成果，监控阻止大模型恶意行为

Ai资讯新闻热点

1个月前

01,1150

华为智选小豚当家室外摄像头 5 4K 版上市

华为智选小豚当家室外摄像头 5 4K 版上市

Ai资讯新闻热点

3个月前

02,1850

马斯克：明年底 AI 智力将超越单个人类

马斯克：明年底 AI 智力将超越单个人类

Ai资讯新闻热点

4个月前

011,9750

暂无评论

您必须登录才能参与评论！

none

暂无评论...