稀宇科技发布并开源新一代 MiniMax 01 系列模型

稀宇科技发布并开源新一代 MiniMax 01 系列模型

稀宇科技(MiniMax)发布并开源新一代MiniMax 01系列模型的消息。以下是文章的详细内容:

稀宇科技发布新一代MiniMax 01系列模型

  • 发布日期:2025年1月15日
  • 模型名称:新一代01系列模型,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01

模型开源

  • 为方便开发者研究,稀宇科技在Github上开源了这两个模型的完整权重。
  • 该系列模型的后续更新,包括代码和多模态相关的后续强化,仍待上传。

技术创新

  • 线性注意力机制:该系列模型首次大规模实现线性注意力机制,打破Transformer传统架构的记忆瓶颈。
  • 处理能力:能够处理400万token的输入,可输入长度是GPT-4o的32倍,Claude-3.5-Sonnet的20倍。

模型性能

  • 参数量:高达4560亿,其中单次激活459亿。
  • 综合性能:比肩海外顶尖模型,在大多数任务上追平了海外公认最先进的两个模型,GPT-4o-1120以及Claude-3.5-Sonnet-1022
  • 长文任务:在长文任务上,随着输入长度变长,MiniMax-Text-01性能衰减更少,显著优于谷歌Gemini。因此,01系列模型在处理长输入的时候有非常高的效率,接近线性复杂度。

定价策略

  • 标准定价:输入1元/百万输入token、8元/百万输出token。

结论

  • 稀宇科技发布的MiniMax 01系列模型在技术创新和性能上取得了显著进展,特别是在处理长输入方面表现出色。
  • 通过开源模型权重,稀宇科技为开发者提供了研究和应用的便利,进一步推动了AI技术的发展。
  • 该系列模型的定价策略也较为明确,为商业应用提供了参考。
© 版权声明

相关文章

暂无评论

none
暂无评论...