稀宇科技(MiniMax)发布并开源新一代MiniMax 01系列模型的消息。以下是文章的详细内容:
稀宇科技发布新一代MiniMax 01系列模型
- 发布日期:2025年1月15日
- 模型名称:新一代01系列模型,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。
模型开源
- 为方便开发者研究,稀宇科技在Github上开源了这两个模型的完整权重。
- 该系列模型的后续更新,包括代码和多模态相关的后续强化,仍待上传。
技术创新
- 线性注意力机制:该系列模型首次大规模实现线性注意力机制,打破Transformer传统架构的记忆瓶颈。
- 处理能力:能够处理400万token的输入,可输入长度是GPT-4o的32倍,Claude-3.5-Sonnet的20倍。
模型性能
- 参数量:高达4560亿,其中单次激活459亿。
- 综合性能:比肩海外顶尖模型,在大多数任务上追平了海外公认最先进的两个模型,GPT-4o-1120以及Claude-3.5-Sonnet-1022。
- 长文任务:在长文任务上,随着输入长度变长,MiniMax-Text-01性能衰减更少,显著优于谷歌Gemini。因此,01系列模型在处理长输入的时候有非常高的效率,接近线性复杂度。
定价策略
- 标准定价:输入1元/百万输入token、8元/百万输出token。
结论
- 稀宇科技发布的MiniMax 01系列模型在技术创新和性能上取得了显著进展,特别是在处理长输入方面表现出色。
- 通过开源模型权重,稀宇科技为开发者提供了研究和应用的便利,进一步推动了AI技术的发展。
- 该系列模型的定价策略也较为明确,为商业应用提供了参考。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...