支持100 万 token 上下文的大模型——MiniMax- M1

王宝珍

2025-07-14 08:09:18

大家好，我是 Ai 学习的老章再看一遍 Minimax-M1，本来拿着它与 DeepSeek-R1 对比使用的时候截了很多图，结果在桌面上不小心清掉了。。。MiniMax- M1MiniMax-M1 采用混合专家（MoE）架构，并结合了闪电注意力机制，基于之前的 MiniMax-Text-01 模型开发（为了在 Text - 01 上进行完整的强化学习训练以创建 M1，使用了 512 块 H800 GPU，历时三周，这相当于 0.53 万美元的租赁成本。），总共包含 4560 亿个参数，每个 token 激活 459 亿个参数。M1 模型原生支持 100 万个 token 的上下文长度，是 DeepSeek R1 上下文大小的 8 倍。此外，MiniMax-M1 中的闪电注意力机制使测试时计算能够高效扩展——例如，与 DeepSeek R1 相比，在生成长度为 10 万个 token 时，M1 仅消耗 25% 的 FLOPs。这些特性使得 M1 特别适合需要处理长输入和广泛思考的复杂任务。
模型在复杂的软件工程、工具使用和长上下文任务上优于其他强大的开放权重模型，如原始的 DeepSeek-R1 和 Qwen3-235B。测评数据MiniMax M1 80K 在人工分析智能指数上得分 63。这落后于 DeepSeek R1 0528，但略领先于阿里巴巴的 Qwen3 235B - A22B 和英伟达的 Llama 3.1 Nemotron Ultra。MiniMax M1 有两个版本：M1 40K 和 M1 80K，分别提供 40K 和 80K 的令牌思考预算。
人工分析智能指数包含 7 项评估：MMLU-Pro、GPQA 钻石级评估、人类终极考试、实时代码基准测试、科学代码评估、美国数学邀请赛、500 道数学题测试MiniMax M1 80k 在全球开源权重模型中排名第二，也是目前唯一支持 100 万 token 上下文窗口的开源推理模型。虽然 Llama 4 系列支持 100 万/1000 万上下文，但 Meta 尚未发布任何 Llama 4 推理模型。来源：https://artificialanalysis.ai/
由加州大学伯克利分校创建的 LMArena 上，Minimax 综合分数第 16 名。
它最擅长的是数学领域，No1，我个人最关注的是 coding，排名第 10vLLM 本地部署
pip install modelscope mkdir minimaxm1 cd minimaxm1 modelscope download MiniMax/MiniMax-M1-80k --local_dir . # Launch MiniMax-M1 Service export SAFETENSORS_FAST_GPU=1 export VLLM_USE_V1=0 vllm serve \ --model \ --tensor-parallel-size 8 \ --trust-remote-code \ --quantization experts_int8 \ --max_model_len 4096 \ --dtype bfloat16
80K 原版尺寸是 930GB 的样子，比 DeepSeek 还大发现一个 int4 量化版，250GB 左右https://huggingface.co/justinjja/MiniMax-M1-80k-W4A16-INT4/tree/mainMiniMax 官方测试开发小游戏Prompt: 创建一个迷宫生成器和寻路可视化工具。随机生成一个迷宫，并逐步可视化 A * 算法解决它的过程。使用画布和动画。使其在视觉上具有吸引力。

支持100 万 token 上下文的大模型——MiniMax- M1

交互式应用Prompt:构建一个打字速度测试网页应用。随机显示一句话，并以 WPM（每分钟字数）追踪用户的打字速度。通过颜色和准确率提供实时反馈。

支持100 万 token 上下文的大模型——MiniMax- M1

UI 组件聚焦Prompt:创建一个带有基于画布的动画粒子背景的 HTML 页面。粒子应平滑移动并在靠近时连接。在画布上方添加一个居中的标题文本。

支持100 万 token 上下文的大模型——MiniMax- M1

可视化Prompt: 在用户点击页面任意位置时实现粒子爆炸效果。使用 canvas 和 JavaScript 来制作彩色粒子的渐隐动画效果。

支持100 万 token 上下文的大模型——MiniMax- M1

个人感受我用相同的提示词复刻官方测试的例子，发现效果不如上面视频中演示的，可能我用的 API 对应的模型是量化了，在官网测试，效果好点。但是无论是官网还是调用 API，MiniMax的思考都极其漫长我感觉

DeepSeek-R1 的思考只会把实现的大致思路搞清楚就开始写代码

MiniMax-M1 的思考把每一步骤的具体代码都在思考里进行了

目前看，M1 唯一的优势就是超长上下文了制作不易，如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个，谢谢你看我的文章，我们下篇再见！

相关阅读