支持100 万 token 上下文的大模型——MiniMax- M1

大家好,我是 Ai 学习的老章再看一遍 Minimax-M1,本来拿着它与 DeepSeek-R1 对比使用的时候截了很多图,结果在桌面上不小心清掉了。。。MiniMax- M1MiniMax-M1 采用混合专家(MoE)架构,并结合了闪电注意力机制,基于之前的 MiniMax-Text-01 模型 开发(为了在 Text - 01 上进行完整的强化学习训练以创建 M1,使用了 512 块 H800 GPU,历时三周,这相当于 0.53 万美元的租赁成本。),总共包含 4560 亿个参数,每个 token 激活 459 亿个参数。M1 模型原生支持 100 万个 token 的上下文长度,是 DeepSeek R1 上下文大小的 8 倍。此外,MiniMax-M1 中的闪电注意力机制使测试时计算能够高效扩展——例如,与 DeepSeek R1 相比,在生成长度为 10 万个 token 时,M1 仅消耗 25% 的 FLOPs。这些特性使得 M1 特别适合需要处理长输入和广泛思考的复杂任务。
模型在复杂的软件工程、工具使用和长上下文任务上优于其他强大的开放权重模型,如原始的 DeepSeek-R1 和 Qwen3-235B。 测评数据MiniMax M1 80K 在人工分析智能指数上得分 63。这落后于 DeepSeek R1 0528,但略领先于阿里巴巴的 Qwen3 235B - A22B 和英伟达的 Llama 3.1 Nemotron Ultra。MiniMax M1 有两个版本:M1 40K 和 M1 80K,分别提供 40K 和 80K 的令牌思考预算。
人工分析智能指数包含 7 项评估:MMLU-Pro、GPQA 钻石级评估、人类终极考试、实时代码基准测试、科学代码评估、美国数学邀请赛、500 道数学题测试MiniMax M1 80k 在全球开源权重模型中排名第二,也是目前唯一支持 100 万 token 上下文窗口的开源推理模型。虽然 Llama 4 系列支持 100 万/1000 万上下文,但 Meta 尚未发布任何 Llama 4 推理模型。来源:https://artificialanalysis.ai/
由加州大学伯克利分校创建的 LMArena 上 ,Minimax 综合分数第 16 名。
它最擅长的是数学领域,No1,我个人最关注的是 coding,排名第 10vLLM 本地部署
pip install modelscope mkdir minimaxm1 cd minimaxm1 modelscope download MiniMax/MiniMax-M1-80k --local_dir . # Launch MiniMax-M1 Service export SAFETENSORS_FAST_GPU=1 export VLLM_USE_V1=0 vllm serve \ --model \ --tensor-parallel-size 8 \ --trust-remote-code \ --quantization experts_int8 \ --max_model_len 4096 \ --dtype bfloat16
80K 原版尺寸是 930GB 的样子,比 DeepSeek 还大 发现一个 int4 量化版,250GB 左右https://huggingface.co/justinjja/MiniMax-M1-80k-W4A16-INT4/tree/mainMiniMax 官方测试 开发小游戏Prompt: 创建一个迷宫生成器和寻路可视化工具。随机生成一个迷宫,并逐步可视化 A * 算法解决它的过程。使用画布和动画。使其在视觉上具有吸引力。

支持100 万 token 上下文的大模型——MiniMax- M1

交互式应用Prompt:构建一个打字速度测试网页应用。随机显示一句话,并以 WPM(每分钟字数)追踪用户的打字速度。通过颜色和准确率提供实时反馈。

支持100 万 token 上下文的大模型——MiniMax- M1

UI 组件聚焦Prompt:创建一个带有基于画布的动画粒子背景的 HTML 页面。粒子应平滑移动并在靠近时连接。在画布上方添加一个居中的标题文本。

支持100 万 token 上下文的大模型——MiniMax- M1

可视化Prompt: 在用户点击页面任意位置时实现粒子爆炸效果。使用 canvas 和 JavaScript 来制作彩色粒子的渐隐动画效果。

支持100 万 token 上下文的大模型——MiniMax- M1

个人感受我用相同的提示词复刻官方测试的例子,发现效果不如上面视频中演示的,可能我用的 API 对应的模型是量化了,在官网测试,效果好点。但是无论是官网还是调用 API,MiniMax的思考都极其漫长我感觉


DeepSeek-R1 的思考只会把实现的大致思路搞清楚就开始写代码


MiniMax-M1 的思考把每一步骤的具体代码都在思考里进行了


目前看,M1 唯一的优势就是超长上下文了制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!
分类