找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 2|回复: 0

一个高中生用老电脑训练出的180万参数模型,凭什么让社区沸腾

[复制链接]

3

主题

0

回帖

9

积分

新手上路

积分
9
发表于 3 小时前 来自手机 | 显示全部楼层 |阅读模式
【一个高中生用老电脑训练出的180万参数模型,凭什么让社区沸腾】

一位正在准备印度理工学院入学考试的高中生,用一台英特尔i3三代处理器、8GB内存、没有显卡的老旧电脑,花了13个小时从零训练出一个语言模型。这个名为Strawberry的项目在技术社区引发了热烈讨论。

模型只有180万参数,训练数据约4000万token,最终文件大小仅25MB。但它展现出的文本生成质量和事实记忆能力,让不少人感到惊讶。有评论说,这几乎达到了GPT-2级别的表现,只是规模小得多。

真正有意思的是这个少年的架构设计思路。

传统Transformer的注意力机制中,QKV权重在预训练时学习完成,推理时固定不变。他提出了一个问题:这些权重能不能根据输入实时生成,而不是预先学好?

于是他设计了一套叫做Retention的机制。核心想法是让模型根据当前输入动态生成注意力权重。这样做的好处很直接:你可以增加模型深度而不增加参数量。模型大小不再完全取决于层数,而是主要取决于宽度。

当然,连续堆叠注意力层会带来性能下降的问题。他的解决方案是在每个注意力层的输出投影之前加入一个迷你前馈网络,引入非线性。

他还组合了两种注意力机制:用苹果的AFT做全局上下文的线性注意力,用标准多头注意力处理局部上下文。下一步计划实现混合注意力专家,让不同专家处理不同的局部窗口。

训练数据是他自己手动爬取和清洗的,包括维基百科、游戏剧本、YouTube视频转录、个人代码库、AI研究论文等。有人问为什么不用HuggingFace上现成的数据集,他的回答很坦诚:闲着无聊,就想自己动手。

社区里有人指出,大多数人从未见过真正的模型幻觉是什么样子。那种几乎连贯但又不太对劲的胡言乱语,读起来就像某人完全神志不清时说的话。这才是幻觉这个词的本意,而不是后来被泛化的虚假陈述。

这个项目的价值不在于它能做什么实际应用,而在于它展示了一种可能性:用极其有限的资源,通过架构创新来探索语言模型的边界。

从零构建模型是这个领域最硬核的事情。当大多数人还在讨论如何微调现成模型时,一个高中生选择了最难的那条路。他说这只是考试复习累了时的消遣,但这种消遣方式本身就说明了一些问题。

有人提醒他,这是一个非常深的兔子洞。他的回答是:我想看看能把它推到多远。

reddit.com/r/LocalLLaMA/comments/1qym566/i_trained_a_18m_params_model_from_scratch_on_a


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-2-10 13:28 , Processed in 0.088130 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表