在M1 Mac上运行本地AI模型，为何我的期待落空了？

1次阅读

共计 3686 个字符，预计需要花费 10 分钟才能阅读完成。

作为一名报道人工智能领域超过十年的记者，我最近在 M1 Mac 上测试本地 AI，期待魔法般的效果，却得到了现实的教训。这次与 Ollama 的尝试，非但不够快，反而给我上了一堂深刻的实践课。

在 M1 Mac 上运行本地 AI 模型，为何我的期待落空了？

这台 2026 年的 M1 MacBook Pro 虽显老旧，但性能依然堪用。我深知运行 AI 会带来各种工程挑战。原因之一在于，大型语言模型正变得越来越大，需要越来越多的 DRAM 内存来承载其“参数”或“神经权重”。尽管了解这一切，我还是想亲身体验一下——在自己的家用电脑上运行一个大型语言模型。

下载和运行 AI 模型通常涉及复杂的“环境”配置。因此，受同事 Jack Wallen 关于开源工具 Ollama 的报道启发，我下载了 Ollama 的 MacOS 二进制文件，作为探索本地 AI 的入口。Ollama 相对易于使用，并且与 LangChain、Codex 等工具的集成做得很好。这意味着它正在成为一个汇聚 AI 多种能力的平台，这令人兴奋。

为何坚持在 M1 Mac 上本地运行 AI？
在本地运行 LLM，而不仅仅是在线使用 ChatGPT 或 Perplexity，对程序员乃至任何信息工作者都颇具吸引力。

首先，从职业发展角度看，能够下载并运行模型，而非仅仅使用在线聊天框，会让你在就业市场上更具价值。这是基本的技能升级。

其次，本地 LLM 实例能确保敏感数据不离开你的设备。这对所有处理信息的工作者都至关重要。以我为例，我的目标是利用本地模型分析自己多年来积累的文章库，生成关于我已撰写内容的报告，甚至挖掘那些已被遗忘的细节。我喜欢将所有文件保存在本地，而非上传至云端。

第三，你可以规避 OpenAI、Google、Anthropic 等公司收取的费用。在线使用 LLM 的成本将持续上升，现在是时候考虑如何在自家机器上离线完成更多工作，从而摆脱持续计时的压力。

第四，你拥有更多控制权。例如，在编程时，你可以对 LLM 进行“微调”以获得更聚焦的结果。你还可以使用各种本地安装的工具，如 LangChain、Anthropic 的 Claude Code 工具、OpenAI 的 Codex 编码工具等。

即使你只想完成信息工作者的常规任务，例如生成报告，使用本地文档缓存或数据库进行操作，也比将内容上传至云端机器人拥有更大的自主权。

从最低配置的 M1 Mac“裸机”开始
我选择了一台在运行 LLM 方面堪称“最低配置”的机器来开始这个实验。我想弄清楚，如果一个不常更新设备的人，尝试用日常使用的同一台电脑在家运行 LLM，会发生什么。

我的 MacBook Pro 已使用三年，配备 16 GB 内存，1TB 硬盘已用四分之三。它运行的不是最新版 MacOS，而是 MacOS Sonoma。这是 2021 年型号，型号为 MK193LL/A。尽管在 2023 年初百思买的清仓销售中曾是顶级配置，但那时它已开始成为“昨日黄花”。

我知道，我知道：这已经超出了机器的典型性能预期和任何折旧计划。尽管如此，这台 MacBook 在当时是一次重大升级。对于典型的信息工作者任务——处理日历、海量电子邮件、频繁浏览网页、视频后期制作、播客音频录制等——它每天都能出色完成。我从未有过抱怨。毕竟，如果没坏，何必去修？

那么问题来了：这台历史悠久但依然强劲的 M1 Mac，将如何应对这种全新的、截然不同的工作负载？

在 M1 Mac 上启动 Ollama
Ollama 的启动界面类似 ChatGPT，有一个友好的提示输入框、一个用于上传文档的“加号”按钮，以及一个下拉菜单，列出了可本地安装的模型，包括 Qwen 等流行选项。

如果你直接在提示框中开始输入，Ollama 会自动尝试下载下拉菜单中当前显示的模型。所以，除非你想玩“模型轮盘赌”，否则不要随意输入。

在 M1 Mac 上运行本地 AI 模型，为何我的期待落空了？

我浏览了下拉列表中的模型，发现其中一些并非本地运行——它们在云端。Ollama 提供云服务，如果你不想消耗自己的计算资源，或者想使用规模远超本地硬件承受能力的模型，这可能会很有用。

根据其定价页面，Ollama 为免费账户提供有限的云访问权限，“Pro”计划每月 20 美元可运行多个云模型，“Max”计划每月 100 美元则提供更多用量。

我坚持选择在 M1 Mac 上本地运行，并决定查看 Ollama 维护的模型目录中更广泛的列表。

我随机选择了来自中国 AI 初创公司 Z.ai 的 glm-4.7-flash。该模型拥有 300 亿个“参数”或神经权重。按现今标准，这算是一个“小型”大型语言模型，但也不算微小，毕竟还存在参数少于 10 亿的开源模型。（要知道不久之前，10 亿参数已经算是庞大了！）

目录提供了从 Mac 终端下载所选模型的命令，只需复制粘贴到提示符处即可，例如：
ollama run glm-4.7-flash

注意磁盘空间。Glm-4.7-flash 占用 19 GB 的磁盘空间，请记住，_这已经算小的了！_

根据我的经验，下载速度似乎尚可，但并非闪电般迅速。在纽约市 Spectrum 为我家庭办公室提供的千兆有线调制解调器上，下载速度一度达到每秒 45 MB，但随后吞吐量便下降了。

初次“了解”本地 AI 模型
我的第一个提示相当直接：“你是哪种大型语言模型？”

我等了一会儿，屏幕上逐渐显现出前几个字符作为回应：“[灯泡图标] 思考中 — 让我分析一下是什么让我成为一个”，然后……就停在那里了。

十分钟后，进展微乎其微。

_让我分析一下是什么让我成为一个大型语言模型，以及如何向用户解释这一点。_
_首先，我需要考虑我作为 AI 系统的基本性质。我应该解释我是通过大型数据集中的模式来理解和生成人类语言的。关键在于要清晰_

此时，Mac 上的所有操作都变得明显迟缓。

四十五分钟后，glm-4.7-flash 仍在产生关于“如何思考”的想法：“让我来构建这个解释，首先清楚地说明……”，诸如此类。

陷入“提示词膨胀”的困境
一小时十六分钟后——模型“思考”了整整 5,197.3 秒——我终于得到了关于 glm-4.7-flash 是何种语言模型的答案。事实证明，花费如此长时间得到的回答并不那么有趣。它没有告诉我任何我自己无法推断出的、关于 glm 的独特信息，也没有阐明它与其他大型语言模型的关键差异。

我想，到此为止，我和 glm 的缘分已尽。不幸的是，Ollama 没有提供在本地安装后如何删除模型的明确说明。模型保存在 MacOS 当前用户目录下名为“.ollama”的隐藏文件夹中，里面还有一个“models”文件夹。models 文件夹内包含“blobs”和“manifests”两个子文件夹。模型的绝大部分内容在 blobs 文件夹中。manifests 里面则有一个“library”文件夹，包含以你下载的每个模型命名的子文件夹，其中还有一个“latest”文件夹。

在 M1 Mac 上运行本地 AI 模型，为何我的期待落空了？

我使用终端，删除了 blobs 文件夹的内容，并清空了每个模型文件夹，从而解决了这个问题。（Jack 后来告诉我，删除任何模型的终端命令是ollama rm < 模型名称 >。）

Jack 还推荐了 OpenAI 最近的开源模型 gpt-oss，特别是其 200 亿参数版本“20b”。他表示，该版本在本地运行速度明显快于他尝试过的其他模型。于是，我接下来在目录中找到了它。

这一次，大约六分钟后，gpt-oss:20b 以不算蜗牛般但也绝对谈不上迅速的速度给出了回应，称自己是“ChatGPT，由 OpenAI 的 GPT- 4 系列驱动”等等。

回答后面附上了一个不错的详细信息表格。（奇怪的是，gpt-oss:20b 告诉我它有“大约 1750 亿个参数”，这表明它似乎没有完全理解自己“200 亿”的身份。）

在 M1 Mac 上运行本地 AI 模型，为何我的期待落空了？

无论如何，对于一个简单提示来说，这还算可以接受。但很明显，对于任何更具雄心的尝试，我都会遇到问题。等待回复的感觉已经足够缓慢——堪称一种“提示词膨胀”——以至于我不敢尝试增加任何复杂性，例如上传整个写作库进行分析。

在 M1 Mac 上运行本地 AI，我们需要一台更新的机器
OpenAI 官方的 ChatGPT 在线服务（运行 GPT5.2）告诉我，运行 gpt-oss:20b 的计算机最低配置实际上是 32 GB DRAM。ChatGPT 还赞许地指出，我的 MacBook 的 M1 Pro 芯片集成了 GPU，而 Ollama 提供的 gpt-oss:20b 版本支持 Mac GPU，这得益于一个被称为“llama.cpp 后端”的库。

所以，理论上一切应该都没问题，但我确实需要比 16 GB 更多的 DRAM。而且，我需要从现在已经五年的 M1 芯片升级到 M4 或 M5。对于拥有三十年计算机写作经验的我来说，看到一个信息工作者的“合理最低配置”被讨论为 32 GB，这相当耐人寻味。

由于所有云数据中心都在消耗越来越多的 DRAM 来运行大型语言模型，导致 DRAM 价格正在飙升。因此可以说，这是我与云服务供应商的一场“对抗”，而我可能不得不动用信用卡来升级到一台新电脑。（苹果公司会以大约 599 美元的价格回收我的 M1 MacBook 作为以旧换新。）

虽然我刚刚起步的本地 Ollama 尝试并未取得成功，但它让我对 AI 的内存密集程度有了切身体会。多年来报道 AI，我一直知道这一点，但现在我亲身感受到了——那种当提示的回应似乎要在屏幕上永远滚动时产生的、缓慢而真实的挫败感。在 M1 Mac 上运行本地 AI 模型，硬件门槛是真实存在的。

正文完