如何在本地运行大语言模型，保护数据隐私（下）

（接上一篇）

硬件和软件设置

我们使用了一个具有以下功能的相当不错的服务器：

CPU：AMD Ryzen Threadripper PRO 7965WX 24核@ 48x 5.362GHz
GPU：2倍NVIDIA GeForce RTX 4090。
内存：515276 mib –
操作系统：Pop 22.04 jammy。
内核：x86_64 Linux 6.9.3-76060903-generic。

这个装置的零售成本大约是15000美元。我们之所以选择这样的设置，是因为它是一个不错的服务器，虽然远不如拥有8个或更多gpu的专用高端AI服务器强大，但仍然具有相当的功能和代表性，我们的许多客户可能会选择它。我们发现许多客户对投资高端服务器犹豫不决，这种设置是成本和性能之间的一个很好的折衷。

速度

让我们首先关注速度。下面，我们给出了几个盒须图，描绘了几个量化的速度数据。每个模型的名称以其量化级别开头；例如，“Q4”表示4位量化。同样，较低的量化水平轮询更多，减小了尺寸和质量，但提高了速度。

►技术问题1（关于盒须图的提示）：盒须图显示中位数、第一和第三四分位数以及最小和最大数据点。须延伸到不被归类为异常点的最极端点，而异常点是单独绘制的。异常值被定义为落在Q1−1.5 × IQR和Q3 + 1.5 × IQR范围之外的数据点，其中Q1和Q3分别代表第一和第三个四分位数。四分位间距（IQR）计算公式为：IQR = Q3−Q1。

llama.cpp

下面是llama.cpp的图表。图3显示了QuantFactory中可用的70B参数的所有Llama 3.1模型的结果，图4显示了此处可用的8B参数的部分模型。70B型号最多可以卸载81层到GPU上，而8B型号最多可以卸载33层。对于70B，卸载所有层对于Q5量化和更精细是不可行的。每个量化类型包括在括号中卸载到GPU上的层数。正如预期的那样，更粗的量化产生最佳的速度性能。由于行分割模式的执行类似，我们在这里主要讨论层分割模式。

图3具有70B参数的Llama 3.1模型在分模层的Llama.cpp下运行。正如预期的那样，更粗的量化提供了最好的速度。卸载到GPU上的层数在每个量化类型旁边的括号中显示。具有Q5和更精细量化的模型不完全适合VRAM。

图4 8B参数的Llama 3.1模型在Llama .cpp下使用分模层运行。在这种情况下，该模型适用于所有量化类型的GPU内存，较粗的量化导致最快的速度。请注意，高速是异常值，而Q2_K的总体趋势徘徊在每秒20个令牌左右。

主要观察

在推理过程中，我们观察到一些高速事件（特别是在8B Q2_K中），这是收集数据并理解其分布至关重要的地方，因为事实证明这些事件非常罕见。

正如预期的那样，较粗的量化类型产生最佳的速度性能。这是因为模型大小减小了，允许更快的执行。

有关70B模型不能完全适合VRAM的结果必须谨慎对待，因为使用CPU也可能导致瓶颈。因此，在这些情况下，报告的速度可能不是模型性能的最佳表示。

Ollama

我们对Ollama做了同样的分析。图5显示了Ollama自动下载的默认Llama 3.1和3.2模型的结果。除了405B型号外，它们都适合GPU内存。

图5 在Ollama下运行的Llama 3.1和3.2模型。这些是使用Ollama时的默认模型。所有3.1模型-特别是405B， 70B和8B（标记为“最新”）-使用Q4_0量化，而3.2模型使用Q8_0 （1B）和Q4_K_M （3B）。

主要观察

我们可以将70B Q4_0模型与Ollama和llama.cpp进行比较，其中Ollama的速度略慢。

同样，8B Q4_0模型在Ollama下比其对应的llama.cpp要慢，而且有一个更明显的区别——llama.cpp平均每秒多处理5个令牌。

分析框架总结

在讨论功耗和可租用性之前，让我们总结一下到目前为止我们分析的框架。

电力消耗和可租赁性

这个分析特别适用于将所有层都放入GPU内存的模型，因为我们只测量了两个RTX 4090卡的功耗。尽管如此，值得注意的是，这些测试中使用的CPU的TDP为350 W，这提供了最大负载下的功耗估计。如果将整个模型加载到GPU上，CPU可能会保持接近空闲水平的功耗。

为了估计每个令牌的能耗，我们使用以下参数：每秒令牌数（NT）和两个gpu消耗的功率(P)，以瓦为单位。通过计算P/NT，我们得到每个令牌的能耗，单位是瓦秒。将其除以3600得到每个令牌的能源使用量，单位是Wh，这是更常用的参考。

llama.cpp

以下是llama.cpp的结果。图6为70B型号的能耗图，图7为8B型号的能耗图。这些图显示了每种量化类型的能耗数据，其平均值显示在图例中。

图6 Llama.cpp下，70B参数的Llama 3.1模型各量化的每令牌能量。显示了行分割模式和层分割模式。结果仅适用于适合GPU内存中所有81层的模型。

图7 Llama .cpp下，8B参数下Llama 3.1模型各量化的每令牌能量。显示了行分割模式和层分割模式。所有型号的平均消耗量都差不多。

Ollama

我们还分析了Ollama的能源消耗。图8为Llama 3.1 8B （Q4_0量化）和Llama 3.2 1B和3B（分别为Q8_0和Q4_K_M量化）的结果。图9显示了70B和405B型号的单独能耗，均采用Q4_0量化。

图8 Ollama下Llama 3.1 8B （Q4_0量化）和Llama 3.2 1B和3B模型（Q8_0和Q4_K_M量化）的每令牌能量。

图9 Llama 3.1 70B（左）和Llama 3.1 405B（右）的每个令牌能量，均在Ollama下使用Q4_0量化。

成本

我们不会单独讨论每个模型，而是将重点放在跨llama.cpp和Ollama的可比较模型上，以及在llama.cpp下使用Q2_K量化的模型上，因为它是这里探讨的最粗糙的量化。为了更好地了解成本，我们在下表中显示了每100万个生成的令牌（1M）的能源消耗和以美元计算的成本的估计。该成本是根据德克萨斯州的平均电价计算的，根据该消息来源，每千瓦时0.14美元。作为参考，目前gpt – 40的定价至少为每百万代币5美元，而GPT-o mini的定价为每百万代币0.3美元。

llama.cpp

Ollama

主要观察

使用Q4_0的Llama 3.1 70B模型，Llama .cpp和Ollama的能耗没有太大差异。

对于8B型骆驼来说，cpp比Ollama消耗更多的能量。

考虑一下，这里所描述的成本可以看作是运行模型的“裸成本”的下限。其他成本，如操作、维护、设备成本和利润，不包括在这一分析中。

估计表明，与云服务相比，在私有服务器上运行llm具有成本效益。特别是，在适当的情况下，将美洲驼8B与GPT-45o mini进行比较，将美洲驼70B与gpt – 40进行比较似乎是一笔潜在的好交易。

►技术问题2（成本估计）：对于大多数模型，每1M代币的能源消耗（及其可变性）的估计是由“中位数±IQR”处方给出的，其中IQR代表四分位数范围。只有在Llama 3.1 8B Q4_0模型中，我们使用“mean±STD”方法，其中STD表示标准差。这些选择不是武断的；除了Llama 3.1 8B Q4_0之外的所有模型都显示出异常值，这使得中位数和IQR在这些情况下更加稳健。此外，这些选择有助于防止成本出现负值。在大多数情况下，当两种方法产生相同的集中趋势时，它们提供了非常相似的结果。

结论

对不同模型和工具的速度和功耗的分析只是整体情况的一部分。我们观察到，轻量化或高度量化的模型通常在可靠性方面表现出一定的局限性。随着聊天记录的增加或任务的重复，出现幻觉的频率也随之上升。这并不意外——较小的模型难以捕捉较大模型的广泛复杂性。为缓解这些限制，可以通过重复惩罚和温度调节等设置来改善输出质量。

另一方面，像70B这样的大模型始终展现出强大的性能，几乎不会产生幻觉。然而，由于即便是最强大的模型也可能出现不准确的情况，负责任且可靠的使用通常需要将这些模型与其他工具集成，比如LangChain和矢量数据库。尽管我们在此并未深入探讨具体任务的性能表现，但这些集成对于最小化幻觉并增强模型的可靠性至关重要。

综上所述，在私有服务器上运行大型语言模型（LLM）作为一种服务，能够提供具备竞争力的LLM替代方案，同时兼具成本优势和定制化的可能性。无论是私有部署还是基于服务的选项，各有其独特优势。在Austin AI，我们专注于提供满足客户需求的解决方案，无论这意味着利用私有服务器、云服务，还是采用混合方案。

感谢阅读！你还可以订阅我们的YouTube频道，观看大量大数据行业相关公开课：https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ；在LinkedIn上关注我们，扩展你的人际网络！https://www.linkedin.com/company/dataapplab/。

原文作者：Robert Corwin
翻译作者：过儿
美工编辑：过儿
校对审稿：Jason
原文链接：https://towardsdatascience.com/running-large-language-models-privately-a-comparison-of-frameworks-models-and-costs-ac33cfe3a462

November 12, 2024 | Blog | Tags: AI, LLM, 机器学习

如何在本地运行大语言模型，保护数据隐私（下）

如何在本地运行大语言模型，保护数据隐私（下）

如何在本地运行大语言模型，保护数据隐私（上）

连接数据与AI系统的关键点：LLM管道的设计与实现

Latest post

如何开办一个人的人工智能创业公司？

多智能体协作协议（MCP）：LLM 系统中合作智能的未来

LLAMA 4 来袭：Meta 全新大模型的技术突破与商业潜力

Courses

Events

Lecture 1: Interpretation of Employment Trends in the US 2025

Understand Meta LLaMA Throughly

Lecture 2: Job Seaking Strategy and Career Positioning

Consulting

ABOUT US

Contact Info: