在本地部署大语言模型 - 你需要知道的一切

本文将为你介绍在本地部署AI模型的基本方法。

1. 选择合适的用户界面

本地运行AI模型需要一个用户界面来与模型进行交互。常见的选择有:

oobabooga: 提供默认模式、对话模式和笔记模式,功能齐全,使用广泛。
Silly Tavern: 专注设计漂亮的聊天界面，支持角色扮演和视觉小说式呈现，需要后端支持。
LM Studio: Windows原生应用,提供模型浏览器,判断是否可运行模型,可以快速切换不同模型,判断系统是否可以运行某模型,还可以作为其他应用的API使用。
Axolotl: 命令行界面,支持模型微调,是进行模型调教的首选。

目前大多数顶尖的AI模型都开源在Hugging Face平台上,您可以在这里寻找合适的模型。模型名称通常会标注参数量,例如Anthropic Claude 12B表示120亿参数。参数量可以作为判断GPU是否能运行该模型的参考。

这里推荐几个体积较小、质量较高的开源模型:

您也可以尝试Google、Anthropic等公司开源的更大模型。请注意参数量是否超过了您的GPU处理能力。

当GPU显存不足时,常见的解决方法有:

综合使用以上技术,就有可能在10-20GB的GPU上运行数十亿参数量的大模型了。

如果想训练一个针对特定领域或任务的自定义模型,可以加载一个预训练模型后继续微调(fine-tuning)。

Kora目前是最先进的微调框架。需要准备与原训练集类似格式的微调数据。遵循“垃圾进,垃圾出”的原则,数据质量直接决定了微调效果。

此外,还可以尝试基于prompt、链式或迁移学习的零样本微调技术,让模型快速适应新任务。

本地AI模型可以连接索引数据库、目标检测模型等,大幅扩展其应用范围。一些值得关注的项目包括:

Categorized in: