文章目录
- 准备工作
- 下载Ollama
- 什么是Ollama
- 参考文献
分享一下如何部署本地大模型,让它成为你的离线助手。
准备工作
服务器或者电脑一台,配置越高越好, Windows和Mac皆可,Widows最好内存8G以上而且带一块好一点的显卡;Mac的话建议M系列芯片,内存建议16G以上
下载好docker桌面版:https://www.docker.com/products/docker-desktop/
下载好Ollama:https://ollama.ai/
注意:运行 7B 模型时,您应至少有 8 GB 的可用内存,运行 13B 模型时应有 16 GB 的可用内存,运行 33B 模型时应有 32
GB 的可用内存。M系列MacBook采用统一内存架构,这意味着CPU和GPU可以共享同一内存池。这种设计减少了数据在不同处理单元之间传输的需要,从而可以显著提高大型数据集处理的速度和效率。
下载Ollama
在官网进行下载,也可以使用docker进行安装。
什么是Ollama
Ollama 是一个轻量级、可扩展的框架,旨在在本地计算机上构建和运行大型语言模型(LLM)。它支持多种模型架构,如 Llama 3、Phi 3、Mistral 和 Gemma 2,并提供了简洁的 API 以创建、运行和管理这些模型。Ollama 可以在 macOS、Linux 和 Windows 上运行,适合于需要在本地运行大模型的应用场景 (Ollama) (GitHub)。
Ollama 的主要特点包括:
- 易用性:API设计简洁,用户可以轻松上手,即使是没有经验的用户也能快速使用 (腾讯云 - 产业智变 云启未来)。
- 性能:运行速度快,占用资源少,即使在配置较低的机器上也能流畅运行 (腾讯云 - 产业智变 云启未来)。
- 功能多样性:支持多种任务,如文本翻译、问答、代码生成等,可以满足用户的多种需求 (腾讯云 - 产业智变 云启未来)。
- 社区支持:拥有一个活跃的社区,用户可以分享经验和获得帮助 (腾讯云 - 产业智变 云启未来)。
此外,Ollama 提供了一个丰富的模型库,用户可以轻松地拉取和运行预训练模型,并且支持从 PyTorch 或 Safetensors 导入模型进行自定义 (Ollama)。
如果你想在自己的电脑上运行如 GPT-3 这样的大型人工智能模型,而不是通过互联网连接到它们,那么 Ollama 是一个实现这一目标的工具。
Ollama支持非常多的开源模型,比如:
更多支持的模型可以看这边:https://ollama.com/library
当然它还支持自定义模型,这边就不深入了,有兴趣的可以研究:https://github.com/ollama/ollama
装好之后,命令行运行:
ollama -v
查看到版本号说明安装好了。
接下来我们下载一个llama3 8B的模型:
ollama run llama3
这边可能需要比较长的时间,取决于你的网速。
下载好了就可以进行交互了:
其实现在已经搞定了,你可以让它帮你干活了,但是每次都要用命令行,有些人觉得不方便,而且也不能给别人用,下面我们就给它搞一个图形化界面,扩展一下功能,也能让局域网里的其他小伙伴也用上你的这个模型(注意多人同时访问会导致机器负载飙升,具体取决于你机器的性能和模型参数的大小)
参考文献
- https://ollama.com/library
- https://blog.laoda.de/archives/lobechat-ollama-deploy-offline