【人工智能】:搭建本地AI服务——Ollama、LobeChat和Go语言的全方位实践指南

前言

随着自然语言处理(NLP)技术的快速发展,越来越多的企业和个人开发者寻求在本地环境中运行大型语言模型(LLM),以确保数据隐私和提高响应速度。Ollama 作为一个强大的本地运行框架,支持多种先进的 LLM,并提供了易于使用的API接口。本文将详细介绍如何通过 Ollama 构建一个高效、安全的本地AI对话系统,包括Ollama的安装与配置、使用 Go 语言操作大模型以及与 LobeChat 的结合实现可视化管理。

 

一、Ollama 简介与优势

Ollama 是一款专注于本地部署的大型语言模型框架,旨在为用户提供一种无需依赖云端服务即可享受先进 AI 能力的方式。它具备以下特点:

  • 隐私保护:所有处理都在用户的本地设备上完成,确保敏感信息不离开用户环境。
  • 多模型支持:支持多个版本的 Llama 以及其他流行的 LLM,如 Phi 4, Gemma 2 等。
  • 易用性:提供简单直观的命令行工具和 RESTful API,方便开发者快速上手。
  • 性能优化:针对不同硬件配置进行了优化,能够充分利用现有资源提供最佳性能。
  • 社区支持:活跃的开源社区提供了丰富的文档和支持,帮助开发者解决问题并分享经验。

 

二、安装与配置 Ollama

1.环境准备

在开始安装之前,请确认您的开发环境满足以下要求:

  • 操作系统兼容性:支持的操作系统包括 Windows、macOS 和 Linux。请根据实际情况选择合适的安装方式。
  • 硬件资源要求:根据所选模型大小,建议至少具备 8GB RAM 用于7B模型,16GB RAM用于13B模型,32GB RAM 用于 33B 模型。对于 GPU 加速,推荐使用 NVIDIA CUDA 兼容的显卡。
  • 依赖库安装:确保已安装 Docker,以便能够轻松部署 LobeChat 服务。如果需要从源码编译 Ollama,则还需安装 GCC、CMake 等构建工具链。
  • 网络连接:初次安装时需保证有稳定的互联网连接,以便下载必要的依赖项和更新。

2.安装步骤

根据不同的操作系统,安装步骤有所不同:

  • macOS

        下载 Ollama for macOS 并解压、安装。

  • Windows

        下载 Ollama for Windows 并安装。

  • Linux

        可以通过官方脚本或手动安装:

 

curl -fsSL https://ollama.com/install.sh | sh

3.配置 Ollama 允许跨域访问

为了让其他服务正确连接到 Ollama,设置几个关键的环境变量:

  • macOS

        由于 Ollama 的默认参数配置,启动时设置了仅本地访问,所以跨域访问以及端口监听需要进行额外的环境变量设置 OLLAMA_ORIGINS。使用 launchctl 设置环境变量:

  1. launchctl setenv OLLAMA_ORIGINS "*"

        完成设置后,需要重启 Ollama 应用程序。

  • Windows

        由于 Ollama 的默认参数配置,启动时设置了仅本地访问,所以跨域访问以及端口监听需要进行额外的环境变量设置 OLLAMA_ORIGINS。

        在 Windows 上,Ollama 继承了您的用户和系统环境变量。

  1. 首先通过 Windows 任务栏点击 Ollama 退出程序。
  2. 从控制面板编辑系统环境变量。
  3. 为您的用户账户编辑或新建 Ollama 的环境变量 OLLAMA_ORIGINS,值设为 * 。
  4. 点击OK/应用保存后重启系统。
  5. 重新运行Ollama。
  • Linux

        由于 Ollama 的默认参数配置,启动时设置了仅本地访问,所以跨域访问以及端口监听需要进行额外的环境变量设置 OLLAMA_ORIGINS。如果 Ollama 作为 systemd 服务运行,应该使用systemctl设置环境变量:

  1. 通过调用sudo systemctl edit ollama.service编辑 systemd 服务。

    sudo systemctl edit ollama.service
  2. 对于每个环境变量,在 [Service] 部分下添加 Environment:

    [Service]
    Environment="OLLAMA_HOST=0.0.0.0"
    Environment="OLLAMA_ORIGINS=*"
  3. 保存并退出。

  4. 重载 systemd 并重启 Ollama:

    sudo systemctl daemon-reload
    sudo systemctl restart ollama

     

4. 模型选择与下载

根据具体的业务需求选择合适的预训练模型。Ollama 支持多个版本的 Llama 以及其他流行的 LLM,如下表所示:

模型名称参数量大小 (GB)下载命令
Llama 3.370B43GBollama run llama3.3
Llama 3.23B2.0GBollama run llama3.2
Llama 3.21B1.3GBollama run llama3.2:1b
Solar10.7B6.1GBollama run solar


选择好模型后,可以通过下命令下载并加载到本地环境中。请注意,较大的模型可能需要更多的时间和存储空间来完成下载及初始化过程。

5. Ollama 命令使用

提供了丰富的命令行工具,用于管理和操作模型。以下是常用的命令及其功能,以表格形式展示:

命令描述
ollama --help查看帮助信息
ollama list列出所有可用模型
ollama pull <model>下载或更新指定模型
ollama start启动Ollama服务
ollama stop停止Ollama服务
ollama restart重启Ollama服务
ollama status检查服务状态
ollama delete <model>删除不再使用的模型
ollama generate --model <model> --prompt "提示文本"生成文本,基于指定模型和提示文本

这些命令可以帮助您更高效地管理Ollama环境,确保模型的正确下载、加载和服务的稳定运行。

我们使用 llama3.2 作为后面示例的大模型语言,执行命令:"ollama pull llama3.2",下载该模型语言。

e467c7cacc2d4b68ae14c17df8166d69.png

 

三、使用 Go 语言操作大模型

1. Go 语言客户端示例

下面是一个简单的 Go 语言客户端示例,演示如何与 Ollama REST API 交互,发送文本请求并接收响应。请注意,某些API调用可能需要 API 密钥进行身份验证,具体取决于 Ollama 的服务配置。

package main

import (
	"bufio"
	"bytes"
	"encoding/json"
	"fmt"
	"io"
	"log"
	"net/http"
	"os"
	"strings"
	"time"
)

// ChatRequest 是发送到 API 的请求体结构
type ChatRequest struct {
	Model    string        `json:"model"`    // 模型的名称或标识符
	Messages []ChatMessage `json:"messages"` // 消息内容,包含具体的文本信息
	Stream   bool          `json:"stream"`   // 是否以流的方式返回结果
}

// ChatMessage 是请求和响应中消息的结构
type ChatMessage struct {
	Role    string `json:"role"`    // 角色,可以是"user"或"assistant"
	Content string `json:"content"` // 消息内容
}

// ChatResponse 是从 API 接收到的响应体结构
type ChatResponse struct {
	Model              string      `json:"model"`                // 模型的名称或标识符
	CreatedAt          time.Time   `json:"created_at"`           // 响应创建的时间戳
	Message            ChatMessage `json:"message"`              // 生成的消息内容
	DoneReason         string      `json:"done_reason"`          // 完成生成的原因
	Done               bool        `json:"done"`                 // 表示生成是否完成
	TotalDuration      int64       `json:"total_duration"`       // 总生成持续时间(毫秒)
	LoadDuration       int         `json:"load_duration"`        // 模型加载持续时间(毫秒)
	PromptEvalCount    int         `json:"prompt_eval_count"`    // 提示评估的次数
	PromptEvalDuration int         `json:"prompt_eval_duration"` // 提示评估的持续时间(毫秒)
	EvalCount          int         `json:"eval_count"`           // 评估的总次数
	EvalDuration       int         `json:"eval_duration"`        // 评估的总持续时间(毫秒)
}

func main() {
	// 读取器用于从标准输入读取用户输入
	reader := bufio.NewReader(os.Stdin)

	// 打印欢迎信息
	fmt.Println("欢迎使用AI!输入 'exit' 退出对话。")

	for {
		fmt.Print("我: ")
		userInput, err := reader.ReadString('\n')
		if err != nil {
			log.Fatalf("Error reading input: %v", err)
		}
		userInput = strings.TrimSpace(userInput)

		if userInput == "exit" {
			fmt.Println("Goodbye!")
			break
		}

		// 创建请求体
		requestBody := ChatRequest{
			Model: "llama3.2:latest",
			Messages: []ChatMessage{
				{
					Role:    "user",
					Content: userInput,
				},
			},
			Stream: false, // 根据需要设置为 true 或 false
		}

		// 将请求体序列化为JSON
		jsonData, err := json.Marshal(requestBody)
		if err != nil {
			log.Fatalf("Error marshaling request body: %v", err)
		}

		// 创建HTTP请求
		apiURL := "http://localhost:11434/api/chat"
		req, err := http.NewRequest("POST", apiURL, bytes.NewBuffer(jsonData))
		if err != nil {
			log.Fatalf("Error creating request: %v", err)
		}

		// 设置请求头,包括Content-Type和API密钥(如果API需要)
		apiKey := "your_api_key_here" // 替换为实际的API密钥
		req.Header.Set("Authorization", fmt.Sprintf("Bearer %s", apiKey))
		req.Header.Set("Content-Type", "application/json")

		// 发送HTTP请求并获取响应
		client := &http.Client{}
		resp, err := client.Do(req)
		if err != nil {
			log.Fatalf("Error making request: %v", err)
		}
		defer resp.Body.Close()

		// 读取响应体
		body, err := io.ReadAll(resp.Body)
		if err != nil {
			log.Fatalf("Error reading response body: %v", err)
		}

		// 解析响应体
		var response ChatResponse
		err = json.Unmarshal(body, &response)
		if err != nil {
			log.Fatalf("Error unmarshaling response body: %v", err)
		}

		// 打印生成的文本,添加标记
		fmt.Printf("%s\n", response.Message.Content)
	}
}

这段代码展示了如何通过 HTTP POST 请求调用 Ollama 的服务端点 /api/chat,发送一段文本聊天内容,并接收由选定模型生成的回复。如果 Ollama 服务需要 API 密钥认证,确保在请求头中包含正确的 Authorization 字段。

3a68ba8f0422432ebf79e3b61492f33c.png

2.API 密钥认证

在使用 Go 语言或其他编程语言与 Ollama 服务进行交互时,务必确认是否需要 API 密钥进行认证。如果需要,应按照 Ollama 提供的指南设置正确的认证信息,以确保 API 调用的安全性和合法性。对于生产环境,强烈建议使用安全的方式管理和传输 API 密钥,以防止泄露和滥用。 

 

四、配置可视化 LobeChat

1. 安装 LobeChat

使用 Docker 容器化技术可以简化 LobeChat 的部署过程。通过添加环境变量 OLLAMA_PROXY_URL 来指定 Ollama 的服务地址,使得 LobeChat 可以通过这个代理与 Ollama 交互。完整的 Docker 命令如下所示:

docker run -d -p 3210:3210 -e OLLAMA_PROXY_URL=http://host.docker.internal:11434 lobehub/lobe-chat

这条命令会在本地机器的 3210 端口启动 LobeChat 服务,并将其与 Ollama 服务相连。

6442c2904579465f915d466b27d2568f.png

2.配置 LobeChat 模型

点击“会话设置”,选择“语言模型”,设置之前自己下载的语言模型;选择“默认助手”,模型选择“llama:3.2”。

19fa9edfb0ac4f3da502e1a872a49b4a.png

5d56f62b998c4dce8ffa3d98e5990223.png

3.测试与优化

完成上述步骤后,接下来就是对集成后的系统进行全面的功能测试。这包括但不限于单元测试、集成测试以及用户体验测试。根据测试结果进行必要的调整和优化,确保系统的稳定性和性能。特别是要注意以下几点:

  • 对话质量:检查对话是否流畅,回复是否准确。
  • 响应时间:测量从用户提问到机器人回应的时间间隔。
  • 资源使用情况:监控CPU、内存等资源消耗,确保不会因频繁调用导致系统负载过高。

f63cb309e0184e8fa67e76585026b987.png

4. 用户界面定制

LobeChat 提供了灵活的前端定制选项,可以根据实际需求修改用户界面的设计和功能。例如,可以添加自定义样式、图标和按钮,增强用户体验;也可以集成第三方插件和服务,扩展平台的功能范围。此外,还可以根据用户反馈不断迭代改进 UI/UX 设计,使产品更加符合目标受众的需求。

 

五、应用场景与案例研究

企业级客服机器人

借助 LobeChat 与 Ollama 的集成,企业可以构建一个高度智能化且安全可靠的客服平台。所有对话都发生在本地环境中,既保护了客户隐私,又提高了沟通效率。例如,一家银行可以利用这一平台为客户提供全天候的金融服务咨询,确保信息安全的同时提升服务质量。

教育辅助工具

对于在线教育平台而言,这种集成可以帮助创建更加个性化的学习体验。例如,根据学生的答题情况实时提供反馈和建议,促进知识的有效传递。此外,还可以开发针对特定学科的智能辅导系统,帮助学生更好地掌握知识点。

智能家居控制

通过语音助手等形式,用户可以用自然语言指令控制家中的智能设备,享受便捷舒适的家居生活。例如,说出“打开客厅灯”,系统就能立即执行相应操作,极大地方便了日常生活。

医疗健康助手

在医疗领域,集成后的系统可以作为医生的助手,帮助分析病历、提供诊断建议或解释复杂的医学术语。它还可以用于患者的日常健康管理,提醒用药时间和预约日期,提高医疗服务的质量和效率。

 

总结

本文详细介绍了如何通过 Ollama 构建一个高效、安全的本地 AI 对话系统,涵盖了从安装配置到使用 Go 语言操作大模型,再到配置可视化 LobeChat 的全过程。通过这种集成,不仅提升了对话的质量和效率,还为客户提供了前所未有的个性化体验。希望这篇文章能帮助你深入了解Ollama及其应用潜力,如果你有任何问题或想要了解更多相关信息,请随时留言交流!

 

参考资料

LobeChat Docs
Ollama GitHub Repository

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/955842.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java锁 从乐观锁和悲观锁开始讲 面试复盘

目录 面试复盘 Java 中的锁 大全 悲观锁 专业解释 自我理解 乐观锁 专业解释 自我理解 悲观锁的调用 乐观锁的调用 synchronized和 ReentrantLock的区别 相同点 区别 详细对比 总结 面试复盘 Java 中的锁 大全 悲观锁 专业解释 适合写操作多的场景 先加锁可以…

OpenVela——专为AIoT领域打造的开源操作系统

目录 一、系统背景与开源 1.1. 起源 1.2. 开源 二、系统特点 2.1. 轻量化 2.2. 标准兼容性 2.3. 安全性 2.4. 高度可扩展性 三、技术支持与功能 3.1. 架构支持 3.2. 异构计算支持 3.3. 全面的连接套件 3.4. 开发者工具 四、应用场景与优势 4.1. 应用场景 4.2. …

使用 Java 实现基于 DFA 算法的敏感词检测

使用 Java 实现基于 DFA 算法的敏感词检测 1. 引言 敏感词检测在内容审核、信息过滤等领域有着广泛的应用。本文将介绍如何使用 DFA&#xff08;Deterministic Finite Automaton&#xff0c;确定有限状态自动机&#xff09; 算法&#xff0c;在 Java 中实现高效的敏感词检测。…

单片机存储器和C程序编译过程

1、 单片机存储器 只读存储器不是并列关系&#xff0c;是从ROM发展到FLASH的过程 RAM ROM 随机存储器 只读存储器 CPU直接存储和访问 只读可访问不可写 临时存数据&#xff0c;存的是CPU正在使用的数据 永久存数据&#xff0c;存的是操作系统启动程序或指令 断电易失 …

UDP报文格式

UDP是传输层的一个重要协议&#xff0c;他的特性有面向数据报、无连接、不可靠传输、全双工。 下面是UDP报文格式&#xff1a; 1&#xff0c;报头 UDP的报头长度位8个字节&#xff0c;包含源端口、目的端口、长度和校验和&#xff0c;其中每个属性均为两个字节。报头格式为二…

2024年我的技术成长之路

2024年我的技术成长之路 大家好&#xff0c;我是小寒。又到年底了&#xff0c;一年过得真快啊&#xff01;趁着这次活动的机会&#xff0c;和大家聊聊我这一年在技术上的收获和踩过的坑。 说实话&#xff0c;今年工作特别忙&#xff0c;写博客的时间比去年少了不少。不过还是…

HTML5+Canvas实现的鼠标跟随自定义发光线条源码

源码介绍 HTML5Canvas实现的鼠标跟随自定义发光线条特效源码非常炫酷&#xff0c;在黑色的背景中&#xff0c;鼠标滑过即产生彩色变换的发光线条效果&#xff0c;且线条周围散发出火花飞射四溅的粒子光点特效。 效果预览 源码如下 <!DOCTYPE html PUBLIC "-//W3C//D…

爬虫第二篇

太聪明了怎么办&#xff1f;那就&#xff0c;给脑子灌点水&#xff01;&#xff01; 本篇文章我们来简单讲一下如何爬取mv,也就是歌曲视频&#xff0c;那么我们进入正题。 由于上次拿网易云开了刀&#xff0c;那么这次我们拿酷狗开刀。 还是进入上次讲过的页面 注意&#xff…

C#表达式和运算符

本文我们将学习C#的两个重要知识点&#xff1a;表达式和运算符。本章内容会理论性稍微强些&#xff0c;我们会尽量多举例进行说明。建议大家边阅读边思考&#xff0c;如果还能边实践就更好了。 1. 表达式 说到表达式&#xff0c;大家可能感觉有些陌生&#xff0c;我们先来举个…

Jira中bug的流转流程

Jira中bug的状态 1. 处理Bug的流程2. bug状态流转详述bug的状态通常包括 1. 处理Bug的流程 2. bug状态流转详述 bug的状态通常包括 未解决 1. 测试人员创建一个bug&#xff0c;填写bug的详细信息&#xff0c;如概要、bug级别、复现步骤、现状、预期结果等 2. 定位bug&#x…

快手极速版如何查找ip归属地?怎么关掉

在数字化时代&#xff0c;个人隐私的保护成为了广大用户关注的焦点。快手极速版作为一款备受欢迎的短视频应用&#xff0c;其IP归属地的显示与关闭功能自然也成了用户热议的话题。本文将详细介绍如何在快手极速版中查找IP归属地以及如何关闭IP属地显示&#xff0c;帮助用户更好…

BGP边界网关协议(Border Gateway Protocol)路由引入、路由反射器

一、路由引入背景 BGP协议本身不发现路由&#xff0c;因此需要将其他协议路由&#xff08;如IGP路由等&#xff09;引入到BGP路由表中&#xff0c;从而将这些路由在AS之内和AS之间传播。 BGP协议支持通过以下两种方式引入路由&#xff1a; Import方式&#xff1a;按协议类型将…

Solidity03 Solidity变量简述

文章目录 一、变量简述1.1 状态变量1.2 局部变量1.3 全局变量1.4 注意问题 二、变量可见性2.1 public2.2 private2.3 internal2.4 默认可见性2.5 可见性的用处 三、变量初始值3.1 值类型初始值 一、变量简述 变量是指可以保存数据的内部存储单元&#xff0c;里面的数据可以在程…

数据结构---并查集

目录 一、并查集的概念 二、并查集的实现 三、并查集的应用 一、并查集的概念 在一些实际问题中&#xff0c;需要将n个不同的元素划分成一些不相交的集合。开始时&#xff0c;每个元素自成一个单元素集合&#xff0c;然后按一定的规律将归于同一组元素的集合…

STM32 FreeRTOS内存管理简介

在使用 FreeRTOS 创建任务、队列、信号量等对象时&#xff0c;通常都有动态创建和静态创建的方式。动态方式提供了更灵活的内存管理&#xff0c;而静态方式则更注重内存的静态分配和控制。 如果是1的&#xff0c;那么标准 C 库 malloc() 和 free() 函数有时可用于此目的&#…

构建core模块

文章目录 1.环境搭建1.sunrays-common下新建core模块2.引入依赖&#xff0c;并设置打包常规配置 2.测试使用1.启动&#xff01;1.创建模块2.引入依赖3.application.yml 配置MySQL和Minio4.创建启动类5.启动测试 2.common-web-starter1.目录2.WebController.java3.结果 3.common…

【Flink系列】6. Flink中的时间和窗口

6. Flink中的时间和窗口 在批处理统计中&#xff0c;我们可以等待一批数据都到齐后&#xff0c;统一处理。但是在实时处理统计中&#xff0c;我们是来一条就得处理一条&#xff0c;那么我们怎么统计最近一段时间内的数据呢&#xff1f;引入“窗口”。 所谓的“窗口”&#xff…

AIGC与劳动力市场:技术进步与就业结构的重塑

随着人工智能&#xff08;AI&#xff09;技术的迅猛发展&#xff0c;尤其是生成式AI&#xff08;AIGC&#xff09;&#xff0c;劳动力市场正经历前所未有的变革。从内容创作到自动化生产线&#xff0c;几乎每个行业都在经历一场技术的洗礼。然而&#xff0c;这场革命并不是全然…

废品回收小程序,数字化回收时代

随着科技的不断创新发展&#xff0c;废品回收在各种技术的支持下也在不断地创新&#xff0c;提高了市场的发展速度&#xff0c;不仅能够让回收效率更加高效&#xff0c;还能够让居民更加便捷地进行回收&#xff0c;推动废品回收行业的发展。 回收市场机遇 目前&#xff0c;废…

题解 CodeForces 430B Balls Game 栈 C/C++

题目传送门&#xff1a; Problem - B - Codeforceshttps://mirror.codeforces.com/contest/430/problem/B翻译&#xff1a; Iahub正在为国际信息学奥林匹克竞赛&#xff08;IOI&#xff09;做准备。有什么比玩一个类似祖玛的游戏更好的训练方法呢&#xff1f; 一排中有n个球…