Docker上部署LPG(loki+promtail+grafana)踩坑复盘

Docker上部署LPG(loki+promtail+grafana)踩坑复盘

  • 声明
  • 网上配置
  • 部署踩坑
  • 多机采集

在这里插入图片描述

声明

参考掘金文章:https://juejin.cn/post/7008424451704356872
版本高的用docker compose命令,版本低的用docker-compose

按照文章描述,主要准备loki、promtail、docker-compose文件,修改其中部分配置,得到如下文件:

网上配置

  1. loki.yml不用修改:

    auth_enabled: false
    
    server:
      http_listen_port: 3100
    
    ingester:
      lifecycler:
        address: 127.0.0.1
        ring:
          kvstore:
            store: inmemory
          replication_factor: 1
        final_sleep: 0s
      chunk_idle_period: 1h    # 此时没有接收到新日志的任何块都将被刷新
      max_chunk_age: 1h      # 所有的块将刷新时,他们达到这个年龄,默认是1h
      chunk_target_size: 1048576 # Loki将尝试构建最大为1.5MB的块,如果先达到chunk_idle_period或max_chunk_age,则首先刷新
      chunk_retain_period: 30s  # 如果使用索引缓存,必须大于索引读缓存TTL(默认索引读缓存TTL为5m)
      max_transfer_retries: 0   # 块传输禁用
    
    schema_config:
      configs:
        - from: 2021-9-8
          store: boltdb-shipper
          object_store: filesystem
          schema: v11
          index:
            prefix: index_
            period: 24h
    
    storage_config:
      boltdb_shipper:
        active_index_directory: /loki/boltdb-shipper-active
        cache_location: /loki/boltdb-shipper-cache
        cache_ttl: 24h     # 可以在更长的查询周期内提高更快的性能,使用更多的磁盘空间
        shared_store: filesystem
      filesystem:
        directory: /loki/chunks
    
    compactor:
      working_directory: /loki/boltdb-shipper-compactor
      shared_store: filesystem
    
    limits_config:
      reject_old_samples: true
      reject_old_samples_max_age: 168h
    
    chunk_store_config:
      max_look_back_period: 0s
    
    table_manager:
      retention_deletes_enabled: false
      retention_period: 0s
    
    ruler:
      storage:
        type: local
        local:
          directory: /loki/rules
      rule_path: /loki/rules-temp
      alertmanager_url: http://localhost:9093
      ring:
        kvstore:
          store: inmemory
      enable_api: true
    
  2. promtail.yml不用修改:

    server:
      http_listen_port: 9080
      grpc_listen_port: 0
    
    positions:
      filename: /tmp/positions.yaml
    
    clients:
      - url: http://loki:3100/loki/api/v1/push
    
    scrape_configs:
      - job_name: system
        static_configs:
          - targets:
              - localhost
            labels:
              job: varlogs
              __path__: /var/log/*log
    
  3. docker-compose.yml修改service挂载部分:

    version: "3"
    
    services:
      # 日志存储和解析
      loki:
        image: grafana/loki
        container_name: lpg-loki
        volumes:
          - /opt/docker/loki/:/etc/loki/
        # 修改loki默认配置文件路径
        command: -config.file=/etc/loki/loki.yml
        ports:
          - 3100:3100
      
      # 日志收集器
      promtail:
        image: grafana/promtail
        container_name: lpg-promtail
        volumes:
          # 将需要收集的日志所在目录挂载到promtail容器中
          - /opt/logs/health-center/:/var/log/
          - /opt/docker/promtail:/etc/promtail/
        # 修改promtail默认配置文件路径
        command: -config.file=/etc/promtail/promtail.yml
      
      # 日志可视化
      grafana:
        image: grafana/grafana
        container_name: lpg-grafana
        ports:
          - 3000:3000
    
  4. 我的目录结构
    在这里插入图片描述

部署踩坑

  1. cd到docker-compose.yml目录下,后台运行docker compose up -d,第一次拉取镜像较久

    踩坑过程中我注意到直接后台运行然后用logs命令来看日志会更好一些

  2. 完事之后先来几个命令校验:

    docker compose ps,发现只有promtail是运行的

    在这里插入图片描述

    docker compose logs loki,看一下loki日志,提到日期解析异常的问题:

    在这里插入图片描述

    经过一顿gpt,发现是loki配置中的日期没有按照yyyy-MM-dd的格式,于是修改loki配置

    schema_config:
      configs:
        - from: 2021-09-08
          store: boltdb-shipper
          object_store: filesystem
          schema: v11
          index:
            prefix: index_
            period: 24h
    

    完事后先docker compose stop停下来,再重跑一次,然后查看进程,发现,还是loki起不来
    查看日志,这次是这样:

    在这里插入图片描述

    一顿gpt后他说可能是什么目录权限问题,不过网上找到更简便的方式,只需要在loki中添加一句(wal)

    ingester:
      lifecycler:
        address: 127.0.0.1
        ring:
          kvstore:
            store: inmemory
          replication_factor: 1
        final_sleep: 0s
      chunk_idle_period: 1h    # 此时没有接收到新日志的任何块都将被刷新
      max_chunk_age: 1h      # 所有的块将刷新时,他们达到这个年龄,默认是1h
      chunk_target_size: 1048576 # Loki将尝试构建最大为1.5MB的块,如果先达到chunk_idle_period或max_chunk_age,则首先刷新
      chunk_retain_period: 30s  # 如果使用索引缓存,必须大于索引读缓存TTL(默认索引读缓存TTL为5m)
      max_transfer_retries: 0   # 块传输禁用
      wal:
        dir: /loki/.cache/loki/wal/
    

    还是重来一次,暂停,启动,检查进程,这次可以了。
    在这里插入图片描述

  3. 后续就是上grafana配置loki了。

    配置的时候也遇到一个大坑了,就是保存测试的时候提示:Data source connected, but no labels received. Verify that Loki and Promtail is configured properly.

    在这里插入图片描述

    之后一顿搜索,看了github一篇又一篇,检查日志没有问题,检查挂载路径没有问题,3100端口也正常访问。最后在网上看到说加点日志就解决了,果然,在promtail放日志的目录下添加新的日志,再test,就检测到了。

    在这里插入图片描述

  4. 后续继续研究多目录收集以及多机器日志收集,踩了坑再继续复盘。

多机采集

  1. 我在公司的开发环境部署的时候遇到数据源连接报的这个提示:
    Unable to fetch labels from Loki (Failed to call resource), please check the server logs for more details
    在这里插入图片描述
    这个我之前用自己电脑的window docker + 自己服务器部署没有遇到,后面一顿搜索办法发现,只需要连接的url改成:http://loki:3100就可以了,不知道为啥。

  2. 原来在我自己服务器上部署lpg,在自己电脑上只需要部署promtail采集即可,然而在公司开发环境操作后发现服务器2连接不通服务器1端口,ping是可以通,但是telnet端口连接不上。具体步骤如下:
    我使用docker-compose,配置和前面一致,只需要去掉其他不用的服务。然后在promtail.yml中,client连接到上面loki服务器地址,原来我在promtail配置的这个地方填了公网ip:

    clients:
      - url: http://loki服务器公网ip:3100/loki/api/v1/push
    

    然后发现连接不上,换了内网也连接不上,经过一顿gpt后,提示在loki配置中将127.0.0.1改为回环地址:

    ingester:
     lifecycler:
       address: 0.0.0.0
    

    这样Loki 将监听所有可用的网络接口。

  3. 之后重启服务器1的lpg和服务器2的promtail服务,就连接上了。

  4. 可能解决的方案之一:

    #部署lpg的服务器查询3100端口监听:
    [root@test1 lpg]# netstat -tulnp | grep 3100
    tcp6       0      0 :::3100                 :::*                    LISTEN      584297/docker-proxy
    

    GPT提到过:

    1. 根据您提供的 netstat 输出,Loki 服务似乎没有在端口 3100 上监听。相反,docker-proxy 正在监听 TCP6 的端口 3100。这通常发生在 Docker for Mac 或 Docker for Windows 的环境中,其中 Docker 代理负责将容器的端口转发到宿主机的端口。
    2. 提出的可能的解决方案之一:确保 Loki 监听正确的 IP 地址和端口:
      确认 Loki 服务确实在监听 TCP 端口 3100,而不仅仅是 TCP6。您可以通过运行 netstat -tulnp | grep 3100 来检查这一点。如果只有 TCP6 监听,您可能需要重启 Loki 服务以确保它在 TCP 上也监听。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/450721.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

应急响应-Webshell-典型处置案例

网站后台登录页面被篡改 事件背景 在2018年11月29日4时47分,某网站管理员发现网站后台登录页面被篡改,“中招”服务器为windows系统,应采用java语言开发,所使用的中间件为Tomcat。 事件处置 Webshell排查 利用D盾对网站目录进…

C++_包装器

目录 1、包装器的用法 2、包装器的类型 3、包装器的作用 4、包装成员函数 5、bind(绑定) 5.1 bind的用法 5.2 bind减少参数个数 结语 前言: C11的包装器,总称为function包装器,而包装器又称适配器…

模块化机房的成本效益分析

在当今日益数字化的商业环境中,数据中心的建设和运营成本成为企业关注的重点。模块化机房以其独特的优势,不仅满足了快速部署和高效能的需求,还显著降低了总体成本。本文将深入探讨模块化机房在不同方面带来的成本效益。 1.预制模块化设计 …

如何解决由触发器导致 MySQL 内存溢出?

由触发器导致得 OOM 案例分析过程和解决方式。 作者:龚唐杰,爱可生 DBA 团队成员,主要负责 MySQL 技术支持,擅长 MySQL、PG、国产数据库。 爱可生开源社区出品,原创内容未经授权不得随意使用,转载请联系小编…

如何用 RAG 技术玩转文档问答?Milvus × 网易有道 QAnything 为你揭秘!

过去一年,RAG 在技术层面发展迅速,为向量数据库赛道添了一把火。RAG 和向量数据库的结合,能够有效解决幻觉、时效性差、专业领域知识不足等阻碍大模型应用的核心问题。 不久前,网易有道开源了自研的 RAG 引擎 QAnything。用户的任…

如何下载安装chromium浏览器

下载安装chromium浏览器去这个网站下载: CNPM Binaries Mirror 参考链接:手写 Puppeteer:自动下载 Chromium - 知乎

渲染农场:大规模渲染任务的高效处理方式

在当今的数字内容创作领域,渲染农场是处理大规模渲染任务的关键技术,它利用多台计算机的集群来分担复杂的渲染工作,大大提高了效率和速度。这篇文章将深入探讨渲染农场的工作原理、技术架构,以及如何根据需求选择合适的渲染农场。…

Vmware 点进centos不显示鼠标

今天安装了Vmward16 安装后在里面安装了centos7,但进入centos7 时没显示鼠标,但有点击效果。 设置了右上角的 编辑->首选项 -输入-》单击鼠标时抓取键盘和鼠标输入然后重启下vmware,但鼠标还是不显示 后面我的电脑重启了,然后…

【数学】【网格】【状态压缩】782 变为棋盘

作者推荐 视频算法专题 本文涉及知识点 数学 网格 状态压缩 LeetCode:782 变为棋盘 一个 n x n 的二维网络 board 仅由 0 和 1 组成 。每次移动,你能任意交换两列或是两行的位置。 返回 将这个矩阵变为 “棋盘” 所需的最小移动次数 。如果不存在可行的变换&am…

小区水电智能化系统

随着科技的进步,我们的生活变得越来越智能化,而小区水电智能化系统正是这一趋势的典范。这个系统不仅仅是一种便利,更是未来智慧生活的关键组成部分。让我们一起来了解一下它的奥秘吧! 让我们来看看小区水电智能化系统的核心:智能…

【Spring】idea连接mysql数据库

1 MySQL安装 下载地址:https://dev.mysql.com/downloads/installer/ 安装server only选项,之后的可以选择默认安装选项 2 MySQL登录并创建数据 -- 创建数据库 create databases spring_db; use spring_db; -- 创建表 create table users (id INT AUTO…

现货黄金交易网上有用的交易技巧

在不同的现货黄金交易网上,经常有投资者分享交易技巧。由于在网上发文没什么限制,所以这些交易技巧都是泥沙俱下,质量良莠不齐。不过也有一些是有用的,下面我们就来介绍一下现货黄金交易网上那些有用的交易技巧。 培养防守意识。什…

DataFunSummit 2023因果推断在线峰会:解码数据与因果,引领智能决策新篇章(附大会核心PPT下载)

在数据驱动的时代,因果推断作为数据科学领域的重要分支,正日益受到业界的广泛关注。DataFunSummit 2023年因果推断在线峰会,汇聚了国内外顶尖的因果推断领域专家、学者及业界精英,共同探讨因果推断的最新进展、应用与挑战。本文将…

滑动窗口的概念,糊涂窗口综合征,nagle算法

目录 1.流量控制 2.滑动窗口 3.思考问题 1.流量控制 一般来说,我们总是希望数据传输得更快一些,但如果发送方把数据发送得过快,接收方就可能来不及接收,这就会造成数据的丢失.所谓流量控制(flow control)就是发送方的发送速率不要太快,要让接收方来得及接收. 2.滑动窗口 T…

因为manifest.json文件引起的 android-chrome-192x192.png 404 (Not Found)

H5项目打包之后,总是有这个报错,有时候还有别的icon也找不见 一通调查之后,发现是因为引入了一个vue插件 这个插件引入之后,webpack打包的时候就会自动在dist文件夹中产生一个manifest.json文件这个文件里面主要就是一些icon地址的…

el-select 选项文字超长解决方案

先看现象 省略号显示 <el-selectv-model"configs.domain.secondLevel"style"width: 100%"filterableallow-createdefault-first-optionplaceholder"请输入二级网段名称&#xff0c;例如&#xff1a;广州研发中心/研发网"focus"setOpti…

#QT(本地音乐播放器)

1.IDE&#xff1a;QTCreator 2.实验&#xff1a;之前做的音乐播放器只做了一个界面&#xff0c;是因为跟的课程发现到后面需要付费&#xff0c;并且WINGW6.2.0运行QMediaPlayer时无法运行&#xff0c;会崩溃&#xff0c;现在退一步用WINGW5.12.2做一个本地音乐播放器 3.记录&am…

漏洞挖掘 | 没有弱口令的挖掘思路

没有弱口令怎么挖&#xff1f;依稀记得有一个很老的思路叫做禁用js可以跳转后台&#xff0c;奈何学习两年半到现在从未发现一个这种漏洞。 不过&#xff0c;虽然不能直接搞到未授权后台登录&#xff0c;但是站有站的设计&#xff0c;小白有小白的打法&#xff01; 访问某URL&am…

web开发——前端html、css、JavaScript学习总结(持续更新中.......)

目录模版 1 html:结构标签/属性文本标记: mark文本设置:删除线del / 下划线ins/ 加粗b / 强调的文本em / 重要的文本 strong超链接: a联系信息: addressdiv 定义文档中的分区或节: div行元素:spanhtml结构: main / section / articlenav表格:table html中各种标签/属性的英文扩…

ubuntu下vscode+STM32CubeMX+openocd+stlinkv2搭建STM32开发调试下载环境

1、换源 清华源 # 默认注释了源码镜像以提高 apt update 速度&#xff0c;如有需要可自行取消注释 deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ jammy main restricted universe multiverse # deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ jammy main restr…