Python 全栈系列242 踩坑记录:租用算力机完成任务

说明

记一次用算力机分布式完成任务的坑。

内容

1 背景

很早的时候,做了一个实体识别模型。这个模型可以识别常见的PER、ORG、LOC和TIME几种类型实体。

后来,因为主要只用来做PER、ORG的识别,于是我根据业务数据,重新训练了模型。

再后来,因为在输入和输出端存在问题,于是我做了函数链的封装。输入的问题例如:字符串存在非utf8字符,输出的问题例如主体识别会多一个字,或者过短的实体。总之,函数链封装之后,看起来是一个整体。能适应当时业务的问题。

然后,因为业务上的需求,需要最快速度处理完900万篇文档。

顺带的,我把数据存了clickhouse,计算平均长度是3k。
在这里插入图片描述

2 过程

2.1 nginx反向代理

一开始采用在本地部署nginx反向代理,然后租用算力机启动多个服务来进行分摊。这样只要填写租用算力机的IP:端口就可以横向拓展算力了。

实操时,一方面要不断修改nginx的配置,重启,会浪费很多手工。另外发现,由于租用机的网络会有抖动(总体来说带宽大,但不稳),而当前设计每次处理耗时较长,一旦出错时间就全部浪费了。

2.2 租用机本地服务+任务

租用了算力机,然后把本地文件同步过去。然后在租用的机器上启动3个服务,然后通过脚本均匀分配任务执行。最后将结果回传,写入。

过程中的第一个坑是文件传送。文件整体大小是25G, 按UCS的方式切分数据,只有一个block(0.0.0), 其下有874个brick。在规划上,是启动3台机器,每台机器3个服务,共9条线进行处理。在拷贝时本来是可以通过命令只传送每台机器对应的数据的,但是一时间没有调好命令。时间又比较急,所以用了笨办法,将25G传到每台机器。然后就花了很多手工时间,也花了1个多小时传送数据。

# 命令语句例子
123

rsync -rvltz -e 'ssh -p 46717'  --progress /home/data4T/news_data_1800w_batch2/left root@s9vyc6vwjag1.com:/root/andy/

回传结果

rsync -rvltz -e 'ssh -p 46717'  --progress root@s9vyc6vwjag1.com:/root/andy/right/ /home/data4T/news_data_1800w_batch2/right/

第二个坑就是启动服务,修改服务文件,然后写worker, player这种方式去手动的规划任务了。一方面真的浪费很多手工时间,另一方面也浪费了很多处理时间。原来的设计就是server模式的,这种方式更适合应对持续性的需求,这次任务属于一次性的,其实应该采取worker模式。从显存上看,server模式会一直维持显存,且可能不断增大,所以只能开3个进程。如果是worker模式,那么资源随用随放,我认为开5个worker都没有问题,所以模式的选择错误,又浪费了计算时间。

2.3 其他

还有一些坑。

原来的服务把出具处理和实体识别包在一起了,极大降低了显卡资源利用率。以后应当把资源耗用集中度也作为耦合设计的一个原则(原来只是考虑逻辑复杂性)。

使用文件的方式不可取。一方面是涉及到的手工操作太多,各种文件同步命令,非常浪费时间。最近正好部署了clickhouse,非常适合用于大文件的存取,这也对应了UCS设计中的brick操作,设计可以落地了。

使用数据库,可以规范数据格式。本次在读取pkl文件的时候碰到:ModuleNotFoundError: No module named 'pandas.core.indexes.numeric'错误。大概是因为租用机的pandas、pickle版本的问题。所以后来不得不在本地进行数据的集成,又浪费了很多手工操作。

最后在准备收集数据批量提交时,我稍微修改了一下模式:没有再回收文件到本地,而是存到了clickhouse。然后再按照brick从clickhouse中读取,分块存到postgres。

在存储数据的时候,我倒是又想到了一个问题,就是重复主键。如何避免主键的重复插入?

一种通用的方式是批量的使用主键查询,然后只插入差集。(这些在WMongo都实现了,只是新的库还需要重新适配开发一下)

本次的解决方案是用meta记录brick,按照brick进行批量的增删。

总结

如果再来一次,我会把文件传到一个算力机,然后建一个clickhouse,数据全部写进去。然后将任务写到队列中,按照brick作为基本单位。然后租用更多的算力机,每个算力机上启动n个worker。worker工作时到队列中获取brick,然后根据brick从clickhouse中取数。处理完成后,数据写到结果表。写表前根据brick判断,是否可以插入。

这样的话,估计手工的时间只需要2个小时,整体跑数时间应该短于6小时。

其他:

  • 1 可能会因为连接不稳,而导致处理中断。–不合适把租用机作为稳定的后端服务业源
  • 2 不要只考虑server模式,也要考虑worker模式。 e.g. streamlit --> 前端, tornado --> api, clickhouse,rabbitmq --> worker
  • 3 大量传输数据还是很费时的,传输25个G可能会要1个小时
  • 4 耦合设计:资源集中度、逻辑复杂性
  • 5 使用数据库,非常节约手工操作的时间
  • 6 使用clickhouse的整体感觉还不错
  • 7 不要小气,在执行任务的时候不妨再租一个算力机做中转(带宽大)
  • 8 可能需要使用anaconda搭建虚拟环境(不是所有算力机都允许启动镜像)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/609648.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

免费矢量图标汇总:一文掌握10个优质网站!

矢量图标是我们日常设计应用程序和网页过程中不可缺少的元素之一。通过小矢量图标,我们可以快速方便地实现视觉指导和功能划分。但在创作中,设计师往往需要花费大量的时间和精力来寻找不同网站的矢量图标,以满足他们的设计需求,这…

跨域问题(服务器和浏览器之间)待补充

一、为什么产生: 同源策略(域名,协议,端口),安全问题 二、怎么解决: 1、cros:修改响应头 2、jp:采用js标签 3、代理(创建服务器,定义规则,服…

就业班 第三阶段(zabbix) 2401--5.9 day1 普通集zabbix 5.0部署 nginx部署+agent部署

文章目录 环境一、zabbix 5.0 部署1、安装yum源2、安装相关软件3、数据库安装和配置mariaDB数据库mysql57数据库 安装mysql万能卸载mysql代码:启动mysql并初始化4、数据表导入5、修改配置,启动服务6、配置 web GUI7、浏览器访问注意数据加密的选项不要勾…

走进CHEN MEI HUA的设计哲学:书写东方女性力量与态度的时尚篇章

在时尚的舞台中央,品牌不止是商品,更是故事的讲述者、文化的传承者。CHEN MEI HUA,一个源自中国上海的高端女装品牌,以其独特的设计理念及文化内核,成为了时尚界一颗耀眼的明珠。今天,让我们一起走进CMH的世…

[android]Activity生命周期

andorid app 开发入门与项目实战

SH150S1光电吊舱

SH150S1光电吊舱 1产品应用 SH150S1是一款三轴三光吊舱,集成了最远测程达3.0km,精度小于2米的半导体激光测距机,640512高分辨率红外相机,30倍光学变倍可见光相机以及高稳定精度平台框架;可安装于中小型无人机&#x…

2024数维杯数学建模A题B题C题思路+模型+代码(开赛后第一时间更新)

2024数维杯数学建模A题B题C题思路模型代码(开赛后第一时间更新) https://mbd.pub/o/bread/ZpWakpdq https://mbd.pub/o/bread/ZpWakpdq 2024年第九届数维杯大学生数学建模挑战赛参赛规则 竞赛要求及论文提交方式; ①本次参赛作品统一在线提交到竞赛…

海外邮件群发工具的使用方法?有哪些限制?

海外邮件群发工具怎么选择?使用邮件群发工具的优势? 海外邮件群发工具成为了企业开展海外推广、联系客户、推广产品和服务的重要工具。但如何有效地使用这一工具,成为了众多营销人员关注的问题。接下来,AokSend将详细探讨海外邮件…

两种方法合并3dtiles(分别使用js/java)

目录 前言: 需合并的json目录 aa/tileset.json bb/tileset.json cc/tileset.json dd/tileset.json ee/tileset.json js源码: 运行命令: 生成结果: java源码: Matrix.java ThreeDTilesJoin2.java pom文件…

解析Spring中的循环依赖问题:初探三级缓存

什么是循环依赖? 这个情况很简单,即A对象依赖B对象,同时B对象也依赖A对象,让我们来简单看一下。 // A依赖了B class A{public B b; }// B依赖了A class B{public A a; }这种循环依赖可能会引发问题吗? 在没有考虑Sp…

从古代故事中领悟高情商回话

页面 页面代码 <% layout(/layouts/default.html, {title: 故事管理, libs: [dataGrid]}){ %> <div class"main-content"><div class"box box-main"><div class"box-header"><div class"box-title">&l…

ChatGPT开源的whisper音频生成字幕

1、前言 好了&#xff0c;那接下来看一下whisper开源库的介绍 有五种模型大小&#xff0c;其中四种仅支持英语&#xff0c;提供速度和准确性的权衡。上面便是可用模型的名称、大致的内存需求和相对速度。如果是英文版的语音&#xff0c;直接想转换为英文。 本来我是想直接在我的…

Java 变量类型

Java 变量类型 在 Java 语言中&#xff0c;所有的变量在使用前必须声明。 声明变量的基本格式如下&#xff1a; type identifier [ value][, identifier [ value] …] ; 格式说明&#xff1a; type – 数据类型。 identifier – 是变量名&#xff0c;可以使用逗号 , 隔开来…

【mysql】mysql导入导出数据详解

✨✨ 欢迎大家来到景天科技苑✨✨ &#x1f388;&#x1f388; 养成好习惯&#xff0c;先赞后看哦~&#x1f388;&#x1f388; &#x1f3c6; 作者简介&#xff1a;景天科技苑 &#x1f3c6;《头衔》&#xff1a;大厂架构师&#xff0c;华为云开发者社区专家博主&#xff0c;…

使用规则进行命名实体识别(NER)

使用规则进行命名实体识别&#xff08;NER&#xff09; 命名实体识别&#xff08;Named Entity Recognition&#xff0c;NER&#xff09;是自然语言处理&#xff08;NLP&#xff09;中的一项基础任务&#xff0c;它旨在从文本中识别出具有特定意义的实体&#xff0c;如人名、地…

idea java 后缀补全

ArrayList<$EXPR$> enters new ArrayList<>();for (int i 0; i < enters.size(); i) {$EXPR$ enter enters.get(i);enter$END$} 让编程效率翻倍的IDEA快捷键—自定义后缀补全_哔哩哔哩_bilibili

每日两题 / 2. 两数相加 19. 删除链表的倒数第 N 个结点(LeetCode热题100)

2. 两数相加 - 力扣&#xff08;LeetCode&#xff09; 高精度加法&#xff0c;用vector保存两个操作数&#xff0c;进行高精度加法后&#xff0c;将保存结果的vector转换成链表即可 /*** Definition for singly-linked list.* struct ListNode {* int val;* ListNod…

最长递增子序列 详解 CPP

目录 前言思路梳理题解最优思路 我的思路思路一 考虑连续 对一半 思路二 基于思路一的优化 思路三 基于思路二的优化 √ 通过了但是效率太低 我的代码 前言 今天继续做动态dp的第三题&#xff0c;最大子序和&#xff0c;昨天做最大连续子数组的和已经有一些写状态转移方程的经…

Docker Compose:简化多容器应用部署

序言 在当今的软件开发中&#xff0c;容器化技术的使用已经很普遍了。而 Docker 作为其中最流行的容器化平台之一&#xff0c;为开发者提供了方便、快捷、一致的开发和部署环境。但是&#xff0c;当我们的应用开始变得更加复杂&#xff0c;涉及到多个容器时&#xff0c;手动管…

kafka(七)——消息偏移(消费者)

概念 消费者消费完消息后&#xff0c;向_consumer_offset主题发送消息&#xff0c;用来保存每个分区的偏移量。 流程说明 consumer发送JoinGroup请求&#xff1b;coordinator选出一个consumer作为leader&#xff0c;并将topics发送给leader消费者&#xff1b;leader consumer…