RIPGeoo代码理解(一)preprocess.py(预处理数据集并为模型运行执行IP聚类)

代码链接:RIPGeo代码实现

一、导入各种模块和数据库

# Load data and IP clustering

import math
import random
import pandas as pd
import numpy as np
import argparse
from sklearn import preprocessing
from lib.utils import MaxMinScaler

加载数据和IP聚类,这些导入语句是为了引入在后续代码中可能会使用到的数学、随机数、数据处理等工具和库。

1、import math:导入 Python 的 math 模块,该模块提供了数学运算的函数。

2、import random:导入 Python 的 random 模块,该模块提供了生成伪随机数的函数。

3、import pandas as pd:导入 pandas 库,并将其简写为 pd用于处理和分析数据

4、import numpy as np:导入 numpy 库,并将其简写为 np,用于支持大量的维度数组和矩阵运算。

5、import argparse:导入 argparse 模块,用于解析命令行参数

6、from sklearn import preprocessing:从 sklearn 库导入数据预处理模块 preprocessing,用于数据预处理。

7、from lib.utils import MaxMinScaler从自定义的 lib.utils 模块中导入 MaxMinScaler 类。这是一个简单的最大最小值归一化(Max-Min Scaling)的类,用于将数据缩放到指定的范围。

二、使用argparse库创建了一个命令行解析器

parser = argparse.ArgumentParser()

parser.add_argument('--dataset', type=str, default='New_York', choices=["Shanghai", "New_York", "Los_Angeles"],
                    help='which dataset to use')
parser.add_argument('--train_test_ratio', type=float, default=0.8, help='landmark ratio')
parser.add_argument('--lm_ratio', type=float, default=0.7, help='landmark ratio')
parser.add_argument('--seed', type=int, default=1234)

opt = parser.parse_args()
print("Dataset: ", opt.dataset)

这部分代码的功能是通过命令行输入来配置脚本的行为。用户可以在运行脚本时通过命令行参数指定数据集名称、训练集测试集比例、地标比例以及随机数生成的种子等参数。解析后,这些参数将在脚本中被引用,从而影响程序的行为。

1、parser = argparse.ArgumentParser()创建一个ArgumentParser对象,用于解析命令行参数。

2、parser.add_argument('--dataset', type=str, default='New_York', choices=["Shanghai", "New_York", "Los_Angeles"],help='which dataset to use'): 添加命令行参数。

3、parser.add_argument('--train_test_ratio', type=float, default=0.8, help='landmark ratio'):用于指定训练集和测试集的比例,默认值是 0.8

4、parser.add_argument('--lm_ratio', type=float, default=0.7, help='landmark ratio'):用于指定地标的比例,默认值是 0.7(训练集中地标landmark的占比)

5、parser.add_argument('--seed', type=int, default=1234): 用于指定随机数生成的种子,默认值是 1234

6、opt = parser.parse_args():解析命令行参数,并将解析结果存储在 opt 对象中opt 对象将包含命令行传入的各个参数的值。

三、get_XY()

def get_XY(dataset):
    data_path = "./datasets/{}/data.csv".format(dataset)
    ip_path = './datasets/{}/ip.csv'.format(dataset)
    trace_path = './datasets/{}/last_traceroute.csv'.format(dataset)

    data_origin = pd.read_csv(data_path, encoding='gbk', low_memory=False)
    ip_origin = pd.read_csv(ip_path, encoding='gbk', low_memory=False)
    trace_origin = pd.read_csv(trace_path, encoding='gbk', low_memory=False)

    data = pd.concat([data_origin, ip_origin, trace_origin], axis=1)
    data.fillna({"isp": '0'}, inplace=True)

    # labels
    Y = data[['longitude', 'latitude']]
    Y = np.array(Y)

    # features
    if dataset == "Shanghai":  # Shanghai
        # classification features
        X_class = data[['orgname', 'asname', 'address', 'isp']]
        scaler = preprocessing.OneHotEncoder(sparse=False)
        X_class = scaler.fit_transform(X_class)

        X_class1 = data['isp']
        X_class1 = preprocessing.LabelEncoder().fit_transform(X_class1)
        X_class1 = preprocessing.MinMaxScaler().fit_transform(np.array(X_class1).reshape((-1, 1)))

        X_2 = data[['ip_split1', 'ip_split2', 'ip_split3', 'ip_split4']]
        X_2 = preprocessing.MinMaxScaler().fit_transform(np.array(X_2))

        X_3 = data[['aiwen_ping_delay_time', 'vp806_ping_delay_time', 'vp808_ping_delay_time', 'vp813_ping_delay_time']]
        delay_scaler = MaxMinScaler()
        delay_scaler.fit(X_3)
        X_3 = delay_scaler.transform(X_3)

        X_4 = data[['aiwen_tr_steps', 'vp806_tr_steps', 'vp808_tr_steps', 'vp813_tr_steps']]
        step_scaler = MaxMinScaler()
        step_scaler.fit(X_4)
        X_4 = step_scaler.transform(X_4)

        X_5 = data['asnumber']
        X_5 = preprocessing.LabelEncoder().fit_transform(X_5)
        X_5 = preprocessing.MinMaxScaler().fit_transform(np.array(X_5).reshape(-1, 1))

        X_6 = data[
            ['aiwen_last1_delay', 'aiwen_last2_delay_total', 'aiwen_last3_delay_total', 'aiwen_last4_delay_total',
             'vp806_last1_delay', 'vp806_last2_delay_total', 'vp806_last3_delay_total', 'vp806_last4_delay_total',
             'vp808_last1_delay', 'vp808_last2_delay_total', 'vp808_last3_delay_total', 'vp808_last4_delay_total',
             'vp813_last1_delay', 'vp813_last2_delay_total', 'vp813_last3_delay_total', 'vp813_last4_delay_total']]
        X_6 = np.array(X_6)
        X_6[X_6 <= 0] = 0
        X_6 = preprocessing.MinMaxScaler().fit_transform(X_6)

        X = np.concatenate([X_class1, X_class, X_2, X_3, X_4, X_5, X_6], axis=1) # dimension =51

    elif dataset == "New_York" or "Los_Angeles":  # New_York or Los_Angeles
        X_class = data['isp']
        X_class = preprocessing.LabelEncoder().fit_transform(X_class)
        X_class = preprocessing.MinMaxScaler().fit_transform(np.array(X_class).reshape((-1, 1)))

        X_2 = data[['ip_split1', 'ip_split2', 'ip_split3', 'ip_split4']]
        X_2 = preprocessing.MinMaxScaler().fit_transform(np.array(X_2))

        X_3 = data['as_mult_info']
        X_3 = preprocessing.LabelEncoder().fit_transform(X_3)
        X_3 = preprocessing.MinMaxScaler().fit_transform(np.array(X_3).reshape(-1, 1))

        X_4 = data[['vp900_ping_delay_time', 'vp901_ping_delay_time', 'vp902_ping_delay_time', 'vp903_ping_delay_time']]
        delay_scaler = MaxMinScaler()
        delay_scaler.fit(X_4)
        X_4 = delay_scaler.transform(X_4)

        X_5 = data[['vp900_tr_steps', 'vp901_tr_steps', 'vp902_tr_steps', 'vp903_tr_steps']]
        step_scaler = MaxMinScaler()
        step_scaler.fit(X_5)
        X_5 = step_scaler.transform(X_5)

        X_6 = data[
            ['vp900_last1_delay', 'vp900_last2_delay_total', 'vp900_last3_delay_total', 'vp900_last4_delay_total',
             'vp901_last1_delay', 'vp901_last2_delay_total', 'vp901_last3_delay_total', 'vp901_last4_delay_total',
             'vp902_last1_delay', 'vp902_last2_delay_total', 'vp902_last3_delay_total', 'vp902_last4_delay_total',
             'vp903_last1_delay', 'vp903_last2_delay_total', 'vp903_last3_delay_total', 'vp903_last4_delay_total']]
        X_6 = np.array(X_6)
        X_6[X_6 <= 0] = 0
        X_6 = preprocessing.MinMaxScaler().fit_transform(X_6)

        X = np.concatenate([X_2, X_class, X_3, X_4, X_5, X_6], axis=1) # dimension =30

    return X, Y, np.array(trace_origin)

这个函数用于从指定数据集加载并预处理数据,返回用于训练的特征 (X)、标签 (Y) 以及原始的跟踪数据 (trace_origin)。

分为几个部分展开描述:

1、加载数据并处理

data_path = "./datasets/{}/data.csv".format(dataset)
ip_path = './datasets/{}/ip.csv'.format(dataset)
trace_path = './datasets/{}/last_traceroute.csv'.format(dataset)

data_origin = pd.read_csv(data_path, encoding='gbk', low_memory=False)
ip_origin = pd.read_csv(ip_path, encoding='gbk', low_memory=False)
trace_origin = pd.read_csv(trace_path, encoding='gbk', low_memory=False)

data = pd.concat([data_origin, ip_origin, trace_origin], axis=1)
data.fillna({"isp": '0'}, inplace=True)

这部分代码主要是从三个文件(data.csvip.csvlast_traceroute.csv)中加载数据,进行合并和预处理。

(1)data_path = "./datasets/{}/data.csv".format(dataset):构建包含数据文件路径的字符串,其中 {} 是一个占位符,将被 format(dataset) 中的 dataset 变量替代。

(2)ip_path = './datasets/{}/ip.csv'.format(dataset):构建包含 IP 地址文件路径的字符串。

(3)trace_path = './datasets/{}/last_traceroute.csv'.format(dataset):构建包含最后一次路由跟踪文件路径的字符串。

(4)data_origin = pd.read_csv(data_path, encoding='gbk', low_memory=False):使用 Pandas 库的 read_csv 函数从 data.csv 文件中读取数据。参数 encoding='gbk' 表示使用 gbk 编码读取文件,low_memory=False 表示禁用内存优化,以确保能够处理大型文件。

(5)ip_origin = pd.read_csv(ip_path, encoding='gbk', low_memory=False):从 ip.csv 文件中读取 IP 地址相关的数据。

(6)trace_origin = pd.read_csv(trace_path, encoding='gbk', low_memory=False):从 last_traceroute.csv 文件中读取最后一次路由跟踪的数据。

(7)data = pd.concat([data_origin, ip_origin, trace_origin], axis=1):将三个数据框按列(axis=1)进行拼接,形成一个包含所有信息的新数据框 data

(8)data.fillna({"isp": '0'}, inplace=True):使用字符串 '0' 填充数据框中的缺失值,需要填充的是isp 列的缺失值。inplace=True 表示在原地修改数据框而不返回新的数据框。这个步骤主要是为了处理缺失值,将缺失的 isp 列中的值替换为 '0'。

2、处理数据中的标签(labels)

# labels
Y = data[['longitude', 'latitude']]
Y = np.array(Y)

这部分代码的整体功能是从数据中提取经度和纬度两列,将它们存储在 NumPy 数组 Y 中,以便后续在机器学习模型中使用。这通常是监督学习任务中的标签或目标值,而 'longitude' 和 'latitude' 则是地理坐标信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/470070.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

VMware虚拟机硬盘容量扩容方法

扩容后不会影响原文件。亲测有效&#xff0c;高效便捷 - 在关机状态下&#xff0c;先在VM上直接扩容硬盘容量&#xff0c;输入扩容后的硬盘最大容量 注意&#xff0c;如果想在原硬盘上增加容量&#xff0c;需要将原来的快照都删除 - 输入最大磁盘大小 运行虚拟机进入系统&…

HarmonyOS NEXT应用开发之搜索页一镜到底案例

介绍 本示例介绍使用bindContentCover、transition、animateTo实现一镜到底转场动画&#xff0c;常用于首页搜索框点击进入搜索页场景。 效果图预览 使用说明 点击首页搜索框跳转到搜索页面显式一镜到底转场动画 实现思路 通过点击首页搜索框改变bindContentCover全屏模态…

修改/etc/resolve.conf重启NetworkManager之后自动还原

我ping 百度报错&#xff1a; [rootk8snode1 ~]# ping baidu.com ping: baidu.com: Name or service not known很明显&#xff0c;这是DNS解析问题。 于是我修改 /etc/resolv.conf 文件后&#xff0c;执行完sudo systemctl restart NetworkManager&#xff0c;/etc/resolv.con…

3DMAX如何设置最终效果图的渲染参数?干货

电脑如果配置好一点&#xff0c;可以用如下参数 公用:分辨率2500x1875 全局开关-高级&#xff0c;勾选隐藏灯光开始默认灯光&#xff0c;自适应8vray:颜色映射-高级&#xff0c;类型选择线性倍增&#xff0c;暗部倍增0.8&#xff0c;亮部倍增1.0&#xff0c;模式选择仅颜色映…

MQ之Spring AMQP学习

Spring AMQP学习 Spring AMQP AMQP是Advanced Message Queuing Protocol的缩写。AMQP是用于在应用程序之间传递消息的开放标准&#xff0c;该协议与语言和平台无关&#xff0c;更符合微服务中独立性的要求。 Spring AMQP是基于AMQP协议定义的一套API规范&#xff0c;提供了模…

SpringBoot + MyBatisPlus分页查询

文章目录 1.思路分析2.分页查询后端实现1.com/sun/furn/config/MybatisConfig.java 注入MyBatisPlus分页拦截器2.com/sun/furn/controller/FurnController.java 添加方法3.postman测试 3.分页查询前端实现1.src/views/HomeView.vue 引入分页导航条组件2.src/views/HomeView.vue…

Zama:链上隐私新标准

1. 引言 揭示 Web3 中全同态加密的潜在用例&#xff0c;并深入研究 Zama 的四种主要开源产品&#xff1a; TFHE-rsConcreteConcrete MLfhEVM 众所周知&#xff0c;在当今时代&#xff0c;数据隐私问题与互联网诞生以来一样普遍。仅 Yahoo!、Equifax 和 Marriott 的数据泄露就…

STM32CubeIDE基础学习-EXTI外部中断实验

STM32CubeIDE基础学习-EXTI外部中断实验 文章目录 STM32CubeIDE基础学习-EXTI外部中断实验前言第1章 硬件介绍第2章 工程配置2.1 工程外设配置部分2.2 生成工程代码部分 第3章 代码编写第4章 实验现象总结 前言 中断概念&#xff1a;让CPU打断正在执行的程序&#xff0c;进而去…

前端项目,个人笔记(五)【图片懒加载 + 路由配置 + 面包屑 + 路由行为修改】

目录 1、图片懒加载 步骤一&#xff1a;自定义全局指令 步骤二&#xff1a;代码中使用 ​编辑步骤三&#xff1a;效果查看 步骤四&#xff1a;代码优化 2、封装组件案例-传对象 3、路由配置——tab标签 4、根据tab标签添加面包屑 4.1、实现 4.2、bug&#xff1a;需要…

如何根据企业需求选择合适的SSL证书类型?

在当前互联网环境中&#xff0c;企业对网站安全及数据防护日益重视。SSL证书作为确保网站数据传输安全的重要工具&#xff0c;在此背景下显得尤为重要。然而&#xff0c;面对众多类型的SSL数字证书&#xff0c;企业在选择时可能会感到困惑。本文将列出关键考量因素与步骤&#…

爬虫逆向实战(37)-某保险超市(AES,SHA256)

一、数据接口分析 主页地址&#xff1a;某保险超市 1、抓包 通过抓包可以发现数据接口是/tacpc/tiananapp/marketing_product_commodity/commodityList 2、判断是否有加密参数 请求参数是否加密&#xff1f; 通过查看“载荷”模块可以发现&#xff0c;有一个jsonKey加密参…

前端静态开发案例-基于H5C3开发的仿照视频网站的前端静态页面-2 样式表部分和效果展示

原创作者&#xff1a;田超凡&#xff08;程序员田宝宝&#xff09; 版权所有&#xff0c;引用请注明原作者&#xff0c;严禁复制转载 charset "utf-8"; /* 程序员田宝宝原创版权所有&#xff0c;仿冒必究&#xff0c;该界面是仿照某视频网站官网开发的静态页面 */ …

OpenCV学习笔记(十)——利用腐蚀和膨胀进行梯度计算以及礼帽和黑帽

梯度计算 在OpenCV中&#xff0c;梯度计算是图像处理中的一个基本操作&#xff0c;用于分析图像中像素值的变化速率的方向&#xff0c;其中梯度的方向是函数变化最快的方向&#xff0c;因此在图像中&#xff0c;沿着梯度方向可以找到灰度值变化最大的区域&#xff0c;这通常是…

11|代理(下):结构化工具对话、Self-Ask with Search以及 Plan and execute代理

在上一讲中&#xff0c;我们深入LangChain程序内部机制&#xff0c;探索了AgentExecutor究竟是如何思考&#xff08;Thought&#xff09;、执行&#xff08;Execute/Act&#xff09;和观察&#xff08;Observe&#xff09;的&#xff0c;这些步骤之间的紧密联系就是代理在推理&…

Java中json字符串解析的常用类型写法示例与性能分析

下面是几个常用的库及如何使用它们来解析JSON字符串为数组的例子&#xff1a; 要是需要GPT Plus账号的小伙伴可以联系我~ 1. Jackson import com.fasterxml.jackson.databind.ObjectMapper; import com.fasterxml.jackson.databind.JsonNode;String panelInfo requestTempl…

Geostationary IR Channel Brightness Temperature - GridSat B1 -- shell下载

进入网页 https://www.ncei.noaa.gov/products/gridded-geostationary-brightness-temperature 然后进入数据目录&#xff0c;通过https的方式进行下载&#xff1a; 点击后进入如下界面&#xff1a; 点击任意年份进行下载 这里以2004年为例&#xff0c;如下所示&#xff1…

再一次出现sysfs: cannot create duplicate filename ‘/class/leds/led1‘解决方法

在做platform driver驱动实验时出现又出现了sysfs: cannot create duplicate filename /class/leds/led1问题。 问题描述&#xff1a; 执行insmod leds_s5pv210_platform.ko后报如下错误&#xff1a; sysfs: cannot create duplicate filename /class/leds/led1 分析步骤&…

刷题日记:面试经典 150 题 DAY6

刷题日记&#xff1a;面试经典 150 题 DAY6 392. 判断子序列167. 两数之和 II - 输入有序数组11. 盛最多水的容器15. 三数之和209. 长度最小的子数组 392. 判断子序列 原题链接 392. 判断子序列 双指针&#xff0c;i指向s&#xff0c;j指向t 如果s[i]t[j]&#xff0c;则匹配…

Vue 计算属性和监视属性

Vue 计算属性和监视属性 computed computed 计算属性 规则&#xff1a; 用已有的属性计算不存在的属性默认调用一次get()只有值不发生改变的时候才可以使用简写&#xff08;函数&#xff09;&#xff1b;值发生改变 使用对象式写法&#xff0c;才可以配置set()方法底层原理使…

threejs之贴图原理

// 导入threejs import * as THREE from "three"; // 导入轨道控制器 import { OrbitControls } from "three/examples/jsm/controls/OrbitControls.js";// 创建场景 const scene new THREE.Scene();// 创建相机 const camera new THREE.PerspectiveCame…