【机器学习】数据探索---python主要的探索函数

在上一篇博客【机器学习】数据探索(Data Exploration)—数据质量和数据特征分析中,我们深入探讨了数据预处理的重要性,并介绍了诸如插值、数据归一化和主成分分析等关键技术。这些方法有助于我们清理数据中的噪声、消除异常值,以及降低数据的维度,从而为后续的机器学习模型训练提供更有价值的信息。

然而,数据预处理只是数据探索的一部分。在本篇博客中,我们将进一步探讨Python中一些主要的探索函数,这些函数将帮助我们更深入地理解数据的分布、特征之间的关系,以及数据中可能存在的模式。而在Python的数据探索领域,Pandas和Matplotlib是两个不可或缺的库。Pandas以其强大的数据处理和分析能力著称,而Matplotlib则以其出色的数据可视化功能闻名。Pandas中的函数可以大致分为两类:统计特征函数和统计作图函数。这些作图函数常常与Matplotlib紧密结合,共同呈现数据的内在规律和特点。下面,我们将详细介绍Pandas中的一些主要统计特征函数与统计作图函数,并通过实例来加深理解。这些函数不仅能够帮助我们深入了解数据的分布情况,还能揭示数据之间的潜在关系,为数据分析和机器学习模型的构建提供有力的支持。

一、 基本统计特征函数

统计特征函数用于计算数据的均值、方差、标准差、分位数、相关系数和协方差等,这些统计特征能反映出数据的整体分布。本小节所介绍的统计特征函数如表3-8所示,它们主要作为Pandas的对象DataFrame或 Series的方法出现。

P a n d a s 主要统计特征函数 \bold{Pandas主要统计特征函数} Pandas主要统计特征函数

方法名函数功能所属库
sum()计算数据样本的总和(按列计算)Pandas
mean()计算数据样本的算术平均数Pandas
var()计算数据样本的方差Pandas
std()计算数据样本的标准差Pandas
corr()计算数据样本的Spearman (Pearson)相关系数矩阵Pandas
cov()计算数据样本的协方差矩阵Pandas
skew()样本值的偏度(三阶矩)Pandas
kurt()样本值的峰度(四阶矩)Pandas
describe()给出样本的基本描述(基本统计量如均值、标准差等)Pandas

以下是Pandas库中一些主要统计特征函数的详细介绍,包括它们的功能、使用格式以及示例。

1.1 sum()

功能:计算Series或DataFrame中所有元素的和。
使用格式:

Series.sum()  
DataFrame.sum(axis=0, skipna=None, level=None, numeric_only=None, **kwargs)
  • axis: 默认为0,表示按列求和;如果为1,则按行求和。
  • skipna: 排除缺失值(NaN)进行计算,默认为True。
  • numeric_only: 仅对数值列进行操作,默认为False。
    示例:
import pandas as pd  
  
# 创建一个简单的DataFrame  
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})  
  
# 计算所有元素的和  
sum_all = df.sum()  
print(sum_all)  # 输出:A    6, B    15, dtype: int64  
  
# 按行求和  
sum_rows = df.sum(axis=1)  
print(sum_rows)  # 输出:0    5, 1    7, 2    9, dtype: int64
1.2 mean()

**功能:**计算Series或DataFrame中所有元素的平均值。

使用格式:

Series.mean(skipna=None, level=None, numeric_only=None, **kwargs)  
DataFrame.mean(axis=0, skipna=None, level=None, numeric_only=None, **kwargs)
  • axis: 默认为0,表示按列求平均值;如果为1,则按行求平均值。
  • skipna: 排除缺失值(NaN)进行计算,默认为True。
  • numeric_only: 仅对数值列进行操作,默认为False。
    示例:
# 使用前面的DataFrame  
mean_col = df.mean()  
print(mean_col)  # 输出:A    2.0, B    5.0, dtype: float64  
  
mean_row = df.mean(axis=1)  
print(mean_row)  # 输出:0    2.5, 1    3.5, 2    4.5, dtype: float64
1.3 var()

**功能:**计算Series或DataFrame中所有元素的方差。

使用格式:

Series.var(skipna=None, level=None, ddof=1, numeric_only=None, **kwargs)  
DataFrame.var(axis=0, skipna=None, level=None, ddof=1, numeric_only=None, **kwargs)
  • axis: 默认为0,表示按列求方差;如果为1,则按行求方差。
  • skipna: 排除缺失值(NaN)进行计算,默认为True。
  • ddof: 自由度调整值,默认为1。
  • numeric_only: 仅对数值列进行操作,默认为False。
    示例:
var_col = df.var()  
print(var_col)  # 输出方差计算结果
1.4 std()

**功能:**计算Series或DataFrame中所有元素的标准差。

使用格式:

Series.std(skipna=None, level=None, ddof=1, numeric_only=None, **kwargs)  
DataFrame.std(axis=0, skipna=None, level=None, ddof=1, numeric_only=None, **kwargs)

参数与var()函数相似。

示例:

std_col = df.std()  
print(std_col)  # 输出标准差计算结果
1.5 corr()

**功能:**计算DataFrame中不同列之间的相关系数矩阵。

使用格式:

DataFrame.corr(method='pearson', min_periods=1)
  • method: 计算相关系数的方法,默认为’pearson’皮尔逊相关系数,还可是’kendall’或’spearman’。
  • min_periods: 一对列至少需要多少个非NA观测值才能计算相关系数。

示例:

corr_matrix = df.corr()  
print(corr_matrix)  # 输出相关系数矩阵
1.6 cov()

**功能:**计算DataFrame中不同列之间的协方差矩阵。

使用格式:

DataFrame.cov(min_periods=None)
  • min_periods: 一对列至少需要多少个非NA观测值才能计算协方差。

示例:

cov_matrix = df.cov()  
print(cov_matrix)  # 输出协方差矩阵
1.7 skew()

**功能:**计算Series或DataFrame中所有数值列的偏度。偏度衡量数据分布的不对称性。

使用格式:

Series.skew(skipna=True, level=None, numeric_only=None, **kwargs)  
DataFrame.skew(axis=0, skipna=None, level=None, numeric_only=None, **kwargs)
  • axis: 默认为0,表示按列计算偏度;如果为1,则按行计算偏度。
  • skipna: 排除缺失值(NaN)进行计算,默认为True。
  • numeric_only: 仅对数值列进行操作,默认为False。

示例:

skewness = df.skew()  
print(skewness)  # 输出偏度计算结果
1.8 kurt()

**功能:**计算Series或DataFrame中所有数值列的峰度。峰度衡量数据分布形态的陡峭程度。

使用格式:

Series.kurt(skipna=True, level=None, numeric_only=None, **kwargs)  
DataFrame.kurt(axis=0, skipna=None, level=None, numeric_only=None, **kwargs)

参数与skew()函数相似。

示例:

kurtosis = df.kurt()  
print(kurtosis)  # 输出峰度计算结果
1.9 describe()

**功能:**生成描述性统计信息,包括计数、均值、标准差、最小值、四分位数(25%、50%、75%)以及最大值。

使用格式:

DataFrame.describe(percentiles=[], include=[], exclude=None)
  • percentiles: 要包含在输出中的百分位数。
  • include: 要包含的列的数据类型。
  • exclude: 要排除的列的数据类型。

示例:

desc_stats = df.describe()  
print(desc_stats)  # 输出描述性统计信息

以上就是对Pandas库中一些主要统计特征函数的详细介绍和示例。这些函数在处理数据时非常有用,能够帮助我们快速了解数据的分布情况,为后续的数据分析和建模提供有力的支持。在使用这些函数时,可以根据具体的数据和需求选择合适的参数和选项。

二、拓展统计特征函数

除了上述基本的统计特征外,Pandas还提供了一些非常方便实用的计算统计特征的函数,主要有累积计算(cum)和滚动计算(pd.rolling_)。
P a n d a s 累积统计特征函数 \bold{Pandas累积统计特征函数} Pandas累积统计特征函数

方法名函数功能所属库
cumsum()依次给出前1、2、…、n个数的和)Pandas
cumprod()依次给出前1、2、…、n个数的积Pandas
cummax()依次给出前1、2、…、n个数的maxPandas
cummin()依次给出前1、2、…、n个数的minPandas
rolling_sum()计算数据样本的总和(按列计算)Pandas
rolling_mean()计算数据样本的算术平均数Pandas
rolling_var()计算数据样本的方差Pandas
rolling_std()计算数据样本的标准差Pandas
rolling_corr()计算数据样本的Spearman (Pearson)相关系数矩阵Pandas
rolling_cov()计算数据样本的协方差矩阵Pandas
rolling_skew()样本值的偏度(三阶矩)Pandas
rolling_kurt()样本值的峰度(四阶矩)Pandas

其中,cum系列函数是作为DataFrame或’Series对象的方法而出现的,因此命令格D.cumsum(),而rolling_系列是pandas 的函数,不是DataFrame或Series对象的方法,因此,其中,cum系列函数是作为DataFrame或’Series对象的方法而出现的,因此命令格式为D.cumsum(),而rolling_系列是pandas 的函数,不是DataFrame或Series对象的方法

三、统计作图函数

通过统计作图函数绘制的图表可以直观地反映出数据及统计量的性质及其内在规律,如盒图可以表示多个样本的均值,误差条形图能同时显示下限误差和上限误差,最小二乘拟合曲线图能分析两变量间的关系。

Python的主要作图库是Matplotlib,在第2章中已经进行了初步的介绍,而 Pandas基于Matplotlib并对某些命令进行了简化,因此作图通常是Matplotlib和 Pandas相互结合着使用。本小节仅对一些基本的作图函数做一下简介,而真正灵活地使用应当参考书中所给出的各个作图代码清单。我们要介绍的统计作图函数如表所示。

P y t h o n 主要统计作图函数 \bold{Python主要统计作图函数} Python主要统计作图函数

方法名函数功能所属库
plot()绘制线性二维图,折线图Pandas/Matplotlib
pie()绘制饼状图Pandas/Matplotlib
hist()绘制二维条形直方图,可显示数据的分配情形Pandas/Matplotlib
boxplot()绘制样本数据的箱形图Pandas
plot(logy=True)绘制y轴的对数图形Pandas
plot(yerr=True)绘制误差条形图Pandas

在作图之前,通常要加载以下代码。

import matplotlib.pyplot as plt#导入作图库
plt.rcParams [ 'font.sans-serif'] =[ 'SimHei']#用来正常显示中文标签
plt.rcParams [ 'axes.unicode_minus' ] = False #用来正常显示负号
plt.figure(figsize = (7,5))#创建图像区域,指定比例

作图完成后,一般通过plt.show()来显示作图结果。

3.1 plot()

**功能:**绘制线性二维图、折线图。
使用格式:
p l t . p l o t ( x , y , S ) plt.plot(x,y, S) plt.plot(x,y,S)

这是Matplotlib通用的绘图方式,绘制y对于x (即以x为横轴的二维图形),字符串参量S指定绘制时图形的类型、样式和颜色,常用的选项有: 'b’为蓝色、'r’为红色、'g’为绿色、‘o’为圆圈、’+‘为加号标记、’-‘为实线、’–'为虚线。当x、y均为实数同维向量时,则描出点(x(i),y(i)),然后用直线依次相连。
D . p l o t ( k i n d = ′ b o x ′ ) D.plot(kind = 'box') D.plot(kind=box)
这里使用的是 DataFrame x J会数指定作图类型,支持line(线).bar(余形)、barto tL由接数据为纵坐标自动作图,通过kind参数指定作图类型,支持line(线), bar(条形),barh , hist(直方图)、box(箱线图)、kde(密度图)和 area、pie(饼图)等,同时也能够接受plt.plot() 受的参数。因此,如果数据已经被加载为Pandas中的对象,那么以这种方式作图是比较简洁的。
**实例:**在区间(0≤x≤2T)绘制一条蓝色的正弦虚线,并在每个坐标点标上五角星。绘制图形如图所示。

import numpy as np
x = np.linspace (0 , 2*np.pi,50)#x坐标输入
y = np.sin (x)#计算对应x的正弦值
plt.plot(x,y, 'bp--'#控制图形格式为蓝色带星虚线,显示正弦曲线
plt.show ( )

在这里插入图片描述

3.2 pie()

**功能:**绘制饼型图。
使用格式:
p l t . p i e ( s i z e ) plt.pie(size) plt.pie(size)
使用Matplotlib绘制饼图,其中size是一个列表,记录各个扇形的比例。pie有丰富的参数,详情请参考下面的实例。

import matplotlib.pyplot as plt
# The slices will be ordered and plotted counter-clockwise.
labels = 'Frogs ', 'Hogs ', 'Dogs ', 'Logs’#定义标签
sizes =[ 15,30,45,10]#每一块的比例
colors = [ ' yellowgreen', 'gold', 'lightskyblue ''lightcoral']#每一块的颜色
explode = (00.100) #突出显示,这里仅仅突出显示第二块(即'Hogs ' )
plt.pie(sizes,explode=explode,labels=labels,colors=colors,autopct='%1.1f%%',shadow=True,    startangle=90)
plt.axis ( 'equal')#显示为圆(避免比例压缩为椭圆)
plt.show ( )

在这里插入图片描述

3.3 hist()

**功能:**绘制二维条形直方图,可显示数据的分布情形。
使用格式:

Plt.hist(x, y)
其中,x是待绘制直方图的一维数组,y可以是整数,表示均匀分为n组;也可以是列表,列表各个数字为分组的边界点(即手动指定分界点)。
import matplotlib.pyplot as plt
import numpy as np
x = np.random.randn(1000)
plt.hist(x,10)
plt.show()

在这里插入图片描述

3.4 boxplot()

**功能:**绘制样本数据的箱形图。
使用格式:

D.boxplot() / D.plot(kind = 'box')
有两种比较简单的方式绘制D的箱形图,其中一种是直接调用DataFrame的 boxplot()方法;另外一种是调用Series或者DataFrame的 plot()方法,并用kind参数指定箱形( box)。其中,盒子的上、下四分位数和中值处有一条线段。箱形末端延伸出去的直线称为表示盒外数据的长度。如果在须外没有数据,则在须的底部有一点,点的颜色与须的颜色相同。 **实例:**绘制样本数据的箱形图,样本由两组正态分布的随机数据组成。其中,一组数据均值为0,标准差为1,另一组数据均值为1,标准差为1。绘制结果如图所示。
D = pd.DataFrame([x,x+1]).T
D.plot(kind='box')
plt.show()

在这里插入图片描述

3.5 plot(logx=True)

plot(logx=True)和plot(yerr=error)在数据探索的过程中使用的并不多,这里不做过多的介绍,后续有时间将进行修订。

四、案例研究

在这个案例研究中,我们将使用著名的“泰坦尼克号”数据集,该数据集记录了泰坦尼克号沉船事故中乘客的详细信息,包括他们的生存状况、年龄、性别、舱位等级等。我们的目标是通过数据探索,分析数据质量并提取关键特征,为后续的机器学习模型构建提供有力支持。

数据集介绍:
数据集包含以下字段:PassengerId(乘客ID)、Survived(是否生存)、Pclass(舱位等级)、Name(姓名)、Sex(性别)、Age(年龄)、SibSp(兄弟姐妹/配偶数)、Parch(父母/子女数)、Ticket(船票号)、Fare(票价)、Cabin(船舱号)、Embarked(登船港口)。

数据加载与初步查看:
首先,我们使用Pandas库加载数据并查看前几行以了解数据的大致结构。

import pandas as pd  
  
# 加载数据  
titanic_data = pd.read_csv('titanic.csv')  
  
# 查看数据前5行  
print(titanic_data.head())

数据质量分析:

接下来,我们进行数据质量分析,重点关注缺失值。

# 检查缺失值  
missing_values = titanic_data.isnull().sum()  
print(missing_values)  
  
# 可视化缺失值  
import matplotlib.pyplot as plt  
plt.figure(figsize=(10, 6))  
missing_values.plot(kind='bar')  
plt.title('Missing Values in Titanic Dataset')  
plt.xlabel('Features')  
plt.ylabel('Number of Missing Values')  
plt.show()

通过查看缺失值的数量和分布情况,我们发现Age、Cabin和Embarked字段存在缺失值。对于Age,我们可以考虑使用均值、中位数或基于其他特征(如性别和舱位等级)的插值来填充。对于Cabin,由于缺失值太多且可能不包含对预测Survived有用的信息,我们可以考虑删除这个特征。对于Embarked,由于缺失值较少,我们可以考虑使用众数填充。

数据特征分析:

在进行特征分析时,我们关注特征的统计描述、分布以及它们与目标变量Survived的关系。

# 描述性统计  
titanic_data.describe()  
  
# 查看分类特征的分布  
print(titanic_data['Sex'].value_counts())  
print(titanic_data['Pclass'].value_counts())  
print(titanic_data['Embarked'].value_counts(dropna=False))  
  
# 可视化特征与生存的关系  
titanic_data['Survived'].value_counts().plot(kind='bar', label='Survival')  
plt.title('Survival Counts')  
plt.xlabel('Survived')  
plt.ylabel('Count')  
plt.legend()  
plt.show()  
  
# 以性别为例,查看生存率的差异  
gender_survival = titanic_data.groupby('Sex')['Survived'].mean()  
gender_survival.plot(kind='bar')  
plt.title('Survival Rate by Gender')  
plt.xlabel('Gender')  
plt.ylabel('Survival Rate')  
plt.show()

通过这些分析,我们可以发现性别和舱位等级与生存率有显著的关系。例如,女性乘客的生存率高于男性,高等级舱位的乘客生存率也较高。这些信息对于后续的模型构建和特征选择非常有价值。

数据清洗与特征工程:

基于上述分析,我们进行数据清洗和特征工程。

# 填充Age缺失值,使用中位数填充  
titanic_data['Age'].fillna(titanic_data['Age'].median(), inplace=True)  
  
# 填充Embarked缺失值,使用众数填充  
titanic_data['Embarked'].fillna(titanic_data['Embarked'].mode()[0], inplace=True)  
  
# 删除Cabin特征,因为缺失值太多且可能不相关  
titanic_data.drop('Cabin', axis=1, inplace=True)  
  
# 将分类特征进行编码,例如将Sex编码为数值  
titanic_data['Sex'] = titanic_data['Sex'].map({'female': 0, 'male': 1})  
titanic_data['Embarked'] = titanic_data['Embarked'].map({'S': 0, 'C': 1, 'Q': 2})

特征选择:

在进行了初步的数据清洗和特征工程后,我们可以进一步进行特征选择,以确定哪些特征对预测Survived最为关键。在这个案例中,我们可以通过计算特征与目标变量之间的相关性来进行特征选择。

# 计算特征与生存之间的相关性  
correlations = titanic_data.corrwith(titanic_data['Survived'])  
  
# 显示相关性  
print(correlations)  
  
# 基于相关性选择特征  
selected_features = correlations[abs(correlations) > 0.1].index  
titanic_data_selected = titanic_data[selected_features]  
  
print(titanic_data_selected.head())

在这个例子中,我们选择了与Survived相关性绝对值大于0.1的特征。这样,我们可以去除那些与目标变量关系不大的特征,减少模型的复杂度,并提高模型的性能。

数据准备与模型训练:

最后,我们将经过清洗、编码和选择后的数据分为训练集和测试集,准备用于机器学习模型的训练。

from sklearn.model_selection import train_test_split  
  
# 分离特征和标签  
X = titanic_data_selected.drop('Survived', axis=1)  
y = titanic_data_selected['Survived']  
  
# 划分训练集和测试集  
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)  
  
# 后续可以使用X_train和y_train来训练机器学习模型,并使用X_test和y_test来评估模型的性能。

通过本案例研究,我们展示了如何进行数据质量和数据特征分析。首先,我们加载了数据集并检查了缺失值的情况,对缺失值进行了合理的填充或删除。接着,我们对特征进行了描述性统计和可视化分析,了解了特征的分布以及与目标变量的关系。然后,我们进行了特征选择,去除了与目标变量相关性不强的特征。最后,我们准备了数据用于机器学习模型的训练。这个过程是机器学习项目中的重要一环,能够帮助我们更好地理解数据,并为后续的模型构建提供坚实的基础。

小结

本章从应用的角度出发,从数据质量分析和数据特征分析两个方面对数据进行探索分析,最后介绍了Python常用的数据探索函数及用例。数据质量分析要求我们拿到数据后先检测是否存在缺失值和异常值;数据特征分析要求我们在数据挖掘建模前,通过频率分布分析、对比分析、帕累托分析、周期性分析、相关性分析等方法,对采集的样本数据的特征规律进行分析,以了解数据的规律和趋势,为数据挖掘的后续环节提供支持。

要特别说明的是,在数据可视化中,由于主要使用Pandas作为数据探索和分析的工具,因此我们介绍的作图工具都是Matplotlib和Pandas结合使用。一方面,Matplotlib是作图工具的基础,Pandas作图依赖于它;另一方面,Pandas 作图有着简单直接的优势,因此.相互结合,往往能够以最高的效率作出符合我们需要的图。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/507113.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

每日一题(相交链表 )

欢迎大家来我们主页进行指导 LaNzikinh-CSDN博客 160. 相交链表 - 力扣(LeetCode) 给你两个单链表的头节点 headA 和 headB ,请你找出并返回两个单链表相交的起始节点。如果两个链表不存在相交节点,返回 null 。 图示两个链表在节…

【蓝桥杯第十三届省赛B组】(详解)

九进制转十进制 #include <iostream> #include<math.h> using namespace std; int main() {cout << 2*pow(9,3)0*pow(9,2)2*pow(9,1)2*pow(9,0) << endl;return 0; }顺子日期 #include <iostream> using namespace std; int main() {// 请在此…

20-日志处理(上):如何设计日志包并记录日志?

通过记录日志&#xff0c;可以完成一些基本功能&#xff0c;比如开发、测试期间的Debug&#xff0c;故障排除&#xff0c;数据分析&#xff0c;监控告警&#xff0c;以及记录发生的事件等。 如何设计日志包 基础功能 基础功能&#xff0c;是优秀日志包必备的功能&#xff0c;能…

勒石燕然的窦宪,打得匈奴只得为害欧洲了

匈奴&#xff0c;一个与汉族争斗了数百年的民族&#xff0c;在大大小小上百场战役中&#xff0c;双方一直打得你来我往。在东汉&#xff0c;一个罪臣指挥了汉民族与匈奴的终局之战。更令人想不到的是&#xff0c;终局之战北匈奴的战败却整得离中国相距甚远的欧洲崩溃了。 窦家…

ARP类型

地址解析协议ARP即可实现将IP地址解析为MAC地址 动态ARP 动态ARP表项由ARP协议通过ARP报文自动生成和维护&#xff0c;可以被老化&#xff0c;可以被新的ARP报文更新&#xff0c;也可以被静态ARP表项覆盖。 动态ARP适用于拓扑结构复杂、通信实时性要求高的网络。 静态ARP …

单元测试mockito(一)

1.单元测试 1.1 单元测试的特点 ●配合断言使用(杜绝System.out) ●可重复执行 。不依赖环境 ●不会对数据产生影响 ●spring的上下文环境不是必须的 ●一般都需要配合mock类框架来实现 1.2 mock类框架使用场景 要进行测试的方法存在外部依赖(如db,redis,第三方接口调用等),为…

Linux系统Docker如何部署Nextcloud结合内网穿透实现公网访问本地资源?

文章目录 1. 安装Docker2. 使用Docker拉取Nextcloud镜像3. 创建并启动Nextcloud容器4. 本地连接测试5. 公网远程访问本地Nextcloud容器5.1 内网穿透工具安装5.2 创建远程连接公网地址5.3 使用固定公网地址远程访问 本文主要介绍如何在Linux Ubuntu系统使用Docker快速部署Nextcl…

从vrrp、bfd、keepalived到openflow多控制器--理论篇

vrrp 在一个网络中&#xff0c;通常会使用vrrp技术来实现网关的高可用。 vrrp&#xff0c;即Virtual Router Redundancy Protocol&#xff0c;虚拟路由冗余协议。 应用场景 典型的如下面这个例子&#xff1a; 当Router故障后&#xff0c;将会导致HostA-C都无法连接外部的I…

阿里AI编码助手“通义灵码”安装及使用

1.介绍 “通义灵码”是一款基于阿里云通义代码大模型打造的智能编码助手&#xff0c;产品于2023年10月31日云栖大会上&#xff0c;正式对外发布。 核心使用场景&#xff1a;代码智能生成和研发智能问答。 主要功能点&#xff1a; &#xff08;1&#xff09;行级/函数级实时…

大数据 - Spark系列《十五》- spark架构

Spark系列文章&#xff1a; 大数据 - Spark系列《一》- 从Hadoop到Spark&#xff1a;大数据计算引擎的演进-CSDN博客 大数据 - Spark系列《二》- 关于Spark在Idea中的一些常用配置-CSDN博客 大数据 - Spark系列《三》- 加载各种数据源创建RDD-CSDN博客 大数据 - Spark系列《…

【数字孪生平台】使用 Three.js 以 3D 形式可视化日本新宿站地图

在本文中&#xff0c;我们将使用日本新宿站的室内地图数据&#xff0c;并使用 Three.js 将其进行 3D 可视化。更多精彩内容尽在数字孪生平台。 使用的数据 这次&#xff0c;我们将使用日本空间信息中心发布的“新宿站室内地图开放数据”的集成版本&#xff08;ShapeFile&#…

区间预测 | Matlab实现带有置信区间的BP神经网络时间序列未来趋势预测

区间预测 | Matlab实现带有置信区间的BP神经网络时间序列未来趋势预测 目录 区间预测 | Matlab实现带有置信区间的BP神经网络时间序列未来趋势预测预测效果基本介绍研究回顾程序设计参考资料预测效果 基本介绍 BP神经网络(Backpropagation neural network)是一种常用的人工神…

kkFileView SSRF

kkFileView getCorsFile?urlPath SSRF

(负载点电源)18V/16A超小体积封装同步降压内置启动廷时与保护功能

1. 产品特性 ➢ 输入电压范围&#xff1a; 4V~18V ➢ 额定电流&#xff1a; 16A ➢ 峰值效率&#xff1a; 95.5%&#xff08;VOUT3.3V&#xff09; ➢ 集成 7.5mΩ/2.5mΩ 金属氧化物半导体场效应管&#xff08;MOSFET&#xff09; ➢ 500kHz 高速内部振荡器 ➢ 内置启动…

Vit代码

Vit将纯transformer结构引入到CV的基本任务——图像分类中 VIT 1.输入端适配1.1 图像切分重排1.2构造Patch01.3 positional enbedding ViT 结构的数据流完整模型代码 1.输入端适配 1.1 图像切分重排 图像切分之后进行拉平&#xff0c;Flatten可能导致维度过高&#xff0c;假设…

排序——选择排序(直接选择排序和堆排)

本专栏和大家分享关于排序的算法,其中有插入排&#xff08;直接插入排序和希尔排序&#xff09;、选择排序&#xff08;直接选择排序和堆排&#xff09;、交换排序&#xff08;冒泡排序和快速排序&#xff09;、归并排序以及其他非基于比较的排序 本文与大家分享选择排序 目录 …

Python处理yaml文件

YAML&#xff08;YAML Ain’t Markup Language&#xff09;是一种人类可读的数据序列化格式&#xff0c;它与JSON格式类似&#xff0c;但具有更高的可读性。相比JSON&#xff0c;YAML更注重人类可读性&#xff0c;因此在配置文件、数据序列化和交换方面具有一定优势。它支持注释…

AI+云平台|全闪云底座迎战

AI融万物之势席卷而来 人工智能&#xff08;Artificial Intelligence&#xff09;&#xff0c;英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。 行业特点 AI场景中80%以上是小文件&#xff0c;以非结构化数据为…

【Blockchain】GameFi | NFT

Blockchain GameFiGameFi顶级项目TheSandbox&#xff1a;Decentraland&#xff1a;Axie Infinity&#xff1a; NFTNFT是如何工作的同质化和非同质化区块链协议NFT铸币 GameFi GameFi是游戏和金融的组合&#xff0c;它涉及区块链游戏&#xff0c;对玩家提供经济激励&#xff0c…

【学习】如何成为资深的软件测试工程师“大神”?

一个优秀的软件测试工程师不仅需要有深厚的技术知识和经验&#xff0c;还需要有良好的沟通能力、分析能力和问题解决能力。总的来说&#xff0c;一个"大神"一样的软件测试工程师应该是一个全面的技术专家&#xff0c;同时还需要有出色的沟通和问题解决能力&#xff0…