Python进阶编程 --- 2.MySQL、pymysql、PySpark

文章目录

    • 第一章:SQL基础入门
      • 1.1 数据库
        • 数据库如何存储数据
      • 1.2 数据库和SQL的关系
      • 1.3 MySQL版本
      • 1.4 命令提示符内使用MySQL
      • 1.5 SQL概述
        • 1.5.1 SQL语言分类
        • 1.5.2 SQL语言特性
      • 1.6 DDL
          • 库管理
          • 表管理
      • 1.7 DML - 数据操作
      • 1.8 DQL - 查询和计算数据
        • 1.8.1 基础数据查询
        • 1.8.2基础数据查询 - 过滤
        • 1.8.3 分组聚合
        • 1.8.4 结果排序
        • 1.8.5 结果分页限制
      • 1.9 Python - MySQL
        • 1.9.1 pymysql
        • 1.9.2 数据插入
    • 第二章:PySpark基础入门
      • 2.1 PySpark库的安装
      • 2.2 PySpark编程步骤
      • 2.3 PySpark编程模型
      • 2.4 数据输入
        • 2.4.1 RDD对象
        • 2.4.2 Python数据容器转RDD对象
        • 2.4.3 读取文件转RDD对象
      • 2.5 数据计算
        • 2.5.1 map方法

第一章:SQL基础入门

1.1 数据库

在这里插入图片描述

数据库如何存储数据

在这里插入图片描述

1.2 数据库和SQL的关系

数据库用来存储数据,在该过程中,将会涉及:

  • 新增数据

  • 删除数据

  • 修改数据

  • 查询数据

  • 数据库、数据表的管理

SQL语言是一种对数据库、数据进行操作、管理、查询的工具。

1.3 MySQL版本

  • 社区版(免费)

  • 集群版(免费)

  • 商业版(收费)

  • 高级集群版(收费)

1.4 命令提示符内使用MySQL

打开命令提示符程序,输入:mysql -uroot -p,回车输入密码,即可进入命令行环境

  • show database; //查看有哪些数据库

  • use 数据库名 //使用某个数据库

  • show tables //查看数据库内有哪些表

  • exit //退出MySQL的命令行环境

1.5 SQL概述

SQL:结构化查询语言,用于访问和处理数据库的标准的计算机语言

1.5.1 SQL语言分类
  • 数据定义:DDL

     库的创建删除、表的删除创建等
    
  • 数据操纵:DML

      新增数据、删除数据、修改数据等
    
  • 数据控制:DCL

      新增用户、删除用户、密码修改、权限管理等
    
  • 数据查询:DQL

      基于需求查询和计算数据
    
1.5.2 SQL语言特性
  • 大小写不敏感

  • 可单行或多行书写,;号结束

  • 支持注释
    单行注释: – 注释内容(–后面要有一个空格)
    单行注释:# 注释内容

    多行注释:/* 注释内容 */
    

1.6 DDL

库管理
  • 查看数据库:SHOW DATATBASES;

  • USE 数据库名;

  • CREATE DATABASE 数据库名 [CHARSET UTF8];

  • DROP DATABASE 数据库名;

  • SELECT DATABASE();

在这里插入图片描述

表管理
  • 查看表:SHOW TABLES; # 使用前需先选择数据库

  • 删除表:DROP TABLE 表名;

                     DROP TABLE IF EXISTS 表名;
    
  • 创建表:CREATE TABLE 表名(
    列名称 列类型,
    列名称 列类型

    );

    列类型说明
    int整数
    float浮点数
    varchar(长度)文本,长度为数字,为最大长度限制
    date日期
    timestamp时间戳

在这里插入图片描述
在这里插入图片描述

1.7 DML - 数据操作

  • 插入INSERT:INSERT INTO表[(列1,列2,…,列N)] VALUES(值1,值2,…,值N) [,(值1,值2,…,值N),…,(值1,值2,…,值N)];

  • 删除DELETE:DELETE FROM 表名 [WHERE 条件判断];

  • 更新UPDATE:UPDATE 表名 SET 列=值 [WHERE 条件判断];

  • 在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

1.8 DQL - 查询和计算数据

1.8.1 基础数据查询

语法:SELECT 字段列表 |* FROM 表
在这里插入图片描述
在这里插入图片描述

1.8.2基础数据查询 - 过滤

语法:SELECT 字段列表 |* FROM 表 WHERE 条件判断

在这里插入图片描述

1.8.3 分组聚合

语法:SELECT 字段| 聚合函数 FROM 表 [WHERE 条件] GROUP BY 列

聚合函数:

  • SUM(列) 求和

  • AVG(列) 求平均值

  • MIN(列) 求最小值

  • MAX(列) 求最大值

  • COUNT(列|*) 求数量

在这里插入图片描述

1.8.4 结果排序

语法

SELECT 列|聚合函数|* FROM 表

WHERE …

GROUP BY …

ORDER BY … [ASC | DESC]
在这里插入图片描述

1.8.5 结果分页限制

语法

SELECT 列|聚合函数|* FROM 表

WHERE …

GROUP BY …

ORDER BY … [ASC | DESC]

LIMIT n[, m]

在这里插入图片描述

执行顺序:FROM->WHERE->GROUP BY与聚合函数 -> SELECT -> ORDER BY -> LIMIT

1.9 Python - MySQL

1.9.1 pymysql

基础使用

安装:pip install pymysql

创建到MySQL的数据库链接

from pymysql import Connection
# 获取到MySQL数据库的链接对象
conn = Connection(
    host="localhost",    # 主机名
    port=3306,           # 端口
    user="root",         # 账户名
    password="123456"    # 密码
)

print(conn.get_server_info()) # 打印MySQL数据库信息

conn.close() # 关闭到数据库的链接

执行SQL语句

from pymysql import Connection
# 获取到MySQL数据库的链接对象
conn = Connection(
    host="localhost",    # 主机名
    port=3306,           # 端口
    user="root",         # 账户名
    password="123456"    # 密码
)

cursor = conn.cursor() # 获取游标对象
conn.select_db("world") # 选择数据库
cursor.execute("select * from student") # 用游标对象,执行SQL语句
results: tuple = cursor.fetchall() # 获取查询结果
for r in results:
    print(r)
conn.close() # 关闭到数据库的链接
1.9.2 数据插入

commit提交

pymysql在执行数据插入或其他产生数据更改的SQL语句时,默认是需要提交更改的,通过代码确认该更改行为

链接对象.commit()即可确认此行为

from pymysql import Connection
# 获取到MySQL数据库的链接对象
conn = Connection(
    host="localhost",    # 主机名
    port=3306,           # 端口
    user="root",         # 账户名
    password="123456"    # 密码
)

cursor = conn.cursor() # 获取游标对象
conn.select_db("world") # 选择数据库
cursor.execute("insert into student values(7, '小东', 20)") # 用游标对象,执行SQL语句
conn.commit() # 确认
conn.close() # 关闭到数据库的链接

自动commit

conn = Connection(
    host="localhost",    # 主机名
    port=3306,           # 端口
    user="root",         # 账户名
    password="123456",   # 密码
    autocommit= True     # 设置自动提交  
)

第二章:PySpark基础入门

Spark:Apache Spark是用于大规模数据处理的同一分析引擎。

Spark是一款分布式的计算框架,用于调度成百上千的服务器集群,计算海量数据

PySpark是由Spark官方开发的Python语言第三方库

2.1 PySpark库的安装

安装:pip install pyspark

构建PySpark执行环境入口对象

执行环境入口对象:类 SparkContext的 类对象

from pyspark import SparkConf,SparkContext # 导包

conf = SparkConf().setMaster("local[*]").setAppName(("test_spark")) # 创建SparkConf类对象

sc = SparkContext(conf=conf) # 基于SparkConf类对象创建SparkContext类对象

print(sc.version) # 打印PySpark的运行版本

sc.stop() # 停止SparkContext对象的运行

SparkContext类对象,是PySpark编程中一切功能的入口

2.2 PySpark编程步骤

PySpark编程,主要分三大步骤:

  • 数据输入:通过SparkContext类对象的成员方法完成对数据的读取操作,读取后获得RDD类对象

  • 数据处理计算:通过RDD类对象的成员方法,完成各种数据计算的需求

  • 数据输出:将处理完的RDD对象,调用各种成员方法完成写出文件、转换为list等操作

2.3 PySpark编程模型

在这里插入图片描述

  • 通过SparkContext对象完成数据输入

  • 输入数据后得到RDD对象,对RDD对象进行迭代计算

  • 最终通过RDD对象的成员方法完成数据输出

2.4 数据输入

2.4.1 RDD对象

RDD全称为:弹性分布式数据集

PySpark针对数据的处理,都以RDD对象作为载体

  • 数据存储在RDD内

  • 各类数据的计算方法,也都为RDD的成员方法

  • RDD的数据计算方法,返回值依然是RDD对象

2.4.2 Python数据容器转RDD对象

通过SparkContext对象的parallelize成员方法,将list\tuple\set\dict\str转为PySpark的RDD对象

在转换时,需注意字符串会被拆成一个个的字符,存入RDD对象中,字典仅有key会被存入RDD对象中。

from pyspark import SparkConf,SparkContext # 导包
conf = SparkConf().setMaster("local[*]").setAppName(("test_spark")) # 创建SparkConf类对象
sc = SparkContext(conf=conf) # 基于SparkConf类对象创建SparkContext类对象

rdd1 = sc.parallelize([1, 2, 3])
rdd2 = sc.parallelize((1, 2, 3))
rdd3 = sc.parallelize("hello")
rdd4 = sc.parallelize({1, 2, 3})
rdd5 = sc.parallelize({"key1":1, "key2": 2})

print(rdd1.collect()) # 输出RDD内容
print(rdd2.collect()) # 输出RDD内容
print(rdd3.collect()) # 输出RDD内容
print(rdd4.collect()) # 输出RDD内容
print(rdd5.collect()) # 输出RDD内容

sc.stop() # 停止SparkContext对象的运行
2.4.3 读取文件转RDD对象

通过SparkContext入口对象,读取文件,构建出RDD对象

from pyspark import SparkConf,SparkContext # 导包
conf = SparkConf().setMaster("local[*]").setAppName(("test_spark")) # 创建SparkConf类对象
sc = SparkContext(conf=conf) # 基于SparkConf类对象创建SparkContext类对象
rdd = sc.textFile("E:/learn - coding/Python/2024_04_13/hello.txt")
print(rdd.collect())
sc.stop() # 停止SparkContext对象的运行

2.5 数据计算

2.5.1 map方法

PySpark的数据计算,都基于RDD对象进行的,依赖于RDD对象中内置丰富的成员方法(算子)

map算子:将RDD的数据一条条处理,返回新的RDD

语法

rdd.map(func)
# func: f:(T) -> U
# f:表示这是一个函数或方法
# (T) -> U 表示的是方法的定义
# () 表示传入参数,(T)表示传入1个参数,()表示没有传入参数
# T 泛型的代称,在这表示任意类型
# U 泛型的代称,在这表示任意类型
# -> U 表示返回值
# (T) -> U 表示这是个方法,该方法接受一个参数传入,传入参数类型不限,返回一个返回值,返回值类型不限
# (A) -> A 表示这是个方法,该方法接受一个参数传入,传入参数类型不限,返回一个返回值,返回值类型和传入参数类型一致

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/546812.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【opencv】示例-videowriter_basic.cpp从默认摄像头视频采集和录制

这段代码的功能是使用OpenCV从默认摄像头捕获视频流,并将这些视频流实时写入到一个名为live.avi文件中。视频流以MJPG编码格式被写入,帧率设置为25帧每秒。程序还会通过一个窗口实时显示摄像头捕获的画面,窗口标题为"Live"。用户可…

6.GodotCanvasItem、Node2D及自定义节点

CanvasItem节点 CanvasItem节点,CanvasItem -> Node,所以CanvasItem继承了Node的所有功能Canvas是画布的意思,所以CanvasItem代表了就是可以被绘制的节点,可以设置可视化界面和材质的颜色所有的2D节点和GUI节点都继承于CanvasI…

科技云报道:AI大模型疯长,存储扛住了吗?

科技云报道原创。 AI大模型正在倒逼数字基础设施产业加速升级。 过去一年半,AI大模型标志性的应用相继出现,从ChatGPT到Sora一次次刷新人们的认知。震撼的背后,是大模型参数指数级的增长。 这种数据暴涨的压力,快速传导到了大模…

Vue 指令

Vue根据不同的指令&#xff0c;针对标签实现不同的功能 指令&#xff1a;带有v-前缀的特殊的标签属性 <!-- Vue指令--> <div v-html"str"></div><!-- 普通标签属性 --> <div class"box"></div> 目录 v-html v-sho…

Linux的学习之路:11、地址空间

摘要 本章主要是说一下地址空间&#xff0c;我也只是按照我的理解进行解释&#xff0c;可能说不清楚&#xff0c;欢迎指正 目录 摘要 一、空间布局图 二、代码测试一下 三、进程地址空间 四、测试代码 一、空间布局图 如下方图片可以看出地址空间有几种&#xff0c;这里…

论文笔记:Time Travel in LLMs: Tracing Data Contamination in Large Language Models

iclr 2024 spotlight reviewer评分 688 1 intro 论文认为许多下游任务&#xff08;例如&#xff0c;总结、自然语言推理、文本分类&#xff09;上观察到的LLMs印象深刻的表现可能因数据污染而被夸大 所谓数据污染&#xff0c;即这些下游任务的测试数据出现在LLMs的预训练数据…

java的深入探究JVM之内存结构

前言 Java作为一种平台无关性的语言&#xff0c;其主要依靠于Java虚拟机——JVM&#xff0c;我们写好的代码会被编译成class文件&#xff0c;再由JVM进行加载、解析、执行&#xff0c;而JVM有统一的规范&#xff0c;所以我们不需要像C那样需要程序员自己关注平台&#xff0c;大…

实景三维技术在公共安全领域的应用

随着科技的不断发展&#xff0c;实景三维技术在公共安全领域的应用越来越广泛。实景三维技术是指通过采集现实世界的三维数据&#xff0c;构建出真实的三维场景&#xff0c;进而实现对现实世界的数字化模拟和重建。在公共安全领域&#xff0c;实景三维技术的应用不仅可以提高安…

《云原生安全攻防》-- 云原生攻防矩阵

在本节课程中&#xff0c;我们将开始学习如何从攻击者的角度思考&#xff0c;一起探讨常见的容器和K8s攻击手法&#xff0c;包含以下两个主要内容&#xff1a; 云原生环境的攻击路径: 了解云原生环境的整体攻击流程。 云原生攻防矩阵: 云原生环境攻击路径的全景视图&#xff0…

服务器负载均衡SLB/加密原理

多台服务器提供相同的服务 SLB(server load balancing) 多台服务器对应一个虚拟地址&#xff0c;该地址是防火墙虚拟出来的。 服务器负载均衡功能仅支持IPV4协议 多通道协议仅支持FTP协议

逆向IDA中Dword,数据提取

我们可以看见数据是这样的&#xff0c;第一个是1cc 但是我们shifte就是 这个因为他的数据太大了&#xff0c;导致高位跑后面去了 这个时候&#xff0c;我们右键——convert——dword 这样就可以提取到争取的数据了 比如第一个数据 0x1cc a0xcc b0x1 print(hex((b<<8…

M系Mac关闭SIP

文章目录 M系Mac关闭SIP一&#xff1a;查看SIP状态二&#xff1a;关闭SIP步骤 M系Mac关闭SIP 一&#xff1a;查看SIP状态 1、使用终端 打开终端 输入csrutil status&#xff0c;回车 你会看到以下信息中的一个&#xff0c;指示SIP状态 已打开 System Integrity Protection s…

C#引用外部组件的常用方法

我们在开发程序过程中&#xff0c;时常会使用到第三方组件&#xff0c;比如一些通信、UI组件等。常用的引用方法有下面几种。 01 NuGet引用 NuGet是.NET的一个包管理平台&#xff0c;很多开源组件会通过NuGet进行管理和发布。比如我们常用的S7NetPlus等。 从NuGet中引用组件…

吴恩达llama课程笔记:第四课提示词技术

羊驼Llama是当前最流行的开源大模型&#xff0c;其卓越的性能和广泛的应用领域使其成为业界瞩目的焦点。作为一款由Meta AI发布的开放且高效的大型基础语言模型&#xff0c;Llama拥有7B、13B和70B&#xff08;700亿&#xff09;三种版本&#xff0c;满足不同场景和需求。 吴恩…

OpenCV表格图片寻找有效的x、y坐标并删除异常点

需求描述&#xff1a; 对表格图片&#xff0c;识别出表格里的横、纵坐标列表&#xff0c;并剔除异常点 解决方法&#xff1a; 通过opencv的getStructuringElement识别出横、竖线通过bitwise_and取得交点并去除表格线获取x和y的所有可能点&#xff0c;按照相邻点不超过阈值来筛…

6、JVM-JVM调优工具与实战

前置启动程序 事先启动一个web应用程序&#xff0c;用jps查看其进程id&#xff0c;接着用各种jdk自带命令优化应用 Jmap 此命令可以用来查看内存信息&#xff0c;实例个数以及占用内存大小 jmap -histo 14660 #查看历史生成的实例 jmap -histo:live 14660 #查看当前存活的实…

Python程序设计 二维列表(二)

实验九 二维列表 1. 血压统计 血压的正常范围是 60mmHg<舒张压<90mmHg 90mmHg<收缩压<140mmHg 输入小张测量血压的日期&#xff0c;舒张压和收缩压&#xff0c;存放到列表xy中 将小张血压不正常次数百分比计算并显示出来 将小张血压不正常的日期&#xff0c;舒张…

OneFlow深度学习简介

介绍 OneFlow是一个基于深度学习的开源框架,主要面向机器学习工程师和研究人员。它提供了类似于其他深度学习框架(如TensorFlow和PyTorch)的API,同时具有高性能和高效的特点。OneFlow专注于在大规模数据集和分布式环境下的训练和推理,以及在生产环境中的部署和优化。其设计…

基于Java+SpringBoot+vue+node.js的图书购物商城系统详细设计和实现

基于JavaSpringBootvuenode.js的图书购物商城系统详细设计和实现 &#x1f345; 作者主页 央顺技术团队 &#x1f345; 欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1f4dd; &#x1f345; 文末获取源码联系方式 &#x1f4dd; &#x1f345; 查看下方微信号获取联系方式 承接各…

GD32F3系列单片机环境搭建STM32CubeMX版

GD32单片机介绍 使用到开发板 GD32F303C-START 芯片型号&#xff1a;GD32F303CGT6 PinToPin单片机型号&#xff1a;STM32F103 GD32F303CGT6是超低开发预算需求并持续释放Cortex-M4高性能内核的卓越动力&#xff0c;为取代及提升传统的8位和16位产品解决方案&#xff0c;直接进…