python-sql-spark常用操作

数据抽取提速:

1. 不要把rdd或者df展示出来,只有第一遍跑流程的时候看看中间结构,后面就只保存不展示。

2. 尽量使用spark.sql,而不是rddsql处理groupby会快很多。基本上10minrddsql只需2min。所以基本除了复杂函数,都用sql解决。

3. reduceByKey 在大数据集上比groupByKey快很多。 深入理解groupByKey、reduceByKey - 简书

【Spark系列2】reduceByKey和groupByKey区别与用法_spark groupbykey和reducebykey-CSDN博客

Python:

链接:datetime --- 基本日期和时间类型 — Python 3.12.0 文档

datetime.datetime.now()

返回表示当前地方时的 date 和 time 对象。

datetime.timedelta(days=1)

timedelta 对象表示两个 date 或者 time 的时间间隔。

Pandas-排序函数sort_values()-CSDN博客

pandas排序

pd concat:PANDAS 数据合并与重塑(concat篇)_pandas.concat-CSDN博客

pd drop:python进行数据处理——pandas的drop函数_python drop-CSDN博客

pd mean:Python Pandas dataframe.mean()用法及代码示例 - 纯净天空

pandas创建dataframe:创建Pandas DataFrame的6种方法 - 知乎

list数据转为dataframe数据:Pandas将列表(List)转换为数据框(Dataframe)_python list 转dataframe-CSDN博客

dataframe和pandas:https://blog.csdn.net/weixin_43469047/article/details/104188643

mac上python安装:http://nidele.com/code/python/how-to-setup-python3-in-Mac/

shift函数:https://blog.csdn.net/brucewong0516/article/details/80157639

reset_index删除原索引行:https://blog.csdn.net/liyazhou0215/article/details/70160115

tail显示数据倒数几行:pandas中的tail()方法的使用说明_pandas tail-CSDN博客

pandas loc和iloc:Pandas中loc和iloc函数用法详解(源码+实例)-CSDN博客

pandas与numpy区别:Pandas与NumPy区别以及dataframe和ndarray对象转换_ndarray dataframe-CSDN博客

pandas确实值与空值处理:https://blog.csdn.net/lwgkzl/article/details/80948548

SQL:

https://www.cnblogs.com/WeiKing/p/11790871.html

SQL CREATE VIEW的用法-CSDN博客

CREATE VIEW "VIEW_NAME" AS "SQL 语句"

create temporary view OLD_T15_USERS as select

temporary临时存在的表/视图,只在当前连接中可见。当前数据库连接关闭,mysql会自动删除临时表并且释放所有的空间。

drop view if exists

获取31-75天内下单的末单用户user_id列表。

select 语句中 if 的用法 - 知乎

Mysql coalesce()函数认识和用法-CSDN博客

select coalesce(a,b,c); 

如果a==null,则选择b;如果b==null,则选择c;如果a!=null,则选择a;如果a b c 都为null ,则返回为null(没意义)。

SQL 连接(JOIN) | 菜鸟教程

insert overwrite table 表名

插入覆盖数据。

SQLServer随机数的获取_51CTO博客_sqlserver 随机数

可以直接运行select rand() 获取0~1之间的float型的数字,类似的,如果想获得例如1~100之间的整数随机数可以运行 select round(100*rand(),0)

SQL之CASE WHEN用法详解 - 知乎

SQL中的distinct的使用方法_sql distinct-CSDN博客

distinct用来查询不重复记录的条数,即用distinct来返回不重复字段的条数(count(distinct id)),其原因是distinct只能返回他的目标字段,而无法返回其他字段。

SQL中 group by 1, order by 1 语句是什么意思-CSDN博客

group by, order by 后面跟数字,指的是 select 后面选择的列(属性),1 代表第一个列(属性),依次类推。

注意:这边从1开始数,而不是0。

SQL 语句中, asc 指定列按升序排列,desc 指定列按降序排列。

SQL中的cast()函数_sql cast-CSDN博客

CAST函数用于将某种数据类型的表达式显式转换为另一种数据类型。

例如:cast(b.recent_day7_visit_times as bigint)

hive sql 聚合函数:Hive SQL 内置聚合函数 | Hive SQL 教程 - 盖若

concat函数:

SQL Server Concat()函数 -SQL Server教程
 

concat_ws函数:

SQL CONCAT_WS()函数 -SQL教程

row_number用法:SQL Server中row_number的用法-CSDN博客

percentile_approx:【数据库】Hive SQL--如何使用分位数函数(percentile)_hive percentile-CSDN博客

get_json_object:https://blog.csdn.net/qq_34105362/article/details/80454697

Spark:

https://www.cnblogs.com/yyy-blog/p/spark-sql.html

createOrReplaceTempView:创建临时视图,此视图的生命周期与用于创建此数据集的[SparkSession]相关联。

createOrReplaceTempView(): 创建或替换本地临时视图。

createGlobalTempView:创建全局临时视图,此时图的生命周期与Spark Application绑定。

ROW FORMAT DELIMITED FIELDS

TERMINATED BY '\t'     列分割用'\t'

STORED AS ORC        列式存储,占用空间最小,非常适合用来做数仓

spark rdd介绍:Spark RDD是什么? - 知乎

https://juejin.cn/post/6844903826953076750

flatMap:spark中flatMap函数用法--spark学习(基础)_spark flatmap-CSDN博客

flatMap :https://blog.csdn.net/zlbingo/article/details/113118584

filter:Spark的Dataset操作(二)-过滤的filter和where_spark where-CSDN博客

repartition:Spark中repartition和coalesce的用法 - 简书

parquet:Spark基础:读写Parquet - 知乎

sc.parallelize:spark使用parallelize方法创建RDD_sc.parallelize-CSDN博客

Pyspark读取parquet数据过程解:https://www.w3xue.com/exp/article/20203/79644.html

Spark-SQL之DataFrame操作大全_dataframe orderby-CSDN博客

Spark-SQL之DataFrame操作大全

https://www.cnblogs.com/BlueSkyyj/p/9640626.html

Spark-SQL常用命令

pyspark机器学习实战:

pyspark在机器学习中实战小练 - 知乎

spark文件读取:https://km.sankuai.com/page/459578031

pyspark RDD 一行转多行:

https://blog.csdn.net/qq_36079077/article/details/105430128

hive:

UDF创建

常用查询:https://km.sankuai.com/page/28277531 

Hive之UDFs(User-Defined Functions )-腾讯云开发者社区-腾讯云

CREATE TEMPORARY FUNCTION datekey2date AS 'com.sankuai.meituan.hive.udf.DateKey2Date'

创建临时函数

详解ROC和AUC计算过程:

详解ROC/AUC计算过程_计算roc-CSDN博客

dataframe直接保存到hive表中:

如何把dataframe直接保存到hive表中?_dataframe到hive-CSDN博客

spark-scala

基础语法:Spark从入门到精通2 -- Scala基础语法_spark语言基本语法-CSDN博客

取行中制定列:Spark 之 Row:Spark 之 Row_rowapl-CSDN博客

Scala map中下划线_._2的含义:Scala map中下划线_._2的含义_.map(_._2)-CSDN博客

val wordAndOne: RDD[(String, Int)] = words.map((_, 1)) //按单词和一组合

xgb优化:

class_weight:

使用class weight和sample weight处理不平衡问题-CSDN博客

样本不均衡处理:

样本不均衡的处理(Xgboost,pytorch及tensorflow) - 知乎

xgb自定义损失函数开发:

xgb自定义损失函数:XGB自定义损失函数

mlp自定义损失函数demohttps://dev.sankuai.com/code/repo-detail/~zhangkaishun/mlp_plugins_demo/file/detail?branch=refs%2Fheads%2Fmaster&path=plugins%2Fsrc%2Fmain%2Fjava%2FFocalLoss.scala

hope组件开发:

demo:https://mlp.sankuai.com/ide/67071080/

esmm实验:https://mlp.sankuai.com/ml/#/graph/67065799/version/0?name=rtb_%E7%B2%BE%E6%8E%92_esmm%E5%AE%9E%E9%AA%8C

pip安装:

https://zhuanlan.zhihu.com/p/335220647

tensorflow:

Tensorflow中的Placeholder及用法:Tensorflow中的Placeholder及用法 - 知乎

FixedLenFeature 使用:FixedLenFeature 使用_tf.fixedlenfeature-CSDN博客

tensorflow中解析Example数据 tf.parse_example:tensorflow中解析Example数据 tf.parse_example-CSDN博客

tf.nn.sigmoid_cross_entropy_with_logits用法:tf.nn.sigmoid_cross_entropy_with_logits_tf.sigmoid_cross_entropy_with_logits-CSDN博客

tf.losses.log_loss()用法:Tensorflow 中的损失函数 —— loss 专题汇总 - 知乎

tf.metrices.auc用法:tf.metrices.auc源码解读 - 知乎

tf.feature_column.numeric_column与tf.feature_column.categorical_column_with_vocabulary_list用法:

Tensorflow.feature_column的总结-CSDN博客

tf.feature_column.embedding_column用法:构建分布式Tensorflow模型系列:特征工程 - 知乎

当某些特征的类别数量非常大时,使用indicator_column来把原始数据转换为神经网络的输入就变得非常不灵活,这时通常使用embedding column把原始特征映射为一个低维稠密的实数向量。同一类别的embedding向量间的距离通常可以用来度量类别直接的相似性。

tf.layers.dense用法:tf.layers.dense()的用法-CSDN博客

tf.estimator.export.PredictOutput用法:《Estimator工程实现》系列三: 模型导出示例_estimator 导出模型-CSDN博客

pytorch:

pytorch中squeeze()和unsqueeze()函数介绍:【学习笔记】pytorch中squeeze()和unsqueeze()函数介绍-CSDN博客

nn.linear():

PyTorch的nn.Linear()详解_nn.linear()-CSDN博客

torch.mmh和torch.mul:torch.mul() 和 torch.mm() 的区别_torch mul-CSDN博客

torch.linspace:PyTorch中linspace的详细用法_pytorch linspace-CSDN博客

torch.where(condition, x, y):torch.where(condition, x, y) - 知乎

python中list-numpy.array-torch.tensor互相转换: python中list-numpy.array-torch.tensor互相转换 - CodeAntenna

torch.sum():torch.sum()的用法-CSDN博客

git:

在Git的PR(Pull Request)提示冲突无法merge合并的解决方案:https://www.cnblogs.com/xxcanghai/p/12160556.html

Git合并远程分支:

Git 合并远程分支-CSDN博客

git删除远程分支文件:

git 删除远程分支文件-CSDN博客

scala:

基础教程:Scala 基础语法 | 菜鸟教程

在 Scala 中,使用关键词 "var" 声明变量,使用关键词 "val" 声明常量。

SparkSQL中DataFrame的getAs和getString函数解析:[转]SparkSQL中DataFrame的getAs和getString函数解析_spark sql getas_楓尘林间的博客-CSDN博客

Scala中的some:Spark(八) scala中的Option、Some、None - 简书

Scala map中下划线_._2的含义:

Scala map中下划线_._2的含义_.map(_._2)-CSDN博客

linux:

输出文件指定行:awk 'NR>=5 && NR <=8' file.txt

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/225185.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

深度探索Linux操作系统 —— 构建内核

系列文章目录 深度探索Linux操作系统 —— 编译过程分析 深度探索Linux操作系统 —— 构建工具链 深度探索Linux操作系统 —— 构建内核 文章目录 系列文章目录前言一、内核映像的组成 前言 内核的构建系统 kbuild 基于GNU Make&#xff0c;是一套非常复杂的系统。 对于编译内核…

用 C 写一个卷积神经网络

用 C 写一个卷积神经网络 深度学习领域最近发展很快&#xff0c;前一段时间读transformer论文《Attention Is All You Need》时&#xff0c;被一些神经网络和深度学习的概念搞得云里雾里&#xff0c;其实也根本没读懂。发现深度学习和传统的软件开发工程领域的差别挺大&#xf…

19、XSS——HTTP协议安全

文章目录 一、Weak Session IDs(弱会话IDs)二、HTTP协议存在的安全问题三、HTTPS协议3.1 HTTP和HTTPS的区别3.2 SSL协议组成 一、Weak Session IDs(弱会话IDs) 当用户登录后&#xff0c;在服务器就会创建一个会话&#xff08;Session&#xff09;&#xff0c;叫做会话控制&…

tomcat配置管理员And配置访问静态资源

配置管理员 打开 tomcat\conf\tomcat-users.xml <tomcat-users xmlns"http://tomcat.apache.org/xml"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://tomcat.apache.org/xml tomcat-users.xsd"version&qu…

openai 1.3.x 版本 openai.APITimeoutError: Request timed out. 解决

问题描述 openai 1.3.x 版本 请求出现 Request timed out File "E:\Python\Python312\Lib\site-packages\openai\_base_client.py", line 920, in _request return self._retry_request( ^^^^^^^^^^^^^^^^^^^^ File "E:\Python\Python312\L…

python爬虫零基础学习之简单流程示例

文章目录 爬虫基础爬虫流程常用库爬虫示例关于Python爬虫技术储备一、Python所有方向的学习路线二、Python基础学习视频三、精品Python学习书籍四、Python工具包项目源码合集①Python工具包②Python实战案例③Python小游戏源码五、面试资料六、Python兼职渠道 爬虫基础 网络爬…

微信小程序动态加载图表[echart]

1.引入Echarts &#xff08;1&#xff09;将ec-canvas文件拷贝下来放到你自己的项目中&#xff1a; &#xff08;2&#xff09;在你需要使用Echarts的页面的json文件中引入Echarts "usingComponents": {"ec-canvas": "../utils/ec-canvas/ec-canva…

STM32——PWM介绍

STM32F103C8T6 PWM资源&#xff1a; 高级定时器&#xff08;TIM1&#xff09;&#xff1a;7路 通用定时器&#xff08;TIM2~TIM4&#xff09;&#xff1a;各4路 PWM输出模式&#xff1a; PWM模式1&#xff1a;在向上计数时&#xff0c;一旦 CNT < CCRx 时输出为有效电平&…

基于Eclipse+Mysql+Servlet开发的学生信息管理系统

基于EclipseMysqlServlet开发的学生信息管理系统 项目介绍&#x1f481;&#x1f3fb; 随着信息技术的不断发展&#xff0c;学校管理学生信息的方式也在不断改进。传统的手工管理方式已经无法满足现代学校对信息管理的需求&#xff0c;因此开发一套基于EclipseMysql的学生信息管…

C#基础学习--命名空间和程序集

引用其他程序集 编译器接受源代码文件并生成一个名为程序集的输出文件。 在许多项目中&#xff0c;会想使用来自其他程序集的类或类型。这些程序集可能来自BCL或第三方供应商&#xff0c;或者自己创建的。这些程序集称为类库&#xff0c;而且它们的程序集文件的名称通常以dll…

MySQL为何偏爱B+树索引

一、MySQL、B树概念 MySQL是一种关系型数据库&#xff0c;它使用SQL语言来操作数据。SQL语言可以实现对数据的增删改查等操作&#xff0c;但是如果数据量很大&#xff0c;那么这些操作的效率就会很低。为了提高效率&#xff0c;MySQL引入了索引的概念。 索引是一种数据结构&am…

Java TCP(一对一)聊天简易版

客户端 import java.io.*; import java.net.Socket; import java.util.Date; import javax.swing.*;public class MyClient {private JFrame jf;private JButton jBsend;private JTextArea jTAcontent;private JTextField jText;private JLabel JLcontent;private Date data;p…

Redis——某马点评day02——商铺缓存

什么是缓存 添加Redis缓存 添加商铺缓存 Controller层中 /*** 根据id查询商铺信息* param id 商铺id* return 商铺详情数据*/GetMapping("/{id}")public Result queryShopById(PathVariable("id") Long id) {return shopService.queryById(id);} Service…

构建socket的客户端和服务端

网络函数 WSAStartup socket bind listen accept connect send recv closesocket WSACleanup 为什么要用WSAStartup初始化&#xff1f; 本函数必须是应用程序或DLL调用的第一个Windows Sockets函数.它允许应用程序或DLL指明Windows Sockets API的版本号及获得特定Windows So…

文件加密软件——支持对任意类型文档加密保护

你是不是经历过这样的场景&#xff1a; 公司的文件随意外发 员工拿U盘随意拷贝文件 公司辛辛苦苦设计的图纸莫名其妙泄露了 标书里的数据不知道什么时候就被竞品公司知道了 …… 一系列的文件泄密事件&#xff0c;让企业主不寒而栗。遂千方百计、好似无头苍蝇似的在市面上…

postgreSql服务的window启动

CMD启动服务&#xff1a; D:\PostgreSQL\bin pg_ctl register -N PostgreSQL -D "D:\PostgreSQL\data # 登录 psql -U postgres # 验证输入 select 1; 拓展&#xff1a;删除服务 sc delete 服务名称 PostgreSQLUSER: postgresPWD: rootPORT: 5432动PostgreSQL服务器 3.1 打…

R语言手册30分钟上手

文章目录 1. 环境&安装1.1. rstudio保存工作空间 2. 创建数据集2.1. 数据集概念2.2. 向量、矩阵2.3. 数据框2.3.1. 创建数据框2.3.2. 创建新变量2.3.3. 变量的重编码2.3.4. 列重命名2.3.5. 缺失值2.3.6. 日期值2.3.7. 数据框排序2.3.8. 数据框合并(合并沪深300和中证500收盘…

Java设计模式:单例模式(饿汉式、懒汉式、枚举实现类)

❤ 作者主页&#xff1a;欢迎来到我的技术博客&#x1f60e; ❀ 个人介绍&#xff1a;大家好&#xff0c;本人热衷于Java后端开发&#xff0c;欢迎来交流学习哦&#xff01;(&#xffe3;▽&#xffe3;)~* &#x1f34a; 如果文章对您有帮助&#xff0c;记得关注、点赞、收藏、…

[足式机器人]Part2 Dr. CAN学习笔记-数学基础Ch0-4线性时不变系统中的冲激响应与卷积

本文仅供学习使用 本文参考&#xff1a; B站&#xff1a;DR_CAN Dr. CAN学习笔记-数学基础Ch0-4线性时不变系统中的冲激响应与卷积 1. LIT System&#xff1a;Linear Time Invariant2. 卷积 Convolution3. 单位冲激 Unit Impulse——Dirac Delta 线性时不变系统 &#xff1a; L…

目标检测综述(待补ing)

文章目录 摘要引言目标检测发展历程目标检测路线图传统检测器基于CNN的两阶段检测器基于CNN的一阶段检测器 目标检测数据集及指标数据集评价指标标注软件 backboneAlexNet&#xff08;2012&#xff09;VGGNet&#xff08;2014&#xff09;GoogleNet&#xff08;2014&#xff09…