为什么从没有负值的数据中绘制的小提琴图(Violin Plot)会出现负值部分?

🍉 CSDN 叶庭云https://yetingyun.blog.csdn.net/


小提琴图(Violin Plot) 是一种用于展示和比较数据分布的可视化工具。它结合了箱形图(Box Plot)和密度图(Kernel Density Plot)的特点:中间有箱形图表示四分位数和中位数,外围是密度估计曲线,显示数据分布的密度。这种设计旨在提供关于数据分布形状、峰度和离散性的直观信息。

在这里插入图片描述

小提琴图(Violin Plot)是一种常用于数据可视化的图表类型,它结合了箱形图和核密度估计图的特点,能够展示数据分布的形状、集中趋势和离散程度。下面我将详细介绍小提琴图的基本概念、可视化原理、应用场景以及其优缺点。

基本概念:小提琴图通常用于展示数值型数据的分布情况,它由两部分组成:中间的厚实区域表示数据的主体部分,类似于核密度图;两侧延伸出来的细长线条则代表数据的范围和密度,类似于箱形图的茎叶图。整个图形看起来像一支小提琴,因此得名 “小提琴图”。

可视化原理:小提琴图通过展示数据分布的形状、集中趋势和离散程度,有助于比较不同类别之间的数据分布情况。它利用核密度估计来描述数据分布的形状,并且可以同时显示出不同类别之间的差异。

应用场景:

  • 比较群体分布:小提琴图适合比较不同群体或类别下数值型变量的分布情况,能够直观展现各群体之间的差异。

  • 与其他变量关系:可以结合其他变量进行多变量分析,例如在分类变量下对数值型变量进行分布比较。

  • 异常值检测:通过小提琴图可以快速发现数据中是否存在异常值或者长尾现象。

优缺点

优点:

  • 直观显示数据分布:小提琴图能够清晰地展示数据的整体分布情况,包括峰度、偏度等特征。
  • 比较多组数据:能够同时比较多组数据在同一坐标系下的分布情况。
  • 美学效果:小提琴图外形独特美观,在报告和论文中具有较高的表现力。

缺点:

  • 信息密度相对较低:相比于箱形图,小提琴图在同样大小空间内能表示的信息相对较少。

  • 易受样本大小影响:当样本过小时,小提琴图可能无法准确呈现真实数据分布。

总结:小提琴图作为一种常见的数据可视化手段,在比较多组数值型变量的分布时具有独特优势。然而,在使用时需要注意样本大小对结果呈现的影响,并结合具体场景选择合适的可视化手段。

为什么从没有负值的数据中绘制的小提琴图会出现负值部分?

现象描述:当从没有负值的数据中绘制小提琴图时,有时会出现看似负值的部分。这可能让人感到困惑,因为原始数据中并不存在负值。

解释背后的原因

  • 这种现象通常是由于小提琴图的核密度估计部分所引起的。核密度估计是一种非参数统计方法,用于估计随机变量的概率密度函数。在生成小提琴图时,核密度估计会对数据进行平滑处理,并且在数据范围之外也会有一定程度上的延伸。

  • 因此,即使原始数据中没有负值,核密度估计图在绘制小提琴图时可能会在零点之下产生一些看似负值的部分。这并不意味着实际存在负值,而只是表示在这个区域内的数据密度较低。

出现这种情况主要是由于小提琴图外围的密度估计过程引起的。下面详细解释:

  1. 核密度估计(KDE)原理:小提琴图使用核密度估计来平滑数据点,生成外围形状。KDE 是一种非参数方式来估计随机变量的概率密度函数。简而言之,它通过对单个数据点周围放置一个 “核”,然后将所有数据点的核叠加起来生成整体的密度估计。

  2. 边界效应:当数据集中所有值都为正且接近零时,KDE 过程可能会在零以下产生非零密度估计,因为某些核会延伸到负值区域。这不意味着数据实际上有负值,而只是密度估计算法试图捕捉到接近零区域的数据分布情况。

  3. 带宽选择:KDE 中一个关键参数是带宽(bandwidth),它决定了核的宽度。带宽选择过大或过小都可能导致不准确的密度估计。如果带宽太大,那么生成的密度曲线将更平滑但可能延伸到实际数据范围之外;如果带宽太小,则可能导致过拟合和曲线噪声。

  4. 解决方案

    • 调整带宽:减少核密度估计中使用的带宽大小可以减少负值区域的影响,但需平衡以避免过拟合。
    • 截断处理:在某些软件或绘图库中,可以指定 KDE 曲线不要扩展到特定值以下(例如 0),以避免在没有负值数据时显示负值部分。
    • 使用其他可视化方法:如果小提琴图在特定情况下产生误导信息,可以考虑使用其他类型的可视化方法,如箱形图或直方图等。

总结:即使原始数据中没有负值,小提琴图也可能显示出负值部分主要是由于核密度估计引入边界效应所致。理解这一点有助于正确解读小提琴图,并根据需要调整可视化策略以准确传达数据信息。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/397169.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

1、OI 赛事与赛制

赛事简介 信息学奥林匹克竞赛(英语:Olympiad in Informatics,简称:OI)是一门在中学生中广泛开展的学科竞赛,和物理、数学等竞赛性质相同。OI 考察的内容是参赛者运用算法、数据结构和数学知识,通过编写计算机程序解决实际问题的能力。 OI 竞赛种类繁多,仅中国就包括: …

C++基础学习

string char转string vector转string 正则匹配

【LeetCode每日一题】单调栈 581. 最短无序连续子数组

581. 最短无序连续子数组 给你一个整数数组 nums ,你需要找出一个 连续子数组 ,如果对这个子数组进行升序排序,那么整个数组都会变为升序排序。 请你找出符合题意的 最短 子数组,并输出它的长度。 示例 1: 输入&am…

地下管线管网三维建模工具MagicPipe3D V3.4.2发布

经纬管网建模系统MagicPipe3D,本地离线参数化构建地下管网三维模型(包括管道、接头、附属设施等),输出标准3DTiles服务、Obj模型等格式,支持Cesium、Unreal、Unity、Osg等引擎加载进行三维可视化、语义查询、专题分析&…

2024年数学建模竞赛汇总——时间轴

美赛已过,好多小伙伴表示已经错过,不清楚什么时候报名,什么时候准备,其实每年数学建模比赛有很多个,各大比赛的级别、报名时间、参赛对象等要求什么呢?小编从竞赛说明、竞赛级别、是否允许跨校、报名费用、…

8.2 新特性 - 透明的读写分离

文章目录 前言1. 安装部署1.1 下载安装包1.2 MySQL Shell1.3 配置 MySQL 实例1.4 启动 ReplicaSet1.5 启动 8.2 Router 2. 测试路由总结 前言 MySQL 8.0 官方推出过一个高可用方案 ReplicaSet 主要由 Router、MySQL Shell、MySQL Server 三个组件组成。 MySQL Shell 负责管理…

Swift Combine 使用从 PassthroughSubject 预定好的发送的事件测试订阅者 从入门到精通二十三

Combine 系列 Swift Combine 从入门到精通一Swift Combine 发布者订阅者操作者 从入门到精通二Swift Combine 管道 从入门到精通三Swift Combine 发布者publisher的生命周期 从入门到精通四Swift Combine 操作符operations和Subjects发布者的生命周期 从入门到精通五Swift Com…

第四篇【传奇开心果系列】Python文本和语音相互转换库技术点案例示例:pyttsx3自动化脚本经典案例

传奇开心果短博文系列 系列短博文目录Python文本和语音相互转换库技术点案例示例系列 短博文目录前言一、雏形示例代码二、扩展思路介绍三、批量处理文本示例代码四、自定义语音设置示例代码五、结合其他库和API示例代码六、语音交互系统示例代码七、多语言支持示例代码八、添加…

c#,dotnet, DataMatrix 类型二维码深度识别,OCR,(基于 Halcon)

代码中部分调用的 c 函数参数,具体说明自行研究~(我也是参考的其他资源,还没研究透彻) 例如:HOperatorSet.GenRectangle2() , 2000, 2000, 0, 2000, 2000 这些数字应该是选取的图片解析范围、尺寸&#xff…

如何利用Idea创建一个Servlet项目(新手向)

💕"Echo"💕 作者:Mylvzi 文章主要内容:如何利用Idea创建一个Servlet项目(新手向) Servlet是tomcat的api,利用Servlet进行webapp开发很方便,本文将介绍如何通过Idea创建一个Servlet项目(一共分为七步,这可能是我们写过的…

数据结构-最短路径(Dijkstra算法与Floyd算法)

介绍 对于网图来说,最短路径是指两顶点之间经过的边上权值之和最少的路径,其路径上第一个点记为源点,最后一个为终点。 计算最短路径有两个经典算法,即迪杰斯特拉(Dijkstra)算法与弗洛伊德(Fl…

【医学大模型】Text2MDT :从医学指南中,构建医学决策树

Text2MDT :从医学指南中,构建医学决策树 提出背景Text2MDT 逻辑Text2MDT 实现框架管道化框架端到端框架 效果 提出背景 论文:https://arxiv.org/pdf/2401.02034.pdf 代码:https://github.com/michael-wzhu/text2dt 假设我们有一…

设计模式三:工厂模式

工厂模式包括简单工厂模式、工厂方法模式和抽象工厂模式,其中后两者属于23中设计模式 各种模式中共同用到的实体对象类: //汽车类:宝马X3/X5/X7;发动机类:B48TU、B48//宝马汽车接口 public interface BMWCar {void s…

代码随想录算法训练营第三七天 | 单调递增的数字、监控二叉树

目录 单调递增的数字监控二叉树 LeetCode 738.单调递增的数字 LeetCode 968.监控二叉树 单调递增的数字 当且仅当每个相邻位数上的数字 x 和 y 满足 x < y 时&#xff0c;我们称这个整数是单调递增的。 给定一个整数 n &#xff0c;返回 小于或等于 n 的最大数字&#xf…

Linux CentOS stream 9 firewalld

随着互联网行业快速发展&#xff0c;服务器成为用户部署网络业务重要的网络工具&#xff0c;但随之而来的就是更密集的网络攻击&#xff0c;这给网站带来了很大的阻碍。防火墙作为保障网络安全的主要设备&#xff0c;可以很好的抵御网络攻击。 防火墙基本上使用硬件和软件两种…

虚拟机 安装 centos7 带桌面

虚拟机 安装 centos7 流程 https://mirrors.tuna.tsinghua.edu.cn/centos/7.9.2009/isos/x86_64/ CentOS-7-x86_64-DVD-2009.iso vmware 安装 centos7 的时候&#xff0c; 如果 不是 选择的 稍后 安装操作系统 &#xff0c; 会不让你选择配置选项&#xff0c;自动帮你把系统…

高数总结(6

目录 1.总结&#xff1a;小结&#xff1a; 1.总结&#xff1a; 小结&#xff1a; 关注我给大家分享更多有趣的知识&#xff0c;以下是个人公众号&#xff0c;提供 ||代码兼职|| ||代码问题求解|| 由于本号流量还不足以发表推广&#xff0c;搜我的公众号即可&#xff1a;

RK3588平台开发系列讲解(视频篇)ffmpeg 的移植

文章目录 一、ffmpeg 介绍二、ffmpeg 的组成三、ffmpeg 依赖库沉淀、分享、成长,让自己和他人都能有所收获!😄 📢ffmpeg 是一种多媒体音视频处理工具,具备视频采集功能、视频抓取图像、视频格式转换、给视频加水印并能将视频转化为流等诸多强大的功能。它采用 LGPL 或 G…

【办公类-16-07-03】“2023下学期 周计划-户外游戏 每班1周五天相同场地,6周一次循环、有场地、贴墙版”(python 排班表系列)

作品展示——有场地说明 背景需求&#xff1a; 前期做了一份“贴周计划”用的班主任版的户外游戏安排表&#xff08;中X班19周&#xff0c;没有场地&#xff09; 【办公类-16-07-02】“2023下学期 周计划-户外游戏 每班1周五天相同场地&#xff0c;6周一次循环”&#xff08;…

React近一年的发展趋势与挑战,以及距离v19版本的进展情况

大家好&#xff0c;我是宝哥 React近一年的发展趋势和挑战主要体现在以下几个方面&#xff1a; 版本发布频率下降&#xff1a;React自上一次版本更新以来&#xff0c;已经有一年多没有发布新的稳定版本&#xff0c;这引起了社区的广泛关注和讨论。最后一次更新是在2022年6月&…