直方图帮助手册
2、箱线图
箱线图(也称盒图,箱盒图等)是在1977年由美国统计学家John Tukey发明,分析数据需要为定量数据。通过箱线图,可以直观的探索数据特征, 查看可能的异常值数据情况等。
箱线图展示
箱线图帮助手册
3、核密度图
核密度图是一种非参数检验方法,其是对直方图的进一步抽象化,但其更加直观,其曲线下面积为1,通常用于连续数据的直观展示,比如年龄的分布情况,身高的分布情况等。
核密度图展示
核密度图帮助手册
4、小提琴图
小提琴是是箱线图和核密度图的集合,其可通过箱线思维展示数据的各个百分位点,与此同时,还可使用核密度图展示数据分布的‘轮廓’效果,‘轮廓’越大,即意味着数据越集中于该处,反之则说明该处时数据越少。
小提琴图帮助手册
5、P-P图/Q-Q图
P-P图和Q-Q图常用于直观查看数据是否正态分布。P-P图和Q-Q图的目的性基本一致,但原理上有着区别。
P-P图/Q-Q图帮助手册
6、正态z分布图
这是统计学中最基础、最重要的分布,呈现完美的对称“钟形曲线”。它由均值(μ)和标准差(σ)完全决定,自然界中许多现象(如身高、测量误差)都近似服从正态分布,中心极限定理也保证了大量独立随机变量和的分布会趋近于正态。
统计图帮助手册
7、F分布图
F分布由费雪(R.A. Fisher)提出,是一个非负且右偏的分布。它主要用于比较两组数据的方差是否相等,是方差分析(ANOVA)和回归分析中F检验的核心。
8、t分布图
t分布由威廉·戈塞特(笔名“Student”)提出,形状与正态分布相似,但尾部更厚,尤其在样本量较小时。它用于估计总体均值,当总体标准差未知且样本量较小时,t分布比正态分布更准确。
9、卡方分布图
卡方分布是多个独立标准正态随机变量平方和的分布,非负且右偏。它主要用于分类数据的独立性检验和拟合优度检验,例如分析问卷中不同选项的关联性。
10、二项分布图
二项分布描述在n次独立伯努利试验中成功次数的离散概率分布,由n和p(单次成功概率)决定。它适用于只有两种可能结果的场景,如抛硬币、产品是否合格。
11、Poisson分布图
Poisson分布描述在固定时间或空间内,事件发生特定次数的概率分布,由λ(平均发生率)决定。它适用于描述稀有事件的发生频率,如单位时间内某网站的访问量、某地区的地震次数。
12、负二项分布图
描述在多次独立伯努利试验中,为获得r次成功所经历的失败次数的分布。它是二项分布的扩展,适用于建模直到成功达到指定次数为止的试验次数。
二、变量关系探索
在掌握单变量特征后,进一步需要考察变量之间是否存在关联或结构关系。变量关系探索有助于发现潜在规律、初步判断相关方向与强度,也是构建模型前的重要探索性步骤。
13、散点图
散点图用于考察定量数据之间的关联关系,即查看X和Y之间的关系情况。散点图通常用于探索性研究,直观展示出数据间的关联关系情况,例如相关分析之前,查看X和Y之间的关系情况。
散点图帮助手册
14、气泡图
气泡图可用于展示X和Y之间的关系情况,并且利用Z标识每个点的气泡大小。同时,SPSSAU支持直接在气泡中展示‘标签’,并且可使用不同颜色标识气泡。
气泡图帮助手册
15、热力图
热力图用于直观显示多个变量之间的相关性强度和方向。通常,热力图通过颜色和深浅展示相关系数的正负和大小,这种图表帮助分析者快速理解变量之间的关联关系。热力图帮助手册
16、误差线图
误差线图用于展示数据的不确定性程度,显示潜在的误差或每个数据标志的不确定程度。样本数据的波动是通过标准差体现,因而样本均值不确定性程度为标准差。
误差线图帮助手册
17、簇状图
从展示的图形类型上,簇状图可分为簇状折线图、簇状柱形图和簇状条形图等,SPSSAU默认均提供;SPSSAU共提供平均值、计数、求和以及中位数四种汇总值。簇状图时,分类数据为0个,1个或2个,SPSSAU均提供对应的图形展示。
簇状图帮助手册
18、堆积柱状图
堆积柱状图是一种用于比较分类数据的图表,它将不同类别的数据堆积在同一个柱状图上。每个柱状图的高度代表整体的大小,而柱状图内的各个段则表示不同类别的份额或部分占比。SPSSAU卡方检验会自动输出对应的堆积柱状图。
19、饼图/圆环图
饼图(或圆环图)用于直观展示数据中各部分占比的大小关系,适合展示分类变量的相对比例,例如不同产品销售占比或市场份额分配情况,SPSSAU频数分析等方法会输出饼图/圆环图。
20、象限图
象限图可对数据分类进行直观展示;使用水平和垂直分割线将图表区域划分成四个象限,而且每个象限呈现对应的数据。通常情况下,象限图呈现目的在于直接展示数据划分区域。
象限图帮助手册
21、组合图
组合图用于两类维度值之间有较大差异时的图形化展示,其有两个坐标轴,分别是主轴和次轴,通常情况下,主轴为数量较大项,次轴为数量较大项。比如展示GDP与GDP增长率,主轴为GDP,次轴为GDP增长率。
组合图帮助手册
三、模型诊断评估
模型建立之后,并不意味着分析结束,还需要对模型质量进行系统检验。通过诊断模型的拟合程度、稳定性和预测能力,可以判断模型结论是否可靠、是否具备解释或应用价值。
22、ROC曲线
ROC曲线,也称受试者工作特征曲线;ROC曲线最初是运用在军事上,当前在医学领域使用非常广泛,用于研究X对于Y的预测准确率情况。
ROC曲线帮助手册
23、预测效果拟合图
预测效果拟合图直观地展示了模型预测值与实际值之间的匹配程度,用于评估模型的预测准确性和拟合优度。SPSSAU时间序列预测模型例如ARIMA、指数平滑法等会输出预测效果拟合图。
24、coefplot图
coefPlot图通常指的是系数图,在统计建模中经常用于显示各个解释变量(自变量)的系数估计值及其置信区间。这种图表帮助分析者直观地了解每个变量对因变量(目标变量)的影响程度和方向。SPSSAU回归分析会输出对应的回归系数95%CI。
25、混淆矩阵图
混淆矩阵以矩阵形式直观呈现分类模型的预测结果与真实类别的匹配情况(真阳性、真阴性、假阳性、假阴性),用于评估分类准确率、召回率等核心性能指标。SPSSAU机器学习类方法会输出对应混淆矩阵。
26、森林图
森林图是一种用于meta分析的图形展示工具,它通过一系列垂直的条形图直观地展示了每个研究的结果及其合并效应的大小和置信区间。SPSSAU meta分析模块方法会输出对应森林图。
27、岭迹图
岭迹图是用于确定岭回归中正则化参数k值的可视化工具,通过绘制不同k值下回归系数的变化路径,帮助选择使系数趋于稳定且方差膨胀因子(VIF)<10的k值,从而有效解决多重共线性问题。SPSSAU岭回归、lasso回归会输出岭迹图。
28、Bland-Altman图
Bland-Altman图是一种一致性测量的可视化展示方法。其将测量数据相关计算后,进行散点展示出来,如果说散点在可信区间范围内(一般是差值的1.96个标准差范围内),那么就说明数据具有较好的一致性水平。
Bland-Altman图帮助手册
29、校准曲线
校准曲线将连续的预测值和真实值数据进行离散化,进而判断模型的预测值是否接近于真实情况。理想情况下,校准曲线是一条对角线,即预测概率等于真实情况。
校准曲线帮助手册
四、时间序列分析
对于依时间顺序采集的数据,其动态规律、趋势与周期性能传递独特的科学信息。时间序列分析旨在挖掘这些时序依赖性。时序图、自相关图、状态转移图等,是解码数据时间维度密码的关键可视化语言。
30、时序图
时序图可用于直观展示随时间变化时某变量的数据变化情况,其通常用于某项分析前的直观判断,比如ARIMA模型前的数据平稳性判断,也或者VAR模型之前时时间序列数据的走势一致性判断等。
时序图帮助手册
31、ACF图/PACF图
自相关图ACF和偏自相关图PACF,此两个图通常是用于判断时间序列ARMA模型的使用。
自相关ACF/偏自相关PACF图分析
32、状态转移图
马尔可夫预测状态转移图通过节点和箭头展示不同状态之间的转移概率,直观反映系统状态变化趋势。
马尔可夫预测帮助手册
33、生存曲线函数
生存函数曲线是生存分析的核心工具,它以时间为横轴,描绘了个体在某个时间点之后仍然“存活”(或事件未发生)的概率,其值从1开始单调递减至0,常用于医学研究(如患者生存率),SPSSAU Cox回归、Kaplan-Meier会输出生存函数曲线。
五、决策分析
在实际应用中,分析结果往往需要服务于具体决策。决策分析关注不同方案在不确定条件下的收益与风险,强调结果的可解释性和可操作性,为决策提供量化依据。
34、帕累托图
帕累托图是“二八原则”的图形化体现,80%的问题是由20%的原因所致;通常情况下帕累托图可用来展现某‘问题’的占比情况,通过图形找出最重要的原因。
帕累托图帮助手册
35、Better-Worse系数图
KANO模型分析时会输出Better-Worse系数图,横坐标为Worse绝对值,纵坐标为Better值,可直观展示所有功能/服务项属性情况。第一象限为期望属性;第二象限为魅力属性;第三象限为无差异属性;第四象限为必备属性。
KANO模型帮助手册
36、DCA曲线
DCA曲线可对风险和获益情况进行综合评估,以判断临床决策是否可行,通俗地讲即DCA曲线可帮忙临床医生判断临床决策是否会‘利大于弊’。
DCA曲线帮助手册
六、文本分析
随着非结构化数据的广泛出现,文本已成为重要的信息来源。文本分析通过挖掘词频、情感和主题结构,将零散文字转化为可量化、可分析的数据形式。
37、词云图
词云图可对文字中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而使浏览者只要一眼扫过文本就可以领略文本的主旨。
词云分析帮助手册
38、社会网络关系图
在文本分析中,社会网络关系图通过节点和边线展示高频词汇之间的直接或间接关系,帮助发现隐藏的关系模式。
社会网络关系图帮助手册
七、聚类降维
面对高维复杂数据,聚类与降维技术旨在发现其内在分组结构或将其核心信息投影至低维空间进行解读。树状图、碎石图等可视化结果,不仅是呈现分组或成分的手段,其本身也是确定最佳聚类数目或维度数量的诊断依据。
39、碎石图
碎石图是一种用于因子分析或主成分分析的图表,其主要作用是帮助分析者确定保留多少个因子或主成分。图中横轴通常表示因子(或主成分)的数量,纵轴表示每个因子的特征值。通过观察特征值的变化趋势,特别是其变化的拐点或“碎石”,来决定保留哪些因子以解释数据中的变异性。
40、聚类树状图
聚类树状图能够直观地展示基于相似性或距离的数据层次聚类结果,是一种用于展示数据之间层次关系的图形工具,常用于数据分析和生物信息学领域。它通过递归地将数据分组并逐步合并,形成一个树状结构,以显示数据对象之间的相似性或距离。使用聚类树状图可以帮助研究人员识别数据中的自然群体或分类。
分层聚类帮助手册
八、SPSSAU可视化分析
在SPSSAU平台进行数据分析时,系统具备智能化出图功能。用户完成方法选择并执行分析后,SPSSAU不仅会生成常规的数据结果,还会自动输出与该分析方法相匹配的统计图表,实现“结果+可视化结果”的同步呈现。
示例1:进行方差分析时,SPSSAU自动输出均值对比图,点击右上角可切换数据可视化图形,如下图:示例2:进行极差分析时,SPSSAU会输出对应的极差图,可直观判断试验最优组合,如下图:
示例3:进行结构方程模型分析时,SPSSAU会自动输出对应的模型图,如下图:
SPSSAU当前提供字体、字号、小数位、是否隐藏标签、是否展示Y轴、Y轴颜色设置、刻度线方向以及七类色彩风格设置,该设置只需要在任何一个地方设置,后续和其它全部的图都会基于该设置生成‘可视化图’,不需要重复进行设置。
在SPSSAU输出的任意统计图下方,点击“样式”按钮进行设置,如下图:
返回搜狐,查看更多