matlab中统计工具箱函数大全,转帖

matlab中统计工具箱函数大全(转帖)

  • 写于2011-01-19 10:18:47

http://hi.baidu.com/�ҵİٶȿ���/blog/item/09e5fd1f7e1d490d304e1503.html

matlab中统计工具箱函数大全

MATLAB统计工具箱包括概率分布、方差分析、假设检验、分布检验、非参数检验、回归分析、判别分析、主成分分析、因子分析、系统聚类分析、K均值聚类分析、试验设计、决策树、多元方差分析、统计过程控制和统计图形绘制等。优化工具箱包括无约束最优化、有约束最优化、二次规划、多目标规划、最大最小化、半元限问题、方程求解以及大型优化问题的求解等。

表Ⅰ-1 概率密度函数

betapdf贝塔分布的概率密度函数

binopdf二项分布的概率密度函数

chi2pdf卡方分布的概率密度函数

exppdf指数分布的概率密度函数

fpdf f分布的概率密度函数

gampdf伽玛分布的概率密度函数

geopdf几何分布的概率密度函数

hygepdf超几何分布的概率密度函数

normpdf正态(高斯)分布的概率密度函数

lognpdf对数正态分布的概率密度函数

nbinpdf负二项分布的概率密度函数

ncfpdf非中心f分布的概率密度函数

nctpdf非中心t分布的概率密度函数

ncx2pdf非中心卡方分布的概率密度函数

poisspdf泊松分布的概率密度函数

raylpdf雷利分布的概率密度函数

tpdf学生氏t分布的概率密度函数

unidpdf离散均匀分布的概率密度函数

unifpdf连续均匀分布的概率密度函数

weibpdf威布尔分布的概率密度函数

表Ⅰ-2 累加分布函数

函数名

对应分布的累加函数

betacdf贝塔分布的累加函数

binocdf二项分布的累加函数

chi2cdf卡方分布的累加函数

expcdf指数分布的累加函数

fcdf f分布的累加函数

gamcdf伽玛分布的累加函数

geocdf几何分布的累加函数

hygecdf超几何分布的累加函数

logncdf对数正态分布的累加函数

nbincdf负二项分布的累加函数

ncfcdf非中心f分布的累加函数

nctcdf非中心t分布的累加函数

ncx2cdf非中心卡方分布的累加函数

normcdf正态(高斯)分布的累加函数

poisscdf泊松分布的累加函数

raylcdf雷利分布的累加函数

tcdf学生氏t分布的累加函数

unidcdf离散均匀分布的累加函数

unifcdf连续均匀分布的累加函数

weibcdf威布尔分布的累加函数

表Ⅰ-11 线性模型函数

anova1单因子方差分析

anova2双因子方差分析

anovan多因子方差分析

aoctool协方差分析交互工具

dummyvar拟变量编码

friedman Friedman检验

glmfit一般线性模型拟合

kruskalwallis Kruskalwallis检验

leverage中心化杠杆值

lscov已知协方差矩阵的最小二乘估计

manova1单因素多元方差分析

manovacluster多元聚类并用冰柱图表示

multcompare多元比较

多项式评价及误差区间估计

polyfit最小二乘多项式拟合

polyval多项式函数的预测值

polyconf残差个案次序图

regress多元线性回归

regstats回归统计量诊断

Ridge岭回归

rstool多维响应面可视化

robustfit稳健回归模型拟合

stepwise逐步回归

x2fx用于设计矩阵的因子设置矩阵

表Ⅰ-12 非线性回归函数

nlinfit非线性最小二乘数据拟合(牛顿法)

nlintool非线性模型拟合的交互式图形工具

nlparci参数的置信区间

nlpredci预测值的置信区间

nnls非负最小二乘

表Ⅰ-13 试验设计函数

cordexch D-优化设计(列交换算法)

daugment递增D-优化设计

dcovary固定协方差的D-优化设计

ff2n二水平完全析因设计

fracfact二水平部分析因设计

fullfact混合水平的完全析因设计

hadamard Hadamard矩阵(正交数组)

rowexch D-优化设计(行交换算法)

表Ⅰ-14 主成分分析函数

barttest Barttest检验

pcacov源于协方差矩阵的主成分

pcares源于主成分的方差

princomp根据原始数据进行主成分分析

表Ⅰ-15 多元统计函数

classify聚类分析

mahal马氏距离

manova1单因素多元方差分析

manovacluster多元聚类分析

表Ⅰ-16 假设检验函数

ranksum秩和检验

signrank符号秩检验

signtest符号检验

ttest单样本t检验

ttest2双样本t检验

ztest z检验

表Ⅰ-17 分布检验函数

jbtest正态性的Jarque-Bera检验

kstest单样本Kolmogorov-Smirnov检验

kstest2双样本Kolmogorov-Smirnov检验

lillietest正态性的Lilliefors检验

表Ⅰ-18 非参数函数

friedman Friedman检验

kruskalwallis Kruskalwallis检验

ranksum秩和检验

signrank符号秩检验

signtest符号检验

表Ⅰ-19 文件输入输出函数

caseread读取个案名

casewrite写个案名到文件

tblread以表格形式读数据

tblwrite以表格形式写数据到文件

tdfread从表格间隔形式的文件中读取文本或数值数据

表Ⅰ-20 演示函数

aoctool协方差分析的交互式图形工具

disttool探察概率分布函数的GUI工具

glmdemo一般线性模型演示

randtool随机数生成工具

polytool多项式拟合工具

rsmdemo响应拟合工具

robustdemo稳健回归拟合工具

统计工具箱是matlab提供给人们的一个强有力的统计分析工具.包含200多个m文件(函数),主要支持以下各方面的内容.

〉〉概率分布:提供了20种概率分布,包含离散和连续分布,且每种分布,提供了5个有用的函数,即概率密度函数,累积分布函数,逆累积分布函数,随机产生器与方差计算函数.

〉〉 参数估计:依据特殊分布的原始数据,可以计算分布参数的估计值及其置信区间.

〉〉描述性统计:提供描述数据样本特征的函数,包括位置和散布的度 量,分位数估计值和数据处理缺失情况的函数等.

〉〉线性模型:针对线性模型,工具箱提供的函数涉及单因素方差分析,双因素方差分析,多重线性回 归,逐步回归,响应曲面和岭回归等.

〉〉非线性模型:为非线性模型提供的函数涉及参数估计,多维非线性拟合的交互预测和可视化以及参数和预计值的 置信区间计算等.

〉〉 假设检验: 此间提供最通用的假设检验函数:t检验和z检验

〉〉其它的功能就不再介绍.

统计工具箱函数主 要分为两类:

〉数值计算函数(M文件)

〉交互式图形函数(Gui)

matlab惯例:beta 线性模型中的参数,E(x) x的数学期望, f(x|a,b) 概率密度函数, F(x|a,b) 累积分布函数 ,I([a,b]) 指示(Indicator)函数

p,q p事件发生的概率.

[size=2][color=blue]第1节 概率分布[/color][/size]

统计工具箱提供的常见分 布

Uniform均匀,Weibull威布尔,Noncentral t,Rayleigh瑞利,Poisson泊松,Student\'s t,Normal正态,Negative Binomial,Noncentral F

Lognormal对数,正态,Hyper G,F分布,Gamma,Geometric几何,Noncentral chi-square,Exponential指数,Binomial二项,Chi-square

Beta(分 布),discrete,Continuous,Continuous,离散分布,统计量连续分布,数据连续分布,概率密度函数 pdf,probbability density function

〉〉功能:可选的通用概率密度函数

〉〉格 式:Y=pdf(\'Name\',X,A1,A1,A3)

\'Name\' 为特定的分布名称,第一个字母必须大写

X 为分布函数自变量取值矩阵

A1,A2,A3 分别为相应分布的参数值

Y 存放结果,为概率密度值矩阵

算例:

>> y=pdf(\'Normal\',-2:2,0,1)

y =

0.0540 0.2420 0.3989 0.2420 0.0540

>> Y=pdf(\'Normal\',-2:0.5:2,1,4)

Y =

0.0753 0.0820 0.0880 0.0930 0.0967 0.0990 0.0997 0.0990 0.0967

>> p=pdf(\'Poisson\',0:2:8,2)

p =

0.1353 0.2707 0.0902 0.0120 0.0009

>> p=pdf(\'F\',1:2:10,4,7)

p =

0.4281 0.0636 0.0153 0.0052 0.0021

我们 也可以利用这种计算功能和作图功能,绘制一下密度函数曲线,例如,绘制不同的正态分布的密度曲线

>> x=[-6:0.05:6];

>> y1=pdf(\'Normal\',x,0,0.5);

>> y2=pdf(\'Normal\',x,0,1);

>> y3=pdf(\'Normal\',x,0,2);

>> y4=pdf(\'Normal\',x,0,4);

>>plot(x,y1,\'K-\',x,y2,\'K--\',x,y3,\'*\',x,y4,\'+\')

这 个程序计算了mu=0,而sigma取不同值时的正态分布密度函数曲线的形态,可以看出,sigma越大,曲线越平坦.

累积分布函数及逆累积分布 函数 cdf icdf

〉〉功能:计算可选分布函数的累积分布和逆累积分布函数

〉〉格 式:P=cdf(\'Name\',X,A1,A2,A3)

X=icdf(\'Name\',P,A1,A2,A3)

>> x=[-3:0.5:3];

>> p=cdf(\'Normal\',x,0,1)

p =

0.0013 0.0062 0.0228 0.0668 0.1587 0.3085 0.5000 0.6915 0.8413 0.9332 0.9772 0.9938 0.9987

>> x=icdf(\'Normal\',p,0,1)

x =

-3.0000 -2.5000 -2.0000 -1.5000 -1.0000 -0.5000 0 0.5000 1.0000 1.5000 2.0000 2.5000 3.0000

随机数产生器 random

〉〉功能:产生可选分布的随机数

〉〉格 式:y=random(\'Name\',A1,A2,A3,m,n)

A1,A2,A3 分布的参数

\'Name\' 分布的名称

m,n 确定y的数量,如果参数是标量,则y是m*n矩阵

例如 产生服从参数为(9,10)的F-分布的4个随机数值

>> y=random(\'F\',9,10,2,2)

y =

3.4907 1.6762

0.5702 1.1534

均值和方差 以\'stat\'结尾的函数

均值和方差的计算函数

[m,v]=normstat(mu,sigma)

正态分布

[mn,v]=hygestat(M,K,N)

超 几何分布

[m,v]=geostat(P)

几何分布

[m,v]=gamstat(A,B)

Gamma分布

[m,v]=fstat(v1,v2)

F 分布

[m,v]=expstat(mu)

指数分布

[m,v]=chi2stat(nu)

Chi-squrare分布

[m,v]=binostat(N,P)

二 项分布

[m,v]=betastat(A,B)

Beta 分布

函数名称及调用格式

分布类型名称

[m,v]=weibstat(A,B)

威 尔分布

[m,v]=unistat(A,B)

连续均匀分布

[m,v]=unidstat(N)

离散均匀分布

[m,v]=tstat(nu)

t 分布

[m,v]=raylstat(B)

瑞利分布

[m,v]=poisstat(lambda)

泊松分布

[m,v]=ncx2stat(nu,delta)

非 中心chi2分布

[m,v]=nctstat(nu,delta)

非中心t分布

[m,v]=ncfstat(nu1,nu2,delta)

非 中心F分布

[m,v]=nbinstat(R,P)

负二项分布

[m,v]=lognstat(mu,sigma)

对数正 态分布

[size=2][color=blue]第2节 参数估计[/color][/size]

参数估计是总体的分布形式已经知道,且 可以用有限个参数表示的估计问题.分为点估计(极大似燃估计Maximum likehood estimation, MLE)和区间估计.求取各种分布的最大似然估计估计量 mle

〉〉格式:phat=mle(\'dist\',da

ta)

[phat,pci]=mle(\'dist\',data)

[phat,pci]=mle(\'dist\',data,alpha)

[phat,pci]=mle(\'dist\',data,alpha,p1)

〉〉 \'dist\' 给定的特定分布的名称,\'beta\',\'binomial\'等.Data为数据样本,矢量形式给出.Alpha用户给定的置信度值,以给出100(1-alpha)%的置信区间,缺省为0.05.最后一种是仅供二项分布参数估计,p1为实验次数.

例1 计算beta 分布的两个参数的似然估计和区间估计(alpha=0.1,0.05,0.001),样本由随机数产生.

>> random(\'beta\',4,3,100,1);

>> [p,pci]=mle(\'beta\',r,0.1)

p =

4.6613 3.5719

pci =

3.6721 2.7811

5.6504 4.3626

>> [p,pci]=mle(\'beta\',r,0.05)

p =

4.6613 3.5719

pci =

3.4827 2.6296

5.8399 4.5141

>> [p,pci]=mle(\'beta\',r,0.001)

p =

4.6613 3.5719

pci =

2.6825 1.9900

6.6401 5.1538

例 2 计算二项分布的参数估计与区间估计,alpha=0.01.

>> r=random(\'Binomial\',10,0.2,10,1);

>> [p,pci]=mle(\'binomial\',r,0.01,10)

p =

0.2000 0.2000 0.1000 0.4000 0.2000 0.2000 0.4000 0 0.1000 0.2000

pci =

0.0109 0.0109 0.0005 0.0768 0.0109 0.0109 0.0768 NaN 0.0005 0.0109

0.6482 0.6482 0.5443 0.8091 0.6482 0.6482 0.8091 0.4113 0.5443 0.6482

[size=2][color=blue] 第3节 描述统计[/color][/size]

描述性统计包括:位置度量,散布度量,缺失数据下的统计处理,相关系数,样本分位数,样本峰度, 样本偏度,自助法等

〉〉位置度量:几何均值(geomean),调和均值(harmmean),算术平均值(mean),中位数 (median),修正的样本均值(trimean).

〉〉散布度量:方差(var),内四分位数间距(iqr),平均绝对偏差(mad),样本极差(range),标准差(std),任意阶中心矩(moment),协方差矩阵(cov).

〉〉缺失数据情况下的处理:忽视缺失数据的最大值 (nanmax),忽视缺失数据的平均值(nanmean),忽视缺失数据的中位数 (nanmedian),忽视缺失数据的最小值(nanmin),忽视缺失数据的标准差(nanstd),忽视缺失数据的和(namsum).

〉〉 相关系数:corrcoef ,计算相关系数

〉〉样本分位数:prctile,计算样本的经验分位数

〉〉样本峰度:kurtosis,计 算样本峰度

〉〉样本偏度:skewness,计算样本偏度

〉〉自助法:bootstrp,对样本从新采样进行自助统计

中心趋势 (位置)度量

样本中心趋势度量的目的在于对数据样本在分布线上分布的中心位置予以定为.均值是对中心位置简单和通常的估计量.不幸的是,几乎所有的实际数据都存在野值 (输入错误或其它小的技术问题造成的).样本均值对这样的值非常敏感.中位数和修正(剔除样本高值和低值)后的均值则受野值干扰很小.而几何均值和调和均值对野值也较敏感.下面逐个说明这些度量函数.

〉〉geomean

功能:样本的几何均值

格式:m=geomean(X)

若 X为向量,则返回X中元素的几何均值;若X位矩阵,给出的结果为一个行向量,即每列几何均值.

例 1 计算随机数产生的样本的几何均值

>> X=random(\'F\',10,10,100,1);

>> m=geomean(X)

m =

1.1007

>> X=random(\'F\',10,10,100,5);

>> m=geomean(X)

m =

0.9661 1.0266 0.9703 1.0268 1.0333

〉〉harmmean

功能:样本的调和均值

格 式:m=harmmean(X)

例 2 计算随机数的调和均值

>> X=random(\'Normal\',0,1,50,5);

>> m=harmmean(X)

m =

-0.2963 -0.0389 -0.9343 5.2032 0.7122

〉〉mean

功能:样本数据的算术平均值

格 式:m=mean(x)

例 3 计算正态随机数的算术平均数

>>X=random(\'Normal\',0,1,300,5);

>> xbar=mean(X)

xbar =

0.0422 -0.0011 -0.0282 0.0616 -0.0080

〉〉 median

功能:样本数据的中值(中位数),是对中心位值的鲁棒估计.

格式:m=median(X)

例 4 计算本的中值

>> X=random(\'Normal\',0,1,5,3)

X =

0.0000 0.8956 0.5689

-0.3179 0.7310 -0.2556

1.0950 0.5779 -0.3775

-1.8740 0.0403 -0.2959

0.4282 0.6771 -1.4751

>> m=median(X)

m =

0.0000 0.6771 -0.2959

〉〉 trimmean

功能:剔除极端数据的样本均值.

格式:m=trimmean(X,percent)

说明:计算剔除观测值中最高 percent%和最低percent%的数据后的均值

例5 计算修改后的样本均值

>> X=random(\'F\',9,10,100,4);

>> m=trimmean(X,10)

m =

1.1470 1.1320 1.1614 1.0469

散布度量

散布度量是描述样本中数据离其中心的程度,也称离差.常用的有极差,标准差,平均绝对 差,四分位数间距

〉〉iqr

功能:计算样本的内四分位数的间距,是样本的鲁棒估计

格式:y=iqr(X)

说明:计算样本 的75%和25%的分位数之差,不受野值影响.

例6 计算样本的四分位间距

>> X=random(\'Normal\',0,1,100,4);

>> m=iqr(X)

m =

1.3225 1.2730 1.3018 1.2322

〉〉mad

功能:样本数据的平均绝对偏差

格式:y=mad(X)

说明:正态分 布的标准差sigma可以用mad乘以1.3估计

例7 计算样本数据的绝对偏差

>> X=random(\'F\',10,10,100,4);

>> y=mad(X)

y =

0.5717 0.5366 0.6642 0.7936

>> y1=var(X)

y1 =

0.6788 0.6875 0.7599 1.3240

>> y2=y*1.3

y2 =

0.8824 0.8938 0.9879 1.7212

〉〉 range

功能:计算样本极差

格式:y=range(X)

说明:极差对野值敏感

例 8 计算样本值的极差

>> X=random(\'F\',10,10,100,4);

>> y=range(X)

y =

10.8487 3.5941 4.2697 4.0814

〉〉var

功能:计算样本方差

格式:y=var(X) y=var(X,1) y=var(X,w)

Var(X)经过n-1进行了标准化,Var(X,1)经过n进行了标准变化

例 9 计算各类方差

>> X=random(\'Normal\',0,1,100,4);

>> y=var(X)

y =

0.9645 0.8209 0.9595 0.9295

>> y1=var(X,1)

y1 =

0.9548 0.8126 0.9499 0.9202

>> w=[1:1:100];

>> y2=var(X,w)

y2 =

0.9095 0.7529 0.9660 0.9142

〉〉std

功能:样本的标准差

格式:y=std(X)

说明:经过n-1标准 化后的标准差

例 10计算随机样本的标准差

>> X=random(\'Normal\',0,1,100,4);

>> y=std(X)

y =

0.8685 0.9447 0.9569 0.9977

〉〉cov

功能:协方差矩阵

格 式:C=cov(X) C=cov(x,y) C=cov([x y])

说明:若X为向量,cov(X)返回一个方差标量;若X为矩阵,则返回协 方差矩阵;cov(x,y)与cov([x y])相同,x与y的长度相同.

例 11 计算协方差

>> x=random(\'Normal\',2,4,100,1);

>> y=random(\'Normal\',0,1,100,1);

>> C=cov(x,y)

C =

12.0688 -0.0583

-0.0583 0.8924

处理缺失数据的函数

在 对大量数据样本时,常常遇到一些无法确定的或者无法找到确切的值.在这种情况下,用符号"NaN"(not a number )标注这样的数据.这种情况下,一般的函数得不到任何信息.

例如 m中包含nan数据

>> m=magic(3);

>> m([1 5 9])=[NaN NaN NaN];

>> sum(m)

ans =

NaN NaN NaN

但 是通过缺失数据的处理,得到有用的信息.

>> nansum(m)

ans =

7 10 13

〉〉 nanmax

功能:忽视NaN,求其它数据的最大值

格式:m=nanmax(X)

[m,ndx]=nanmax(X)

m=nanmax(a,b)

说 明:nanmax(X)返回X中数据除nan外的其它的数据的最大值,[m,ndx]=nanmax(X)还返回X最大值的序号给 ndx.m=nanmax(a,b)返回a或者b的最大值,a,b长度同

>> m=magic(3);

>> m([1 5 9])=[NaN NaN NaN];

>> [m,ndx]=nanmax(m)

m =

4 9 7

ndx =

3 3 2

处理缺失数据的常用函数

Y=nansum(X)

求包含确实数据的和

nansum

Y=nanstd(X)

求 包含确实数据的标准差

Nanstd

Y=nanmedian(X)

求包含确实数据中位数

Nanmedian

Y=nanmean(X)

求 包含确实数据的平均值

Nanmean

同上

求包含确实数据的最小值

Nanmin

(略)

求包含确实数据的最 大值

Nanmax

调用格式

功能

函数名称

中心矩 moment

功能:任意阶的中心矩

格 式:m=moment(X,order)

说明:order为阶,函数本身除以X的长度

例 12 计算样本函数的中心矩

>> X=random(\'Poisson\',2,100,4);

>> m=moment(X,1)

m =

0 0 0 0

>> m=moment(X,2)

m =

1.7604 2.0300 1.6336 2.3411

>> m=moment(X,3)

m =

1.3779 2.5500 2.3526 2.2964

百分位数及其图形描述

白分位 数图形可以直观观测到样本的大概中心位置和离散程度,可以对中心趋势度量和散布度量作补充说明

〉〉prctile

功能:计算样本的百分位 数

格式:y=prctile(X,p)

说明:计算X中数据大于P%的值,P的取值区间为[0,100],如果X为向量,返回X中P百分位数;X为矩阵,给出一个向量;如果P为向量,则y的第i个行对应于X的p(i) 百分位数.例如

>> x=(1:5)\'*(1:5)

x =

1 2 3 4 5

2 4 6 8 10

3 6 9 12 15

4 8 12 16 20

5 10 15 20 25

>> y=prctile(x,[25,50,75])

y =

1.7500 3.5000 5.2500 7.0000 8.7500

3.0000 6.0000 9.0000 12.0000 15.0000

4.2500 8.5000 12.7500 17.0000 21.2500

做出相应的百分位数的图形

>> boxplot(x)

5列分位数构 造5个盒图,见下页.

相关系数 corrcoef

功能:相关系数

格式:R=corrcoef(X)

例13 合金的强度y与含碳量x的样本如下,试计算r(x,y).

>> X=[41 42.5 45 45.5 45 47.5 49 51 50 55 57.5 59.5;

0.1,0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.20 0.22 0.24]\';

>> R=corrcoef(X)

R =

1.0000 0.9897

0.9897 1.0000

样本峰度 kurtosis

功能:样本峰度

格式:k=kurtosis(X)

说明:峰度为单峰分布区线" 峰的平坦程度"的度量,其定义为

Matlab 工具箱中峰度不采用一般定义(k-3,标准正态分布的峰度为0).而是定义标准正态分布峰度为3,曲线比正态分布平坦,峰度大于3,反之,小于3.

例14 计算随机样本的峰度

>> X=random(\'F\',10,20,100,4);

>> k=kurtosis(X)

k =

6.5661 5.5851

6.0349 7.0129

样本偏度 skewness

功 能:样本偏度

格式:y=skewness(X)

说明:偏度是度量样本围绕其均值的对称情况.如果偏度为负,则数据分布偏向左边,反之,偏 向右边.其定义为

>> X=random(\'F\',9,10,100,4);

>> y=skewness(X)

y =

1.0934 1.5513 2.0522 2.9240

自助法 bootstrap

引例:一组来自15个法律学校的学生的 lsat分数 和gpa进行比较的样本.

> load lawdata

>> x=[lsat gpa]

x =

576.0000 3.3900

635.0000 3.3000

558.0000 2.8100

578.0000 3.0300

666.0000 3.4400

580.0000 3.0700

555.0000 3.0000

661.0000 3.4300

651.0000 3.3600

605.0000 3.1300

653.0000 3.1200

575.0000 2.7400

545.0000 2.7600

572.0000 2.8800

594.0000 2.9600

绘图,并进行曲线拟合

>> plot(lsat,gpa,\'+\')

>> lsline

通过上图的拟合可以看出,lsat随着gpa增长而提高,但是我们 确信此结论的程度是多少曲线只给出了直观表现,没有量的表示.计算相关系数

>> y=corrcoef(lsat,gpa)

y =

1.0000 0.7764

0.7764 1.0000

相关系数是0.7764,但是由于样本容量n=15比较小,我们仍然不能确定在统计上相关的显著性多大.应此,必须采用bootstrp函数对lsat和gpa样本来从新采样,并考察相关系数的变化.

>> y1000=bootstrp(1000,\'corrcoef\',lsat,gpa);

>> hist(y1000(:,2),30)

绘制lsat,gpa和相关系数得直方图如下

结果显示,相关系数绝大多数在区间[0.4,1] 内,表明lsat分数和gpa具有确定的相关性,这样的分析,不需要对象关系数的概率分布做出很强的假设.

[size=2] [color=blue]第4节 假设检验[/color][/size]

基本概念

H0:零假设,即初始判断.

H1:备择假设, 也称对立假设.

Alpha :显著水平,在小样本的前提下,不能肯定自己的结论,所以事先约定,如果观测到的符合零假设的样本值的概率小于alpha,则拒绝零假设.典型的显著水平取alpha=0.05.如果想减少犯错误的可能,可取更小的值.

P-值:在零假设为真的条件下,观测给定样本结果的概率值.如果Pmu tail=-1——x>x =[119 117 115 116 112 121 115 122 116 118 109 112 119 112 117 113 114 109 109 118];

>> h=ztest(x,115,4)

h =

0

表 明,接受H0,认为该种汽油的平均价格为115美分.

>> [h,sig,ci]=ztest(x,115,4,0.01,0)

h = 0

sig =

0.8668

ci =

112.8461 117.4539

>> [h,sig,ci]=ztest(x,115,4,0.01,1)

h =0

sig =

0.4334

ci =

113.0693 Inf

>> [h,sig,ci]=ztest(x,115,4,0.01,-1)

h=0

sig =

0.5666

ci =

-Inf 117.2307

Ttest

功能:单一样本均值的t检验

格式:h=ttest(x,m)

h=ttest(x,m,alpha)

[h,sig,ci]=ttest(x,m,alpha,tail)

说 明:用于正态总体标准差未知时对均值的t检验.Tail功能与ztest作用一致.

>> x=random(\'Normal\',0,1,100,1);

>> [h,sig,ci]=ttest(x,0,0.01,-1)

h =

0

sig =

0.0648

ci =

-Inf 0.0808

>> [h,sig,ci]=ttest(x,0,0.001,1)

h =

0

sig =

0.9352

ci =

-0.4542 Inf

Signtest

功能:成对样本的符号检验

格式:p=signtest(x,y,alpha)

[p,h]=signtest(x,y,alpha)

说明:p给出两个配对样本x和y的中位数(对于正态分布,中位数,就是平均值.相等的显著性概率.X与y的长度相等.Y也可以为标量,计算x的中位数与常数y之间差异的概率.[p,h]返回结果h.如果这样两个样本的中位数之间差几乎为0,则h=0,否则有显著差异,则h=1.

>> x=[0 1 0 1 1 1 1 0 1 0];

>> y=[1 1 0 0 0 0 1 1 0 0];

>> [p,h]=signtest(x,y,0.05)

p =

0.6875

h =

0

Signrank

功 能:威尔科克符号秩检验

格式:p=signrank(x,y,alpha)

[p,h]=signrank(x,y,alpha)

说明:p给出两个配对样本x和y的中位数(对于正态分布,中位数和均值等)相等的假设的显著性的概率.X与y的长度相同.[p,h]返回假设检验的结果,如果两个样本的中位数之差极护卫零,则h=0;否则,有显著差异,则h=1.

>> x=random(\'Normal\',0,1,200,1);

>> y=random(\'Normal\',0.1,2,200,1);

>> [p,h]=signrank(x,y,0.05)

p =

0.9757

h =

0

Ranksum

功能:两个总体一致性的威尔科克秩和的检验

格 式:p=ranksum(x,y,alpha)

[p,h]=ranksum(x,y,alpha)

说明:p返回两个总体样本x和y一致的显著性概率.X和y的长度可以不同.但长度长的排在前面.[p,h]返回检验结果,如果总体x和y并非明显不一致,返回h=0,否则,h=1.

>> x=random(\'Normal\',0,2,20,1);

>> y=random(\'Normal\',0.1,4,10,1);

>> [p,h]=ranksum(x,y,0.05)

p =

0.7918

h =

0

[size=2] [color=blue]第5节 统计绘图[/color][/size]

统计绘图就是用图形表达函数,以便直观地,充分的表现样本及其统计量的 内在本质性.

Box图

功能:数据样本的box图

格式:boxplot(X) boxplot(X,notch) boxplot(X,notch,\'sym\')

boxplot(X,notch,\'sym,vert) boxplot(X,notch,\'sym\',vert,whis)

说明1:"盒子"的上底和下底间为四分位间距,"盒子"的上下两条线分别表示样本的25%和75%分位数."盒子"中间线为样本中位数.如果盒子中间线不在盒子中间,表示样本存在一定的篇度.

虚线贯穿"盒子"上下,表示样 本的其余部分(除非有野值).样本最大值为虚线顶端,样本最小值为虚线底端.用"+"表示野值.

"切口"是样本的置信区间,却省时,没有切口

说明2:notch=0,盒子没有切口,notch=1,盒子有切口;\'sym\'为野值标记符号,缺省时,"+"表示.Vert=0时候,box图水平放置,vert=1时,box图垂直放置.Whis定义虚线长度为内四分位间距(IQR)的函数(缺省时为1.5*IQR),若whis=0,box图用 \'sym\'规定的记号显示盒子外所有数据.

>> x1=random(\'Normal\',2,1,100,1);

>> x2=random(\'Normal\',1,2,100,1);

>> x=[x1 x2];

>> boxplot(x,1,\'*\',1,0)

绘图结果见下页

Errorbar 误差条图

功能:误差条图

格 式:errorbar(X,Y,L,U,symbol)

errorbar(X,Y,L)

errorbar(Y,L)

说明:误差条 是距离点(X,Y)上面的长度为U(i) ,下面的长度为L(i) 的直线.X,Y,L,U的长度必须相同.Symbol为一字符 串,可以规定线条类型,颜色等.

>> U=ones(20,1);

>> L=ones(20,1);

>> errorbar(r1,r2,L,U,\'+\')

>> r1=random(\'Poisson\',2,10,1);

>>r2=random(\'Poisson\',10,10,1);

>> U=ones(10,1);

>> L=U;

>> errorbar(r1,r2,L,U,\'+\')

Lsline 绘制最小二乘拟合线

功能:绘制数据的最小二乘拟合曲线

格式:lsline

h=lsline

说明:lsline为当前坐 标系中的每一个线性数据给出其最小二乘拟合线.

>> y=[2 3.4 5.6 8 11 12.3 13.8 16 18.8 19.9]\';

>> plot(y,\'+\')

>> lsline

Refcurve 参考多项式

功 能:在当前图形中给出多项式拟合曲线

格式:h=refcurve(p)

说明:在当前图形中给出多项式p(系数向量)的曲线,n阶多项式为

y=p1*x^n+p2*x^(n-1)+…+pn*x+p0

则p=[p1 p2 … pn p0]

>> h=[85 162 230 289 339 381 413 437 452 458 456 440 400 356];

>> plot(h,\'+\')

>> refcurve([-4.9,100,0])

日志|照片|朋友|更多▼地图足迹食迹

回上善若水的空间首页

matlab中统计工具箱函数大全(转帖)

  • 写于2011-01-19 10:18:47

http://hi.baidu.com/�ҵİٶȿ���/blog/item/09e5fd1f7e1d490d304e1503.html

matlab中统计工具箱函数大全

MATLAB统计工具箱包括概率分布、方差分析、假设检验、分布检验、非参数检验、回归分析、判别分析、主成分分析、因子分析、系统聚类分析、K均值聚类分析、试验设计、决策树、多元方差分析、统计过程控制和统计图形绘制等。优化工具箱包括无约束最优化、有约束最优化、二次规划、多目标规划、最大最小化、半元限问题、方程求解以及大型优化问题的求解等。

表Ⅰ-1 概率密度函数

betapdf贝塔分布的概率密度函数

binopdf二项分布的概率密度函数

chi2pdf卡方分布的概率密度函数

exppdf指数分布的概率密度函数

fpdf f分布的概率密度函数

gampdf伽玛分布的概率密度函数

geopdf几何分布的概率密度函数

hygepdf超几何分布的概率密度函数

normpdf正态(高斯)分布的概率密度函数

lognpdf对数正态分布的概率密度函数

nbinpdf负二项分布的概率密度函数

ncfpdf非中心f分布的概率密度函数

nctpdf非中心t分布的概率密度函数

ncx2pdf非中心卡方分布的概率密度函数

poisspdf泊松分布的概率密度函数

raylpdf雷利分布的概率密度函数

tpdf学生氏t分布的概率密度函数

unidpdf离散均匀分布的概率密度函数

unifpdf连续均匀分布的概率密度函数

weibpdf威布尔分布的概率密度函数

表Ⅰ-2 累加分布函数

函数名

对应分布的累加函数

betacdf贝塔分布的累加函数

binocdf二项分布的累加函数

chi2cdf卡方分布的累加函数

expcdf指数分布的累加函数

fcdf f分布的累加函数

gamcdf伽玛分布的累加函数

geocdf几何分布的累加函数

hygecdf超几何分布的累加函数

logncdf对数正态分布的累加函数

nbincdf负二项分布的累加函数

ncfcdf非中心f分布的累加函数

nctcdf非中心t分布的累加函数

ncx2cdf非中心卡方分布的累加函数

normcdf正态(高斯)分布的累加函数

poisscdf泊松分布的累加函数

raylcdf雷利分布的累加函数

tcdf学生氏t分布的累加函数

unidcdf离散均匀分布的累加函数

unifcdf连续均匀分布的累加函数

weibcdf威布尔分布的累加函数

表Ⅰ-11 线性模型函数

anova1单因子方差分析

anova2双因子方差分析

anovan多因子方差分析

aoctool协方差分析交互工具

dummyvar拟变量编码

friedman Friedman检验

glmfit一般线性模型拟合

kruskalwallis Kruskalwallis检验

leverage中心化杠杆值

lscov已知协方差矩阵的最小二乘估计

manova1单因素多元方差分析

manovacluster多元聚类并用冰柱图表示

multcompare多元比较

多项式评价及误差区间估计

polyfit最小二乘多项式拟合

polyval多项式函数的预测值

polyconf残差个案次序图

regress多元线性回归

regstats回归统计量诊断

Ridge岭回归

rstool多维响应面可视化

robustfit稳健回归模型拟合

stepwise逐步回归

x2fx用于设计矩阵的因子设置矩阵

表Ⅰ-12 非线性回归函数

nlinfit非线性最小二乘数据拟合(牛顿法)

nlintool非线性模型拟合的交互式图形工具

nlparci参数的置信区间

nlpredci预测值的置信区间

nnls非负最小二乘

表Ⅰ-13 试验设计函数

cordexch D-优化设计(列交换算法)

daugment递增D-优化设计

dcovary固定协方差的D-优化设计

ff2n二水平完全析因设计

fracfact二水平部分析因设计

fullfact混合水平的完全析因设计

hadamard Hadamard矩阵(正交数组)

rowexch D-优化设计(行交换算法)

表Ⅰ-14 主成分分析函数

barttest Barttest检验

pcacov源于协方差矩阵的主成分

pcares源于主成分的方差

princomp根据原始数据进行主成分分析

表Ⅰ-15 多元统计函数

classify聚类分析

mahal马氏距离

manova1单因素多元方差分析

manovacluster多元聚类分析

表Ⅰ-16 假设检验函数

ranksum秩和检验

signrank符号秩检验

signtest符号检验

ttest单样本t检验

ttest2双样本t检验

ztest z检验

表Ⅰ-17 分布检验函数

jbtest正态性的Jarque-Bera检验

kstest单样本Kolmogorov-Smirnov检验

kstest2双样本Kolmogorov-Smirnov检验

lillietest正态性的Lilliefors检验

表Ⅰ-18 非参数函数

friedman Friedman检验

kruskalwallis Kruskalwallis检验

ranksum秩和检验

signrank符号秩检验

signtest符号检验

表Ⅰ-19 文件输入输出函数

caseread读取个案名

casewrite写个案名到文件

tblread以表格形式读数据

tblwrite以表格形式写数据到文件

tdfread从表格间隔形式的文件中读取文本或数值数据

表Ⅰ-20 演示函数

aoctool协方差分析的交互式图形工具

disttool探察概率分布函数的GUI工具

glmdemo一般线性模型演示

randtool随机数生成工具

polytool多项式拟合工具

rsmdemo响应拟合工具

robustdemo稳健回归拟合工具

统计工具箱是matlab提供给人们的一个强有力的统计分析工具.包含200多个m文件(函数),主要支持以下各方面的内容.

〉〉概率分布:提供了20种概率分布,包含离散和连续分布,且每种分布,提供了5个有用的函数,即概率密度函数,累积分布函数,逆累积分布函数,随机产生器与方差计算函数.

〉〉 参数估计:依据特殊分布的原始数据,可以计算分布参数的估计值及其置信区间.

〉〉描述性统计:提供描述数据样本特征的函数,包括位置和散布的度 量,分位数估计值和数据处理缺失情况的函数等.

〉〉线性模型:针对线性模型,工具箱提供的函数涉及单因素方差分析,双因素方差分析,多重线性回 归,逐步回归,响应曲面和岭回归等.

〉〉非线性模型:为非线性模型提供的函数涉及参数估计,多维非线性拟合的交互预测和可视化以及参数和预计值的 置信区间计算等.

〉〉 假设检验: 此间提供最通用的假设检验函数:t检验和z检验

〉〉其它的功能就不再介绍.

统计工具箱函数主 要分为两类:

〉数值计算函数(M文件)

〉交互式图形函数(Gui)

matlab惯例:beta 线性模型中的参数,E(x) x的数学期望, f(x|a,b) 概率密度函数, F(x|a,b) 累积分布函数 ,I([a,b]) 指示(Indicator)函数

p,q p事件发生的概率.

[size=2][color=blue]第1节 概率分布[/color][/size]

统计工具箱提供的常见分 布

Uniform均匀,Weibull威布尔,Noncentral t,Rayleigh瑞利,Poisson泊松,Student\'s t,Normal正态,Negative Binomial,Noncentral F

Lognormal对数,正态,Hyper G,F分布,Gamma,Geometric几何,Noncentral chi-square,Exponential指数,Binomial二项,Chi-square

Beta(分 布),discrete,Continuous,Continuous,离散分布,统计量连续分布,数据连续分布,概率密度函数 pdf,probbability density function

〉〉功能:可选的通用概率密度函数

〉〉格 式:Y=pdf(\'Name\',X,A1,A1,A3)

\'Name\' 为特定的分布名称,第一个字母必须大写

X 为分布函数自变量取值矩阵

A1,A2,A3 分别为相应分布的参数值

Y 存放结果,为概率密度值矩阵

算例:

>> y=pdf(\'Normal\',-2:2,0,1)

y =

0.0540 0.2420 0.3989 0.2420 0.0540

>> Y=pdf(\'Normal\',-2:0.5:2,1,4)

Y =

0.0753 0.0820 0.0880 0.0930 0.0967 0.0990 0.0997 0.0990 0.0967

>> p=pdf(\'Poisson\',0:2:8,2)

p =

0.1353 0.2707 0.0902 0.0120 0.0009

>> p=pdf(\'F\',1:2:10,4,7)

p =

0.4281 0.0636 0.0153 0.0052 0.0021

我们 也可以利用这种计算功能和作图功能,绘制一下密度函数曲线,例如,绘制不同的正态分布的密度曲线

>> x=[-6:0.05:6];

>> y1=pdf(\'Normal\',x,0,0.5);

>> y2=pdf(\'Normal\',x,0,1);

>> y3=pdf(\'Normal\',x,0,2);

>> y4=pdf(\'Normal\',x,0,4);

>>plot(x,y1,\'K-\',x,y2,\'K--\',x,y3,\'*\',x,y4,\'+\')

这 个程序计算了mu=0,而sigma取不同值时的正态分布密度函数曲线的形态,可以看出,sigma越大,曲线越平坦.

累积分布函数及逆累积分布 函数 cdf icdf

〉〉功能:计算可选分布函数的累积分布和逆累积分布函数

〉〉格 式:P=cdf(\'Name\',X,A1,A2,A3)

X=icdf(\'Name\',P,A1,A2,A3)

>> x=[-3:0.5:3];

>> p=cdf(\'Normal\',x,0,1)

p =

0.0013 0.0062 0.0228 0.0668 0.1587 0.3085 0.5000 0.6915 0.8413 0.9332 0.9772 0.9938 0.9987

>> x=icdf(\'Normal\',p,0,1)

x =

-3.0000 -2.5000 -2.0000 -1.5000 -1.0000 -0.5000 0 0.5000 1.0000 1.5000 2.0000 2.5000 3.0000

随机数产生器 random

〉〉功能:产生可选分布的随机数

〉〉格 式:y=random(\'Name\',A1,A2,A3,m,n)

A1,A2,A3 分布的参数

\'Name\' 分布的名称

m,n 确定y的数量,如果参数是标量,则y是m*n矩阵

例如 产生服从参数为(9,10)的F-分布的4个随机数值

>> y=random(\'F\',9,10,2,2)

y =

3.4907 1.6762

0.5702 1.1534

均值和方差 以\'stat\'结尾的函数

均值和方差的计算函数

[m,v]=normstat(mu,sigma)

正态分布

[mn,v]=hygestat(M,K,N)

超 几何分布

[m,v]=geostat(P)

几何分布

[m,v]=gamstat(A,B)

Gamma分布

[m,v]=fstat(v1,v2)

F 分布

[m,v]=expstat(mu)

指数分布

[m,v]=chi2stat(nu)

Chi-squrare分布

[m,v]=binostat(N,P)

二 项分布

[m,v]=betastat(A,B)

Beta 分布

函数名称及调用格式

分布类型名称

[m,v]=weibstat(A,B)

威 尔分布

[m,v]=unistat(A,B)

连续均匀分布

[m,v]=unidstat(N)

离散均匀分布

[m,v]=tstat(nu)

t 分布

[m,v]=raylstat(B)

瑞利分布

[m,v]=poisstat(lambda)

泊松分布

[m,v]=ncx2stat(nu,delta)

非 中心chi2分布

[m,v]=nctstat(nu,delta)

非中心t分布

[m,v]=ncfstat(nu1,nu2,delta)

非 中心F分布

[m,v]=nbinstat(R,P)

负二项分布

[m,v]=lognstat(mu,sigma)

对数正 态分布

[size=2][color=blue]第2节 参数估计[/color][/size]

参数估计是总体的分布形式已经知道,且 可以用有限个参数表示的估计问题.分为点估计(极大似燃估计Maximum likehood estimation, MLE)和区间估计.求取各种分布的最大似然估计估计量 mle

〉〉格式:phat=mle(\'dist\',da

ta)

[phat,pci]=mle(\'dist\',data)

[phat,pci]=mle(\'dist\',data,alpha)

[phat,pci]=mle(\'dist\',data,alpha,p1)

〉〉 \'dist\' 给定的特定分布的名称,\'beta\',\'binomial\'等.Data为数据样本,矢量形式给出.Alpha用户给定的置信度值,以给出100(1-alpha)%的置信区间,缺省为0.05.最后一种是仅供二项分布参数估计,p1为实验次数.

例1 计算beta 分布的两个参数的似然估计和区间估计(alpha=0.1,0.05,0.001),样本由随机数产生.

>> random(\'beta\',4,3,100,1);

>> [p,pci]=mle(\'beta\',r,0.1)

p =

4.6613 3.5719

pci =

3.6721 2.7811

5.6504 4.3626

>> [p,pci]=mle(\'beta\',r,0.05)

p =

4.6613 3.5719

pci =

3.4827 2.6296

5.8399 4.5141

>> [p,pci]=mle(\'beta\',r,0.001)

p =

4.6613 3.5719

pci =

2.6825 1.9900

6.6401 5.1538

例 2 计算二项分布的参数估计与区间估计,alpha=0.01.

>> r=random(\'Binomial\',10,0.2,10,1);

>> [p,pci]=mle(\'binomial\',r,0.01,10)

p =

0.2000 0.2000 0.1000 0.4000 0.2000 0.2000 0.4000 0 0.1000 0.2000

pci =

0.0109 0.0109 0.0005 0.0768 0.0109 0.0109 0.0768 NaN 0.0005 0.0109

0.6482 0.6482 0.5443 0.8091 0.6482 0.6482 0.8091 0.4113 0.5443 0.6482

[size=2][color=blue] 第3节 描述统计[/color][/size]

描述性统计包括:位置度量,散布度量,缺失数据下的统计处理,相关系数,样本分位数,样本峰度, 样本偏度,自助法等

〉〉位置度量:几何均值(geomean),调和均值(harmmean),算术平均值(mean),中位数 (median),修正的样本均值(trimean).

〉〉散布度量:方差(var),内四分位数间距(iqr),平均绝对偏差(mad),样本极差(range),标准差(std),任意阶中心矩(moment),协方差矩阵(cov).

〉〉缺失数据情况下的处理:忽视缺失数据的最大值 (nanmax),忽视缺失数据的平均值(nanmean),忽视缺失数据的中位数 (nanmedian),忽视缺失数据的最小值(nanmin),忽视缺失数据的标准差(nanstd),忽视缺失数据的和(namsum).

〉〉 相关系数:corrcoef ,计算相关系数

〉〉样本分位数:prctile,计算样本的经验分位数

〉〉样本峰度:kurtosis,计 算样本峰度

〉〉样本偏度:skewness,计算样本偏度

〉〉自助法:bootstrp,对样本从新采样进行自助统计

中心趋势 (位置)度量

样本中心趋势度量的目的在于对数据样本在分布线上分布的中心位置予以定为.均值是对中心位置简单和通常的估计量.不幸的是,几乎所有的实际数据都存在野值 (输入错误或其它小的技术问题造成的).样本均值对这样的值非常敏感.中位数和修正(剔除样本高值和低值)后的均值则受野值干扰很小.而几何均值和调和均值对野值也较敏感.下面逐个说明这些度量函数.

〉〉geomean

功能:样本的几何均值

格式:m=geomean(X)

若 X为向量,则返回X中元素的几何均值;若X位矩阵,给出的结果为一个行向量,即每列几何均值.

例 1 计算随机数产生的样本的几何均值

>> X=random(\'F\',10,10,100,1);

>> m=geomean(X)

m =

1.1007

>> X=random(\'F\',10,10,100,5);

>> m=geomean(X)

m =

0.9661 1.0266 0.9703 1.0268 1.0333

〉〉harmmean

功能:样本的调和均值

格 式:m=harmmean(X)

例 2 计算随机数的调和均值

>> X=random(\'Normal\',0,1,50,5);

>> m=harmmean(X)

m =

-0.2963 -0.0389 -0.9343 5.2032 0.7122

〉〉mean

功能:样本数据的算术平均值

格 式:m=mean(x)

例 3 计算正态随机数的算术平均数

>>X=random(\'Normal\',0,1,300,5);

>> xbar=mean(X)

xbar =

0.0422 -0.0011 -0.0282 0.0616 -0.0080

〉〉 median

功能:样本数据的中值(中位数),是对中心位值的鲁棒估计.

格式:m=median(X)

例 4 计算本的中值

>> X=random(\'Normal\',0,1,5,3)

X =

0.0000 0.8956 0.5689

-0.3179 0.7310 -0.2556

1.0950 0.5779 -0.3775

-1.8740 0.0403 -0.2959

0.4282 0.6771 -1.4751

>> m=median(X)

m =

0.0000 0.6771 -0.2959

〉〉 trimmean

功能:剔除极端数据的样本均值.

格式:m=trimmean(X,percent)

说明:计算剔除观测值中最高 percent%和最低percent%的数据后的均值

例5 计算修改后的样本均值

>> X=random(\'F\',9,10,100,4);

>> m=trimmean(X,10)

m =

1.1470 1.1320 1.1614 1.0469

散布度量

散布度量是描述样本中数据离其中心的程度,也称离差.常用的有极差,标准差,平均绝对 差,四分位数间距

〉〉iqr

功能:计算样本的内四分位数的间距,是样本的鲁棒估计

格式:y=iqr(X)

说明:计算样本 的75%和25%的分位数之差,不受野值影响.

例6 计算样本的四分位间距

>> X=random(\'Normal\',0,1,100,4);

>> m=iqr(X)

m =

1.3225 1.2730 1.3018 1.2322

〉〉mad

功能:样本数据的平均绝对偏差

格式:y=mad(X)

说明:正态分 布的标准差sigma可以用mad乘以1.3估计

例7 计算样本数据的绝对偏差

>> X=random(\'F\',10,10,100,4);

>> y=mad(X)

y =

0.5717 0.5366 0.6642 0.7936

>> y1=var(X)

y1 =

0.6788 0.6875 0.7599 1.3240

>> y2=y*1.3

y2 =

0.8824 0.8938 0.9879 1.7212

〉〉 range

功能:计算样本极差

格式:y=range(X)

说明:极差对野值敏感

例 8 计算样本值的极差

>> X=random(\'F\',10,10,100,4);

>> y=range(X)

y =

10.8487 3.5941 4.2697 4.0814

〉〉var

功能:计算样本方差

格式:y=var(X) y=var(X,1) y=var(X,w)

Var(X)经过n-1进行了标准化,Var(X,1)经过n进行了标准变化

例 9 计算各类方差

>> X=random(\'Normal\',0,1,100,4);

>> y=var(X)

y =

0.9645 0.8209 0.9595 0.9295

>> y1=var(X,1)

y1 =

0.9548 0.8126 0.9499 0.9202

>> w=[1:1:100];

>> y2=var(X,w)

y2 =

0.9095 0.7529 0.9660 0.9142

〉〉std

功能:样本的标准差

格式:y=std(X)

说明:经过n-1标准 化后的标准差

例 10计算随机样本的标准差

>> X=random(\'Normal\',0,1,100,4);

>> y=std(X)

y =

0.8685 0.9447 0.9569 0.9977

〉〉cov

功能:协方差矩阵

格 式:C=cov(X) C=cov(x,y) C=cov([x y])

说明:若X为向量,cov(X)返回一个方差标量;若X为矩阵,则返回协 方差矩阵;cov(x,y)与cov([x y])相同,x与y的长度相同.

例 11 计算协方差

>> x=random(\'Normal\',2,4,100,1);

>> y=random(\'Normal\',0,1,100,1);

>> C=cov(x,y)

C =

12.0688 -0.0583

-0.0583 0.8924

处理缺失数据的函数

在 对大量数据样本时,常常遇到一些无法确定的或者无法找到确切的值.在这种情况下,用符号"NaN"(not a number )标注这样的数据.这种情况下,一般的函数得不到任何信息.

例如 m中包含nan数据

>> m=magic(3);

>> m([1 5 9])=[NaN NaN NaN];

>> sum(m)

ans =

NaN NaN NaN

但 是通过缺失数据的处理,得到有用的信息.

>> nansum(m)

ans =

7 10 13

〉〉 nanmax

功能:忽视NaN,求其它数据的最大值

格式:m=nanmax(X)

[m,ndx]=nanmax(X)

m=nanmax(a,b)

说 明:nanmax(X)返回X中数据除nan外的其它的数据的最大值,[m,ndx]=nanmax(X)还返回X最大值的序号给 ndx.m=nanmax(a,b)返回a或者b的最大值,a,b长度同

>> m=magic(3);

>> m([1 5 9])=[NaN NaN NaN];

>> [m,ndx]=nanmax(m)

m =

4 9 7

ndx =

3 3 2

处理缺失数据的常用函数

Y=nansum(X)

求包含确实数据的和

nansum

Y=nanstd(X)

求 包含确实数据的标准差

Nanstd

Y=nanmedian(X)

求包含确实数据中位数

Nanmedian

Y=nanmean(X)

求 包含确实数据的平均值

Nanmean

同上

求包含确实数据的最小值

Nanmin

(略)

求包含确实数据的最 大值

Nanmax

调用格式

功能

函数名称

中心矩 moment

功能:任意阶的中心矩

格 式:m=moment(X,order)

说明:order为阶,函数本身除以X的长度

例 12 计算样本函数的中心矩

>> X=random(\'Poisson\',2,100,4);

>> m=moment(X,1)

m =

0 0 0 0

>> m=moment(X,2)

m =

1.7604 2.0300 1.6336 2.3411

>> m=moment(X,3)

m =

1.3779 2.5500 2.3526 2.2964

百分位数及其图形描述

白分位 数图形可以直观观测到样本的大概中心位置和离散程度,可以对中心趋势度量和散布度量作补充说明

〉〉prctile

功能:计算样本的百分位 数

格式:y=prctile(X,p)

说明:计算X中数据大于P%的值,P的取值区间为[0,100],如果X为向量,返回X中P百分位数;X为矩阵,给出一个向量;如果P为向量,则y的第i个行对应于X的p(i) 百分位数.例如

>> x=(1:5)\'*(1:5)

x =

1 2 3 4 5

2 4 6 8 10

3 6 9 12 15

4 8 12 16 20

5 10 15 20 25

>> y=prctile(x,[25,50,75])

y =

1.7500 3.5000 5.2500 7.0000 8.7500

3.0000 6.0000 9.0000 12.0000 15.0000

4.2500 8.5000 12.7500 17.0000 21.2500

做出相应的百分位数的图形

>> boxplot(x)

5列分位数构 造5个盒图,见下页.

相关系数 corrcoef

功能:相关系数

格式:R=corrcoef(X)

例13 合金的强度y与含碳量x的样本如下,试计算r(x,y).

>> X=[41 42.5 45 45.5 45 47.5 49 51 50 55 57.5 59.5;

0.1,0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.20 0.22 0.24]\';

>> R=corrcoef(X)

R =

1.0000 0.9897

0.9897 1.0000

样本峰度 kurtosis

功能:样本峰度

格式:k=kurtosis(X)

说明:峰度为单峰分布区线" 峰的平坦程度"的度量,其定义为

Matlab 工具箱中峰度不采用一般定义(k-3,标准正态分布的峰度为0).而是定义标准正态分布峰度为3,曲线比正态分布平坦,峰度大于3,反之,小于3.

例14 计算随机样本的峰度

>> X=random(\'F\',10,20,100,4);

>> k=kurtosis(X)

k =

6.5661 5.5851

6.0349 7.0129

样本偏度 skewness

功 能:样本偏度

格式:y=skewness(X)

说明:偏度是度量样本围绕其均值的对称情况.如果偏度为负,则数据分布偏向左边,反之,偏 向右边.其定义为

>> X=random(\'F\',9,10,100,4);

>> y=skewness(X)

y =

1.0934 1.5513 2.0522 2.9240

自助法 bootstrap

引例:一组来自15个法律学校的学生的 lsat分数 和gpa进行比较的样本.

> load lawdata

>> x=[lsat gpa]

x =

576.0000 3.3900

635.0000 3.3000

558.0000 2.8100

578.0000 3.0300

666.0000 3.4400

580.0000 3.0700

555.0000 3.0000

661.0000 3.4300

651.0000 3.3600

605.0000 3.1300

653.0000 3.1200

575.0000 2.7400

545.0000 2.7600

572.0000 2.8800

594.0000 2.9600

绘图,并进行曲线拟合

>> plot(lsat,gpa,\'+\')

>> lsline

通过上图的拟合可以看出,lsat随着gpa增长而提高,但是我们 确信此结论的程度是多少曲线只给出了直观表现,没有量的表示.计算相关系数

>> y=corrcoef(lsat,gpa)

y =

1.0000 0.7764

0.7764 1.0000

相关系数是0.7764,但是由于样本容量n=15比较小,我们仍然不能确定在统计上相关的显著性多大.应此,必须采用bootstrp函数对lsat和gpa样本来从新采样,并考察相关系数的变化.

>> y1000=bootstrp(1000,\'corrcoef\',lsat,gpa);

>> hist(y1000(:,2),30)

绘制lsat,gpa和相关系数得直方图如下

结果显示,相关系数绝大多数在区间[0.4,1] 内,表明lsat分数和gpa具有确定的相关性,这样的分析,不需要对象关系数的概率分布做出很强的假设.

[size=2] [color=blue]第4节 假设检验[/color][/size]

基本概念

H0:零假设,即初始判断.

H1:备择假设, 也称对立假设.

Alpha :显著水平,在小样本的前提下,不能肯定自己的结论,所以事先约定,如果观测到的符合零假设的样本值的概率小于alpha,则拒绝零假设.典型的显著水平取alpha=0.05.如果想减少犯错误的可能,可取更小的值.

P-值:在零假设为真的条件下,观测给定样本结果的概率值.如果Pmu tail=-1——x>x =[119 117 115 116 112 121 115 122 116 118 109 112 119 112 117 113 114 109 109 118];

>> h=ztest(x,115,4)

h =

0

表 明,接受H0,认为该种汽油的平均价格为115美分.

>> [h,sig,ci]=ztest(x,115,4,0.01,0)

h = 0

sig =

0.8668

ci =

112.8461 117.4539

>> [h,sig,ci]=ztest(x,115,4,0.01,1)

h =0

sig =

0.4334

ci =

113.0693 Inf

>> [h,sig,ci]=ztest(x,115,4,0.01,-1)

h=0

sig =

0.5666

ci =

-Inf 117.2307

Ttest

功能:单一样本均值的t检验

格式:h=ttest(x,m)

h=ttest(x,m,alpha)

[h,sig,ci]=ttest(x,m,alpha,tail)

说 明:用于正态总体标准差未知时对均值的t检验.Tail功能与ztest作用一致.

>> x=random(\'Normal\',0,1,100,1);

>> [h,sig,ci]=ttest(x,0,0.01,-1)

h =

0

sig =

0.0648

ci =

-Inf 0.0808

>> [h,sig,ci]=ttest(x,0,0.001,1)

h =

0

sig =

0.9352

ci =

-0.4542 Inf

Signtest

功能:成对样本的符号检验

格式:p=signtest(x,y,alpha)

[p,h]=signtest(x,y,alpha)

说明:p给出两个配对样本x和y的中位数(对于正态分布,中位数,就是平均值.相等的显著性概率.X与y的长度相等.Y也可以为标量,计算x的中位数与常数y之间差异的概率.[p,h]返回结果h.如果这样两个样本的中位数之间差几乎为0,则h=0,否则有显著差异,则h=1.

>> x=[0 1 0 1 1 1 1 0 1 0];

>> y=[1 1 0 0 0 0 1 1 0 0];

>> [p,h]=signtest(x,y,0.05)

p =

0.6875

h =

0

Signrank

功 能:威尔科克符号秩检验

格式:p=signrank(x,y,alpha)

[p,h]=signrank(x,y,alpha)

说明:p给出两个配对样本x和y的中位数(对于正态分布,中位数和均值等)相等的假设的显著性的概率.X与y的长度相同.[p,h]返回假设检验的结果,如果两个样本的中位数之差极护卫零,则h=0;否则,有显著差异,则h=1.

>> x=random(\'Normal\',0,1,200,1);

>> y=random(\'Normal\',0.1,2,200,1);

>> [p,h]=signrank(x,y,0.05)

p =

0.9757

h =

0

Ranksum

功能:两个总体一致性的威尔科克秩和的检验

格 式:p=ranksum(x,y,alpha)

[p,h]=ranksum(x,y,alpha)

说明:p返回两个总体样本x和y一致的显著性概率.X和y的长度可以不同.但长度长的排在前面.[p,h]返回检验结果,如果总体x和y并非明显不一致,返回h=0,否则,h=1.

>> x=random(\'Normal\',0,2,20,1);

>> y=random(\'Normal\',0.1,4,10,1);

>> [p,h]=ranksum(x,y,0.05)

p =

0.7918

h =

0

[size=2] [color=blue]第5节 统计绘图[/color][/size]

统计绘图就是用图形表达函数,以便直观地,充分的表现样本及其统计量的 内在本质性.

Box图

功能:数据样本的box图

格式:boxplot(X) boxplot(X,notch) boxplot(X,notch,\'sym\')

boxplot(X,notch,\'sym,vert) boxplot(X,notch,\'sym\',vert,whis)

说明1:"盒子"的上底和下底间为四分位间距,"盒子"的上下两条线分别表示样本的25%和75%分位数."盒子"中间线为样本中位数.如果盒子中间线不在盒子中间,表示样本存在一定的篇度.

虚线贯穿"盒子"上下,表示样 本的其余部分(除非有野值).样本最大值为虚线顶端,样本最小值为虚线底端.用"+"表示野值.

"切口"是样本的置信区间,却省时,没有切口

说明2:notch=0,盒子没有切口,notch=1,盒子有切口;\'sym\'为野值标记符号,缺省时,"+"表示.Vert=0时候,box图水平放置,vert=1时,box图垂直放置.Whis定义虚线长度为内四分位间距(IQR)的函数(缺省时为1.5*IQR),若whis=0,box图用 \'sym\'规定的记号显示盒子外所有数据.

>> x1=random(\'Normal\',2,1,100,1);

>> x2=random(\'Normal\',1,2,100,1);

>> x=[x1 x2];

>> boxplot(x,1,\'*\',1,0)

绘图结果见下页

Errorbar 误差条图

功能:误差条图

格 式:errorbar(X,Y,L,U,symbol)

errorbar(X,Y,L)

errorbar(Y,L)

说明:误差条 是距离点(X,Y)上面的长度为U(i) ,下面的长度为L(i) 的直线.X,Y,L,U的长度必须相同.Symbol为一字符 串,可以规定线条类型,颜色等.

>> U=ones(20,1);

>> L=ones(20,1);

>> errorbar(r1,r2,L,U,\'+\')

>> r1=random(\'Poisson\',2,10,1);

>>r2=random(\'Poisson\',10,10,1);

>> U=ones(10,1);

>> L=U;

>> errorbar(r1,r2,L,U,\'+\')

Lsline 绘制最小二乘拟合线

功能:绘制数据的最小二乘拟合曲线

格式:lsline

h=lsline

说明:lsline为当前坐 标系中的每一个线性数据给出其最小二乘拟合线.

>> y=[2 3.4 5.6 8 11 12.3 13.8 16 18.8 19.9]\';

>> plot(y,\'+\')

>> lsline

Refcurve 参考多项式

功 能:在当前图形中给出多项式拟合曲线

格式:h=refcurve(p)

说明:在当前图形中给出多项式p(系数向量)的曲线,n阶多项式为

y=p1*x^n+p2*x^(n-1)+…+pn*x+p0

则p=[p1 p2 … pn p0]

>> h=[85 162 230 289 339 381 413 437 452 458 456 440 400 356];

>> plot(h,\'+\')

>> refcurve([-4.9,100,0])

matlab中统计工具箱函数大全

MATLAB统计工具箱包括概率分布、方差分析、假设检验、分布检验、非参数检验、回归分析、判别分析、主成分分析、因子分析、系统聚类分析、K均值聚类分析、试验设计、决策树、多元方差分析、统计过程控制和统计图形绘制等。优化工具箱包括无约束最优化、有约束最优化、二次规划、多目标规划、最大最小化、半元限问题、方程求解以及大型优化问题的求解等。

表Ⅰ-1 概率密度函数

betapdf贝塔分布的概率密度函数

binopdf二项分布的概率密度函数

chi2pdf卡方分布的概率密度函数

exppdf指数分布的概率密度函数

fpdf f分布的概率密度函数

gampdf伽玛分布的概率密度函数

geopdf几何分布的概率密度函数

hygepdf超几何分布的概率密度函数

normpdf正态(高斯)分布的概率密度函数

lognpdf对数正态分布的概率密度函数

nbinpdf负二项分布的概率密度函数

ncfpdf非中心f分布的概率密度函数

nctpdf非中心t分布的概率密度函数

ncx2pdf非中心卡方分布的概率密度函数

poisspdf泊松分布的概率密度函数

raylpdf雷利分布的概率密度函数

tpdf学生氏t分布的概率密度函数

unidpdf离散均匀分布的概率密度函数

unifpdf连续均匀分布的概率密度函数

weibpdf威布尔分布的概率密度函数

表Ⅰ-2 累加分布函数

函数名

对应分布的累加函数

betacdf贝塔分布的累加函数

binocdf二项分布的累加函数

chi2cdf卡方分布的累加函数

expcdf指数分布的累加函数

fcdf f分布的累加函数

gamcdf伽玛分布的累加函数

geocdf几何分布的累加函数

hygecdf超几何分布的累加函数

logncdf对数正态分布的累加函数

nbincdf负二项分布的累加函数

ncfcdf非中心f分布的累加函数

nctcdf非中心t分布的累加函数

ncx2cdf非中心卡方分布的累加函数

normcdf正态(高斯)分布的累加函数

poisscdf泊松分布的累加函数

raylcdf雷利分布的累加函数

tcdf学生氏t分布的累加函数

unidcdf离散均匀分布的累加函数

unifcdf连续均匀分布的累加函数

weibcdf威布尔分布的累加函数

表Ⅰ-11 线性模型函数

anova1单因子方差分析

anova2双因子方差分析

anovan多因子方差分析

aoctool协方差分析交互工具

dummyvar拟变量编码

friedman Friedman检验

glmfit一般线性模型拟合

kruskalwallis Kruskalwallis检验

leverage中心化杠杆值

lscov已知协方差矩阵的最小二乘估计

manova1单因素多元方差分析

manovacluster多元聚类并用冰柱图表示

multcompare多元比较

多项式评价及误差区间估计

polyfit最小二乘多项式拟合

polyval多项式函数的预测值

polyconf残差个案次序图

regress多元线性回归

regstats回归统计量诊断

Ridge岭回归

rstool多维响应面可视化

robustfit稳健回归模型拟合

stepwise逐步回归

x2fx用于设计矩阵的因子设置矩阵

表Ⅰ-12 非线性回归函数

nlinfit非线性最小二乘数据拟合(牛顿法)

nlintool非线性模型拟合的交互式图形工具

nlparci参数的置信区间

nlpredci预测值的置信区间

nnls非负最小二乘

表Ⅰ-13 试验设计函数

cordexch D-优化设计(列交换算法)

daugment递增D-优化设计

dcovary固定协方差的D-优化设计

ff2n二水平完全析因设计

fracfact二水平部分析因设计

fullfact混合水平的完全析因设计

hadamard Hadamard矩阵(正交数组)

rowexch D-优化设计(行交换算法)

表Ⅰ-14 主成分分析函数

barttest Barttest检验

pcacov源于协方差矩阵的主成分

pcares源于主成分的方差

princomp根据原始数据进行主成分分析

表Ⅰ-15 多元统计函数

classify聚类分析

mahal马氏距离

manova1单因素多元方差分析

manovacluster多元聚类分析

表Ⅰ-16 假设检验函数

ranksum秩和检验

signrank符号秩检验

signtest符号检验

ttest单样本t检验

ttest2双样本t检验

ztest z检验

表Ⅰ-17 分布检验函数

jbtest正态性的Jarque-Bera检验

kstest单样本Kolmogorov-Smirnov检验

kstest2双样本Kolmogorov-Smirnov检验

lillietest正态性的Lilliefors检验

表Ⅰ-18 非参数函数

friedman Friedman检验

kruskalwallis Kruskalwallis检验

ranksum秩和检验

signrank符号秩检验

signtest符号检验

表Ⅰ-19 文件输入输出函数

caseread读取个案名

casewrite写个案名到文件

tblread以表格形式读数据

tblwrite以表格形式写数据到文件

tdfread从表格间隔形式的文件中读取文本或数值数据

表Ⅰ-20 演示函数

aoctool协方差分析的交互式图形工具

disttool探察概率分布函数的GUI工具

glmdemo一般线性模型演示

randtool随机数生成工具

polytool多项式拟合工具

rsmdemo响应拟合工具

robustdemo稳健回归拟合工具

统计工具箱是matlab提供给人们的一个强有力的统计分析工具.包含200多个m文件(函数),主要支持以下各方面的内容.

〉〉概率分布:提供了20种概率分布,包含离散和连续分布,且每种分布,提供了5个有用的函数,即概率密度函数,累积分布函数,逆累积分布函数,随机产生器与方差计算函数.

〉〉 参数估计:依据特殊分布的原始数据,可以计算分布参数的估计值及其置信区间.

〉〉描述性统计:提供描述数据样本特征的函数,包括位置和散布的度 量,分位数估计值和数据处理缺失情况的函数等.

〉〉线性模型:针对线性模型,工具箱提供的函数涉及单因素方差分析,双因素方差分析,多重线性回 归,逐步回归,响应曲面和岭回归等.

〉〉非线性模型:为非线性模型提供的函数涉及参数估计,多维非线性拟合的交互预测和可视化以及参数和预计值的 置信区间计算等.

〉〉 假设检验: 此间提供最通用的假设检验函数:t检验和z检验

〉〉其它的功能就不再介绍.

统计工具箱函数主 要分为两类:

〉数值计算函数(M文件)

〉交互式图形函数(Gui)

matlab惯例:beta 线性模型中的参数,E(x) x的数学期望, f(x|a,b) 概率密度函数, F(x|a,b) 累积分布函数 ,I([a,b]) 指示(Indicator)函数

p,q p事件发生的概率.

[size=2][color=blue]第1节 概率分布[/color][/size]

统计工具箱提供的常见分 布

Uniform均匀,Weibull威布尔,Noncentral t,Rayleigh瑞利,Poisson泊松,Student\'s t,Normal正态,Negative Binomial,Noncentral F

Lognormal对数,正态,Hyper G,F分布,Gamma,Geometric几何,Noncentral chi-square,Exponential指数,Binomial二项,Chi-square

Beta(分 布),discrete,Continuous,Continuous,离散分布,统计量连续分布,数据连续分布,概率密度函数 pdf,probbability density function

〉〉功能:可选的通用概率密度函数

〉〉格 式:Y=pdf(\'Name\',X,A1,A1,A3)

\'Name\' 为特定的分布名称,第一个字母必须大写

X 为分布函数自变量取值矩阵

A1,A2,A3 分别为相应分布的参数值

Y 存放结果,为概率密度值矩阵

算例:

>> y=pdf(\'Normal\',-2:2,0,1)

y =

0.0540 0.2420 0.3989 0.2420 0.0540

>> Y=pdf(\'Normal\',-2:0.5:2,1,4)

Y =

0.0753 0.0820 0.0880 0.0930 0.0967 0.0990 0.0997 0.0990 0.0967

>> p=pdf(\'Poisson\',0:2:8,2)

p =

0.1353 0.2707 0.0902 0.0120 0.0009

>> p=pdf(\'F\',1:2:10,4,7)

p =

0.4281 0.0636 0.0153 0.0052 0.0021

我们 也可以利用这种计算功能和作图功能,绘制一下密度函数曲线,例如,绘制不同的正态分布的密度曲线

>> x=[-6:0.05:6];

>> y1=pdf(\'Normal\',x,0,0.5);

>> y2=pdf(\'Normal\',x,0,1);

>> y3=pdf(\'Normal\',x,0,2);

>> y4=pdf(\'Normal\',x,0,4);

>>plot(x,y1,\'K-\',x,y2,\'K--\',x,y3,\'*\',x,y4,\'+\')

这 个程序计算了mu=0,而sigma取不同值时的正态分布密度函数曲线的形态,可以看出,sigma越大,曲线越平坦.

累积分布函数及逆累积分布 函数 cdf icdf

〉〉功能:计算可选分布函数的累积分布和逆累积分布函数

〉〉格 式:P=cdf(\'Name\',X,A1,A2,A3)

X=icdf(\'Name\',P,A1,A2,A3)

>> x=[-3:0.5:3];

>> p=cdf(\'Normal\',x,0,1)

p =

0.0013 0.0062 0.0228 0.0668 0.1587 0.3085 0.5000 0.6915 0.8413 0.9332 0.9772 0.9938 0.9987

>> x=icdf(\'Normal\',p,0,1)

x =

-3.0000 -2.5000 -2.0000 -1.5000 -1.0000 -0.5000 0 0.5000 1.0000 1.5000 2.0000 2.5000 3.0000

随机数产生器 random

〉〉功能:产生可选分布的随机数

〉〉格 式:y=random(\'Name\',A1,A2,A3,m,n)

A1,A2,A3 分布的参数

\'Name\' 分布的名称

m,n 确定y的数量,如果参数是标量,则y是m*n矩阵

例如 产生服从参数为(9,10)的F-分布的4个随机数值

>> y=random(\'F\',9,10,2,2)

y =

3.4907 1.6762

0.5702 1.1534

均值和方差 以\'stat\'结尾的函数

均值和方差的计算函数

[m,v]=normstat(mu,sigma)

正态分布

[mn,v]=hygestat(M,K,N)

超 几何分布

[m,v]=geostat(P)

几何分布

[m,v]=gamstat(A,B)

Gamma分布

[m,v]=fstat(v1,v2)

F 分布

[m,v]=expstat(mu)

指数分布

[m,v]=chi2stat(nu)

Chi-squrare分布

[m,v]=binostat(N,P)

二 项分布

[m,v]=betastat(A,B)

Beta 分布

函数名称及调用格式

分布类型名称

[m,v]=weibstat(A,B)

威 尔分布

[m,v]=unistat(A,B)

连续均匀分布

[m,v]=unidstat(N)

离散均匀分布

[m,v]=tstat(nu)

t 分布

[m,v]=raylstat(B)

瑞利分布

[m,v]=poisstat(lambda)

泊松分布

[m,v]=ncx2stat(nu,delta)

非 中心chi2分布

[m,v]=nctstat(nu,delta)

非中心t分布

[m,v]=ncfstat(nu1,nu2,delta)

非 中心F分布

[m,v]=nbinstat(R,P)

负二项分布

[m,v]=lognstat(mu,sigma)

对数正 态分布

[size=2][color=blue]第2节 参数估计[/color][/size]

参数估计是总体的分布形式已经知道,且 可以用有限个参数表示的估计问题.分为点估计(极大似燃估计Maximum likehood estimation, MLE)和区间估计.求取各种分布的最大似然估计估计量 mle

〉〉格式:phat=mle(\'dist\',da

ta)

[phat,pci]=mle(\'dist\',data)

[phat,pci]=mle(\'dist\',data,alpha)

[phat,pci]=mle(\'dist\',data,alpha,p1)

〉〉 \'dist\' 给定的特定分布的名称,\'beta\',\'binomial\'等.Data为数据样本,矢量形式给出.Alpha用户给定的置信度值,以给出100(1-alpha)%的置信区间,缺省为0.05.最后一种是仅供二项分布参数估计,p1为实验次数.

例1 计算beta 分布的两个参数的似然估计和区间估计(alpha=0.1,0.05,0.001),样本由随机数产生.

>> random(\'beta\',4,3,100,1);

>> [p,pci]=mle(\'beta\',r,0.1)

p =

4.6613 3.5719

pci =

3.6721 2.7811

5.6504 4.3626

>> [p,pci]=mle(\'beta\',r,0.05)

p =

4.6613 3.5719

pci =

3.4827 2.6296

5.8399 4.5141

>> [p,pci]=mle(\'beta\',r,0.001)

p =

4.6613 3.5719

pci =

2.6825 1.9900

6.6401 5.1538

例 2 计算二项分布的参数估计与区间估计,alpha=0.01.

>> r=random(\'Binomial\',10,0.2,10,1);

>> [p,pci]=mle(\'binomial\',r,0.01,10)

p =

0.2000 0.2000 0.1000 0.4000 0.2000 0.2000 0.4000 0 0.1000 0.2000

pci =

0.0109 0.0109 0.0005 0.0768 0.0109 0.0109 0.0768 NaN 0.0005 0.0109

0.6482 0.6482 0.5443 0.8091 0.6482 0.6482 0.8091 0.4113 0.5443 0.6482

[size=2][color=blue] 第3节 描述统计[/color][/size]

描述性统计包括:位置度量,散布度量,缺失数据下的统计处理,相关系数,样本分位数,样本峰度, 样本偏度,自助法等

〉〉位置度量:几何均值(geomean),调和均值(harmmean),算术平均值(mean),中位数 (median),修正的样本均值(trimean).

〉〉散布度量:方差(var),内四分位数间距(iqr),平均绝对偏差(mad),样本极差(range),标准差(std),任意阶中心矩(moment),协方差矩阵(cov).

〉〉缺失数据情况下的处理:忽视缺失数据的最大值 (nanmax),忽视缺失数据的平均值(nanmean),忽视缺失数据的中位数 (nanmedian),忽视缺失数据的最小值(nanmin),忽视缺失数据的标准差(nanstd),忽视缺失数据的和(namsum).

〉〉 相关系数:corrcoef ,计算相关系数

〉〉样本分位数:prctile,计算样本的经验分位数

〉〉样本峰度:kurtosis,计 算样本峰度

〉〉样本偏度:skewness,计算样本偏度

〉〉自助法:bootstrp,对样本从新采样进行自助统计

中心趋势 (位置)度量

样本中心趋势度量的目的在于对数据样本在分布线上分布的中心位置予以定为.均值是对中心位置简单和通常的估计量.不幸的是,几乎所有的实际数据都存在野值 (输入错误或其它小的技术问题造成的).样本均值对这样的值非常敏感.中位数和修正(剔除样本高值和低值)后的均值则受野值干扰很小.而几何均值和调和均值对野值也较敏感.下面逐个说明这些度量函数.

〉〉geomean

功能:样本的几何均值

格式:m=geomean(X)

若 X为向量,则返回X中元素的几何均值;若X位矩阵,给出的结果为一个行向量,即每列几何均值.

例 1 计算随机数产生的样本的几何均值

>> X=random(\'F\',10,10,100,1);

>> m=geomean(X)

m =

1.1007

>> X=random(\'F\',10,10,100,5);

>> m=geomean(X)

m =

0.9661 1.0266 0.9703 1.0268 1.0333

〉〉harmmean

功能:样本的调和均值

格 式:m=harmmean(X)

例 2 计算随机数的调和均值

>> X=random(\'Normal\',0,1,50,5);

>> m=harmmean(X)

m =

-0.2963 -0.0389 -0.9343 5.2032 0.7122

〉〉mean

功能:样本数据的算术平均值

格 式:m=mean(x)

例 3 计算正态随机数的算术平均数

>>X=random(\'Normal\',0,1,300,5);

>> xbar=mean(X)

xbar =

0.0422 -0.0011 -0.0282 0.0616 -0.0080

〉〉 median

功能:样本数据的中值(中位数),是对中心位值的鲁棒估计.

格式:m=median(X)

例 4 计算本的中值

>> X=random(\'Normal\',0,1,5,3)

X =

0.0000 0.8956 0.5689

-0.3179 0.7310 -0.2556

1.0950 0.5779 -0.3775

-1.8740 0.0403 -0.2959

0.4282 0.6771 -1.4751

>> m=median(X)

m =

0.0000 0.6771 -0.2959

〉〉 trimmean

功能:剔除极端数据的样本均值.

格式:m=trimmean(X,percent)

说明:计算剔除观测值中最高 percent%和最低percent%的数据后的均值

例5 计算修改后的样本均值

>> X=random(\'F\',9,10,100,4);

>> m=trimmean(X,10)

m =

1.1470 1.1320 1.1614 1.0469

散布度量

散布度量是描述样本中数据离其中心的程度,也称离差.常用的有极差,标准差,平均绝对 差,四分位数间距

〉〉iqr

功能:计算样本的内四分位数的间距,是样本的鲁棒估计

格式:y=iqr(X)

说明:计算样本 的75%和25%的分位数之差,不受野值影响.

例6 计算样本的四分位间距

>> X=random(\'Normal\',0,1,100,4);

>> m=iqr(X)

m =

1.3225 1.2730 1.3018 1.2322

〉〉mad

功能:样本数据的平均绝对偏差

格式:y=mad(X)

说明:正态分 布的标准差sigma可以用mad乘以1.3估计

例7 计算样本数据的绝对偏差

>> X=random(\'F\',10,10,100,4);

>> y=mad(X)

y =

0.5717 0.5366 0.6642 0.7936

>> y1=var(X)

y1 =

0.6788 0.6875 0.7599 1.3240

>> y2=y*1.3

y2 =

0.8824 0.8938 0.9879 1.7212

〉〉 range

功能:计算样本极差

格式:y=range(X)

说明:极差对野值敏感

例 8 计算样本值的极差

>> X=random(\'F\',10,10,100,4);

>> y=range(X)

y =

10.8487 3.5941 4.2697 4.0814

〉〉var

功能:计算样本方差

格式:y=var(X) y=var(X,1) y=var(X,w)

Var(X)经过n-1进行了标准化,Var(X,1)经过n进行了标准变化

例 9 计算各类方差

>> X=random(\'Normal\',0,1,100,4);

>> y=var(X)

y =

0.9645 0.8209 0.9595 0.9295

>> y1=var(X,1)

y1 =

0.9548 0.8126 0.9499 0.9202

>> w=[1:1:100];

>> y2=var(X,w)

y2 =

0.9095 0.7529 0.9660 0.9142

〉〉std

功能:样本的标准差

格式:y=std(X)

说明:经过n-1标准 化后的标准差

例 10计算随机样本的标准差

>> X=random(\'Normal\',0,1,100,4);

>> y=std(X)

y =

0.8685 0.9447 0.9569 0.9977

〉〉cov

功能:协方差矩阵

格 式:C=cov(X) C=cov(x,y) C=cov([x y])

说明:若X为向量,cov(X)返回一个方差标量;若X为矩阵,则返回协 方差矩阵;cov(x,y)与cov([x y])相同,x与y的长度相同.

例 11 计算协方差

>> x=random(\'Normal\',2,4,100,1);

>> y=random(\'Normal\',0,1,100,1);

>> C=cov(x,y)

C =

12.0688 -0.0583

-0.0583 0.8924

处理缺失数据的函数

在 对大量数据样本时,常常遇到一些无法确定的或者无法找到确切的值.在这种情况下,用符号"NaN"(not a number )标注这样的数据.这种情况下,一般的函数得不到任何信息.

例如 m中包含nan数据

>> m=magic(3);

>> m([1 5 9])=[NaN NaN NaN];

>> sum(m)

ans =

NaN NaN NaN

但 是通过缺失数据的处理,得到有用的信息.

>> nansum(m)

ans =

7 10 13

〉〉 nanmax

功能:忽视NaN,求其它数据的最大值

格式:m=nanmax(X)

[m,ndx]=nanmax(X)

m=nanmax(a,b)

说 明:nanmax(X)返回X中数据除nan外的其它的数据的最大值,[m,ndx]=nanmax(X)还返回X最大值的序号给 ndx.m=nanmax(a,b)返回a或者b的最大值,a,b长度同

>> m=magic(3);

>> m([1 5 9])=[NaN NaN NaN];

>> [m,ndx]=nanmax(m)

m =

4 9 7

ndx =

3 3 2

处理缺失数据的常用函数

Y=nansum(X)

求包含确实数据的和

nansum

Y=nanstd(X)

求 包含确实数据的标准差

Nanstd

Y=nanmedian(X)

求包含确实数据中位数

Nanmedian

Y=nanmean(X)

求 包含确实数据的平均值

Nanmean

同上

求包含确实数据的最小值

Nanmin

(略)

求包含确实数据的最 大值

Nanmax

调用格式

功能

函数名称

中心矩 moment

功能:任意阶的中心矩

格 式:m=moment(X,order)

说明:order为阶,函数本身除以X的长度

例 12 计算样本函数的中心矩

>> X=random(\'Poisson\',2,100,4);

>> m=moment(X,1)

m =

0 0 0 0

>> m=moment(X,2)

m =

1.7604 2.0300 1.6336 2.3411

>> m=moment(X,3)

m =

1.3779 2.5500 2.3526 2.2964

百分位数及其图形描述

白分位 数图形可以直观观测到样本的大概中心位置和离散程度,可以对中心趋势度量和散布度量作补充说明

〉〉prctile

功能:计算样本的百分位 数

格式:y=prctile(X,p)

说明:计算X中数据大于P%的值,P的取值区间为[0,100],如果X为向量,返回X中P百分位数;X为矩阵,给出一个向量;如果P为向量,则y的第i个行对应于X的p(i) 百分位数.例如

>> x=(1:5)\'*(1:5)

x =

1 2 3 4 5

2 4 6 8 10

3 6 9 12 15

4 8 12 16 20

5 10 15 20 25

>> y=prctile(x,[25,50,75])

y =

1.7500 3.5000 5.2500 7.0000 8.7500

3.0000 6.0000 9.0000 12.0000 15.0000

4.2500 8.5000 12.7500 17.0000 21.2500

做出相应的百分位数的图形

>> boxplot(x)

5列分位数构 造5个盒图,见下页.

相关系数 corrcoef

功能:相关系数

格式:R=corrcoef(X)

例13 合金的强度y与含碳量x的样本如下,试计算r(x,y).

>> X=[41 42.5 45 45.5 45 47.5 49 51 50 55 57.5 59.5;

0.1,0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.20 0.22 0.24]\';

>> R=corrcoef(X)

R =

1.0000 0.9897

0.9897 1.0000

样本峰度 kurtosis

功能:样本峰度

格式:k=kurtosis(X)

说明:峰度为单峰分布区线" 峰的平坦程度"的度量,其定义为

Matlab 工具箱中峰度不采用一般定义(k-3,标准正态分布的峰度为0).而是定义标准正态分布峰度为3,曲线比正态分布平坦,峰度大于3,反之,小于3.

例14 计算随机样本的峰度

>> X=random(\'F\',10,20,100,4);

>> k=kurtosis(X)

k =

6.5661 5.5851

6.0349 7.0129

样本偏度 skewness

功 能:样本偏度

格式:y=skewness(X)

说明:偏度是度量样本围绕其均值的对称情况.如果偏度为负,则数据分布偏向左边,反之,偏 向右边.其定义为

>> X=random(\'F\',9,10,100,4);

>> y=skewness(X)

y =

1.0934 1.5513 2.0522 2.9240

自助法 bootstrap

引例:一组来自15个法律学校的学生的 lsat分数 和gpa进行比较的样本.

> load lawdata

>> x=[lsat gpa]

x =

576.0000 3.3900

635.0000 3.3000

558.0000 2.8100

578.0000 3.0300

666.0000 3.4400

580.0000 3.0700

555.0000 3.0000

661.0000 3.4300

651.0000 3.3600

605.0000 3.1300

653.0000 3.1200

575.0000 2.7400

545.0000 2.7600

572.0000 2.8800

594.0000 2.9600

绘图,并进行曲线拟合

>> plot(lsat,gpa,\'+\')

>> lsline

通过上图的拟合可以看出,lsat随着gpa增长而提高,但是我们 确信此结论的程度是多少曲线只给出了直观表现,没有量的表示.计算相关系数

>> y=corrcoef(lsat,gpa)

y =

1.0000 0.7764

0.7764 1.0000

相关系数是0.7764,但是由于样本容量n=15比较小,我们仍然不能确定在统计上相关的显著性多大.应此,必须采用bootstrp函数对lsat和gpa样本来从新采样,并考察相关系数的变化.

>> y1000=bootstrp(1000,\'corrcoef\',lsat,gpa);

>> hist(y1000(:,2),30)

绘制lsat,gpa和相关系数得直方图如下

结果显示,相关系数绝大多数在区间[0.4,1] 内,表明lsat分数和gpa具有确定的相关性,这样的分析,不需要对象关系数的概率分布做出很强的假设.

[size=2] [color=blue]第4节 假设检验[/color][/size]

基本概念

H0:零假设,即初始判断.

H1:备择假设, 也称对立假设.

Alpha :显著水平,在小样本的前提下,不能肯定自己的结论,所以事先约定,如果观测到的符合零假设的样本值的概率小于alpha,则拒绝零假设.典型的显著水平取alpha=0.05.如果想减少犯错误的可能,可取更小的值.

P-值:在零假设为真的条件下,观测给定样本结果的概率值.如果Pmu tail=-1——x>x =[119 117 115 116 112 121 115 122 116 118 109 112 119 112 117 113 114 109 109 118];

>> h=ztest(x,115,4)

h =

0

表 明,接受H0,认为该种汽油的平均价格为115美分.

>> [h,sig,ci]=ztest(x,115,4,0.01,0)

h = 0

sig =

0.8668

ci =

112.8461 117.4539

>> [h,sig,ci]=ztest(x,115,4,0.01,1)

h =0

sig =

0.4334

ci =

113.0693 Inf

>> [h,sig,ci]=ztest(x,115,4,0.01,-1)

h=0

sig =

0.5666

ci =

-Inf 117.2307

Ttest

功能:单一样本均值的t检验

格式:h=ttest(x,m)

h=ttest(x,m,alpha)

[h,sig,ci]=ttest(x,m,alpha,tail)

说 明:用于正态总体标准差未知时对均值的t检验.Tail功能与ztest作用一致.

>> x=random(\'Normal\',0,1,100,1);

>> [h,sig,ci]=ttest(x,0,0.01,-1)

h =

0

sig =

0.0648

ci =

-Inf 0.0808

>> [h,sig,ci]=ttest(x,0,0.001,1)

h =

0

sig =

0.9352

ci =

-0.4542 Inf

Signtest

功能:成对样本的符号检验

格式:p=signtest(x,y,alpha)

[p,h]=signtest(x,y,alpha)

说明:p给出两个配对样本x和y的中位数(对于正态分布,中位数,就是平均值.相等的显著性概率.X与y的长度相等.Y也可以为标量,计算x的中位数与常数y之间差异的概率.[p,h]返回结果h.如果这样两个样本的中位数之间差几乎为0,则h=0,否则有显著差异,则h=1.

>> x=[0 1 0 1 1 1 1 0 1 0];

>> y=[1 1 0 0 0 0 1 1 0 0];

>> [p,h]=signtest(x,y,0.05)

p =

0.6875

h =

0

Signrank

功 能:威尔科克符号秩检验

格式:p=signrank(x,y,alpha)

[p,h]=signrank(x,y,alpha)

说明:p给出两个配对样本x和y的中位数(对于正态分布,中位数和均值等)相等的假设的显著性的概率.X与y的长度相同.[p,h]返回假设检验的结果,如果两个样本的中位数之差极护卫零,则h=0;否则,有显著差异,则h=1.

>> x=random(\'Normal\',0,1,200,1);

>> y=random(\'Normal\',0.1,2,200,1);

>> [p,h]=signrank(x,y,0.05)

p =

0.9757

h =

0

Ranksum

功能:两个总体一致性的威尔科克秩和的检验

格 式:p=ranksum(x,y,alpha)

[p,h]=ranksum(x,y,alpha)

说明:p返回两个总体样本x和y一致的显著性概率.X和y的长度可以不同.但长度长的排在前面.[p,h]返回检验结果,如果总体x和y并非明显不一致,返回h=0,否则,h=1.

>> x=random(\'Normal\',0,2,20,1);

>> y=random(\'Normal\',0.1,4,10,1);

>> [p,h]=ranksum(x,y,0.05)

p =

0.7918

h =

0

[size=2] [color=blue]第5节 统计绘图[/color][/size]

统计绘图就是用图形表达函数,以便直观地,充分的表现样本及其统计量的 内在本质性.

Box图

功能:数据样本的box图

格式:boxplot(X) boxplot(X,notch) boxplot(X,notch,\'sym\')

boxplot(X,notch,\'sym,vert) boxplot(X,notch,\'sym\',vert,whis)

说明1:"盒子"的上底和下底间为四分位间距,"盒子"的上下两条线分别表示样本的25%和75%分位数."盒子"中间线为样本中位数.如果盒子中间线不在盒子中间,表示样本存在一定的篇度.

虚线贯穿"盒子"上下,表示样 本的其余部分(除非有野值).样本最大值为虚线顶端,样本最小值为虚线底端.用"+"表示野值.

"切口"是样本的置信区间,却省时,没有切口

说明2:notch=0,盒子没有切口,notch=1,盒子有切口;\'sym\'为野值标记符号,缺省时,"+"表示.Vert=0时候,box图水平放置,vert=1时,box图垂直放置.Whis定义虚线长度为内四分位间距(IQR)的函数(缺省时为1.5*IQR),若whis=0,box图用 \'sym\'规定的记号显示盒子外所有数据.

>> x1=random(\'Normal\',2,1,100,1);

>> x2=random(\'Normal\',1,2,100,1);

>> x=[x1 x2];

>> boxplot(x,1,\'*\',1,0)

绘图结果见下页

Errorbar 误差条图

功能:误差条图

格 式:errorbar(X,Y,L,U,symbol)

errorbar(X,Y,L)

errorbar(Y,L)

说明:误差条 是距离点(X,Y)上面的长度为U(i) ,下面的长度为L(i) 的直线.X,Y,L,U的长度必须相同.Symbol为一字符 串,可以规定线条类型,颜色等.

>> U=ones(20,1);

>> L=ones(20,1);

>> errorbar(r1,r2,L,U,\'+\')

>> r1=random(\'Poisson\',2,10,1);

>>r2=random(\'Poisson\',10,10,1);

>> U=ones(10,1);

>> L=U;

>> errorbar(r1,r2,L,U,\'+\')

Lsline 绘制最小二乘拟合线

功能:绘制数据的最小二乘拟合曲线

格式:lsline

h=lsline

说明:lsline为当前坐 标系中的每一个线性数据给出其最小二乘拟合线.

>> y=[2 3.4 5.6 8 11 12.3 13.8 16 18.8 19.9]\';

>> plot(y,\'+\')

>> lsline

Refcurve 参考多项式

功 能:在当前图形中给出多项式拟合曲线

格式:h=refcurve(p)

说明:在当前图形中给出多项式p(系数向量)的曲线,n阶多项式为

y=p1*x^n+p2*x^(n-1)+…+pn*x+p0

则p=[p1 p2 … pn p0]

>> h=[85 162 230 289 339 381 413 437 452 458 456 440 400 356];

>> plot(h,\'+\')

>> refcurve([-4.9,100,0])

关闭

幻灯播放