技术文章

电气工程正态分布概论

2020年8月3日,通过罗伯特Keim

本文涵盖了一个基本统计分布的重要特征，并解释了一个概率密度函数的重要性。

本文是我们关于电气工程中的统计的系列文章的继续。前两篇文章为我们的讨论奠定了基础统计分析和描述性统计。

然后我们深入研究信号处理中的平均偏差、标准偏差和方差-特别注意计算标准差时的样本量补偿。在上一篇文章中，我们进一步推断了通过探讨标准差与均方根值的关系来理解标准差。

在本文中，我们将介绍正态分布在电气工程中的地位，特别是在评估概率密度函数中的地位。

什么是正态分布?

If you repeatedly measure a quantity that varies more or less randomly—voltage levels in a noise signal, actual resistance values of 47 kΩ resistors, test scores in an engineering class, lengths of the blades of grass in a lawn, and so forth—it’s likely that the distribution of values will, as you accumulate more and more data, gradually resemble the shape shown below.

描绘正常或高斯分布的直方图。

这叫做正常的或高斯分布。它遵循我们熟悉的钟形曲线形状，但重要的是要使用“正态”或“高斯”而不是“钟形曲线”，因为其他类型的分布也有类似的形状。工程、物理科学和社会科学中研究的许多现象在统计分析时会产生正态分布。

正态分布的特征

正常分布是一种数学上定义的关系，描述了数据集中的值，并且实际测量近似于样本大小的关系。让我们来看看正态分布的一些重要特征。

通过绘制函数\（e ^ { - x ^ 2}）产生分布的一般形状。
一个给定的正态分布的特定形状完全由均值和标准偏差来定义。换句话说，如果您知道一个正态分布数据集的均值和标准差，您就可以绘制直方图的形状。
平均值决定了曲线中心的位置，而标准偏差决定了它的表观宽度。在上面的分布中，均值为0，标准差为5。
虽然理论上高斯曲线延伸到正无穷和负无穷，但当数值高于或低于均值约3个标准差时，期望出现的次数变得非常小。

直方图和概率密度函数

如果我们为正常分布遵循的变量收集大量数据，我们可以将这些数据呈现为直方图，它将具有高斯曲线形状。另一方面，如果我们知道数据的均值和标准偏差，我们可以绘制与我们的经验观察相对应的概率密度函数。

为此，我们使用以下公式:

\ [P (x) = \压裂{1}{\ sqrt{2π\}\σ}e ^{\压裂{- (x - \μ)^ 2}{2 \σ^ 2}}\]

其中μ是均值和σ是标准偏差。

这是均值为0，标准差为5的正态分布变量的概率密度函数图。

正态分布变量的plot密度函数。这里均值是0，标准差是5。

解释概率密度函数

通过计算给定区间内的P(x)曲线下的面积(例如，从-3到+3)，我们确定随机选择的测量值将落在这个区间内的概率。

出于实际目的，我们还可以将P（x）解释为随机选择的测量大致等于某个值的可能性。

例如，假设上面所示的概率密度函数对应于我们通过测量传感器信号的电压（以毫伏）而产生的直方图。所有值都舍入到最近的毫伏。平均值为0 V，标准偏差为5 mV。

我们使用上面给出的公式计算高斯P（x），并且我们绘制了p（x）以产生曲线，该曲线是测量传感器电压分布的连续数学表示。现在，我们查看绘图，并看出6 mV的值对应于p（x）= 0.04，这表明随机选择的电压测量值大约为6 mV。

我发现以这种方式思考概率密度函数有助于，但请记住，从严格的数学角度来看，这种解释是不正确的。概率密度函数是连续的，因此，概率是非零的只在一个间隔，不是沿水平轴的一个精确值。

概率密度函数的标准化

所有的概率密度函数都归一化，使曲线下的总面积为1。

这是有意义的:整个曲线下的面积为我们提供了随机选择的测量值落在与整个曲线对应的区间内的概率。因为这个值有100%的可能是的某个地方在这个区间内，对P(x)积分的结果必须是1。

Because of this normalization, if we plot P(x) and the histogram on the same axes, they won’t coincide: P(x) extends only from 0 to 0.08 on the vertical axis, whereas the histogram extends from 0 to 8000 (because it was generated using 100,000 data points).

但是，如果我将p（x）乘以100,000并且包括直方图图中的结果曲线，则可以看到高斯概率密度函数数学地捕获测量的分布。

当我们将P(x)乘以100,000并在直方图中包含结果曲线时，高斯概率密度函数。

当我们将P（x）乘以100,000并且包括直方图图中的结果曲线时，高斯概率密度函数函数函数函数函数函数。

结论

我希望你曾享有这篇文章，并介绍了具有良好的实际和理论考虑的正态分布。我们将继续讨论下一篇文章中的正态分布。