概率分布是指在随机试验中,随机变量取不同值的概率分布情况。概率分布描述了不同结果发生的可能性,可以是离散型(如掷骰子)或连续型(如人的身高)。不同的概率分布模型用来描述自然现象、统计数据或不确定性系统,广泛应用于统计学、数据科学、机器学习、金融、物理和工程等领域。
✍️提及
C++和R穿刺针吸活检肿瘤算法模型模拟和进化动力学量化差异模型
MATLAB生物细胞瞬态滞后随机建模定量分析
一、常见的离散概率分布
- 伯努利分布(Bernoulli Distribution)
- 用于描述一次只有两个可能结果的随机实验,常见于0-1事件(如投硬币正反面)。
- 参数: $p$ 为事件发生的概率。
- 概率质量函数(PMF):
$P(X = x) = p^x (1 - p)^{1 - x}, \quad x \in \{0, 1\}$
- 二项分布(Binomial Distribution)
- 描述 $n$ 次独立的伯努利试验中,事件发生 $k$ 次的概率,如多次投硬币的正面次数。
- 参数: $n$ 为实验次数, $p$ 为事件发生的概率。
- PMF:
$P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k}, \quad k = 0, 1, \dots, n$
- 几何分布(Geometric Distribution)
- 描述第一次成功前的失败次数,即直到第一次成功的试验次数。
- 参数: $p$ 为成功的概率。
- PMF:
$P(X = k) = (1 - p)^k p, \quad k = 0, 1, 2, \dots$
- 泊松分布(Poisson Distribution)
- 描述单位时间或空间内发生某事件的次数(如顾客到达、网络请求数等),适用于稀疏事件。
- 参数:\( \lambda \) 为事件平均发生率。
- PMF:
$P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k = 0, 1, 2, \dots$
二、常见的连续概率分布
- 均匀分布(Uniform Distribution)
- 每个值在指定范围内发生的概率相同,常用于随机选择。
- 参数:区间 $[a, b]$ 。
- 概率密度函数(PDF):
$f(x) = \frac{1}{b - a}, \quad x \in [a, b]$
- 正态分布(Normal Distribution)
- 描述许多自然现象,具有“钟形曲线”形状,如身高、体重等。
- 参数: $\mu$ 为均值, $\sigma$ 为标准差。
- PDF:
$f(x) = \frac{1}{\sqrt{2 \pi \sigma^2}} e^{-\frac{(x - \mu)^2}{2 \sigma^2}}$
- 指数分布(Exponential Distribution)
- 描述独立事件之间的时间间隔,常用于生存分析和排队论。
- 参数: $\lambda$ 为事件发生率。
- PDF:
$f(x) = \lambda e^{-\lambda x}, \quad x \geq 0$
- 伽玛分布(Gamma Distribution)
- 用于描述等待时间和生存时间的总和。
- 参数:形状参数 $k$ 和尺度参数 $\theta$ 。
- PDF:
$f(x) = \frac{x^{k-1} e^{-x / \theta}}{\theta^k \Gamma(k)}, \quad x > 0$
- 卡方分布(Chi-Squared Distribution)
- 用于假设检验和方差分析,是多个独立正态分布随机变量平方和的分布。
- 参数:自由度 $k$ 。
- PDF:
$f(x) = \frac{x^{(k/2 - 1)} e^{-x/2}}{2^{k/2} \Gamma(k/2)}, \quad x > 0$
- t分布(Student's t-Distribution)
- 用于小样本数据的均值估计,其形状取决于自由度。
- 参数:自由度 $\nu$ 。
- PDF较为复杂,形状类似正态分布,但尾部更厚。
三、概率分布的应用场景
- 伯努利和二项分布:应用于成功/失败的实验,如问卷调查中的回答结果。
- 泊松分布:用于到达过程和事件发生的次数建模,如电话中心的呼叫数、医院的病人到达。
- 正态分布:用于分析连续型变量,如人的身高、考试成绩,在统计学和机器学习中尤为重要。