docs/math/probability/random-variable.md
给定概率空间 $(\Omega, \mathcal{F}, P)$,定义在样本空间 $\Omega$ 上的函数 $X : \Omega \to \mathbb{R}$ 若满足:对任意 $t \in \mathbb{R}$ 都有
$$ { \omega \in \Omega : X(\omega) \le t } \in \mathcal{F} $$
则称 $X$ 为 随机变量.
对于样本空间 $\Omega$ 上的事件 $A$,定义随机变量
$$ I_A(\omega) = \begin{cases} 1, & \omega \in A \ 0, & \omega \notin A \end{cases} $$
称 $I_A$ 是事件 $A$ 的 示性函数.
对于随机变量 $X$,称函数
$$ F(x) = P( X \leq x ) $$
为随机变量 $X$ 的 分布函数.记作 $X \sim F(x)$.
分布函数具有以下性质:
同时我们可以证明,满足上述要求的函数都是某个随机变量的分布函数.因此,分布函数与随机变量之间一一对应.
随机变量按其值域(根据定义,随机变量是一个函数)是否可数分为 离散型 和 连续型 两种.
设 $X$ 为离散型随机变量,其所有可能的取值为 $x_1, x_2, \cdots$,则我们可以用一系列形如 $P{ X = x_i } = p_i$ 的等式来描述 $X$.这就是我们在高中课本中学过的 分布列.
设 $X$ 为连续型随机变量,考察 $P{ X = x }$ 往往是无意义的(因为这一概率很可能是 $0$).
??? note "为什么说概率「很可能」是 $0$" 考虑这样的随机变量 $X$:它以 $\frac{1}{2}$ 的概率取 $0$,以 $\frac{1}{2}$ 的概率服从开区间 $(0, 1)$ 上的均匀分布.显然 $X$ 满足连续型随机变量的定义.
对任何实数 $r \in (0, 1)$,不难得到 $P\{ X = r \} = 0$,但同时有 $P\{ X = 0 \} = \frac{1}{2}$.
另一方面,设 $X \sim F(x)$,则
$$ P( l < x \leq l + \Delta x ) = F(l + \Delta x) - F(l) $$
一个自然的想法是用极限 $\lim\limits_{\Delta x \to 0^+} \frac{F(l + \Delta x) - F(l)}{\Delta x}$ 来描述 $X$ 取值为 $l$ 的可能性.
这个式子就是我们熟知的导数,于是问题转化为寻找一个非负函数 $f(x)$ 使得
$$ F(x) = \int_{-\infty}^{x} f(x) \text{d} x $$
若这样的 $f(x)$ 存在,则称之为 $X$ 的 密度函数.
前面讨论了随机事件的独立性.由于随机变量和随机事件紧密联系,我们还可以类似地给出随机变量独立性的定义.
若随机变量 $X, Y$ 满足对任意的 $x, y \in \mathbb{R}$ 都有
$$ P( X \leq x, Y \leq y ) = P( X \leq x ) P( Y \leq y ) $$
则称随机变量 $X, Y$ 独立.
??? note "Note" 有些同学也许会注意到,中学课本中对随机变量独立性的定义是用形如 $P(X = \alpha)$ 的概率定义的,但由于连续性随机变量取特定值的概率通常是 $0$,故在更一般的情形下借助分布函数定义才是更加明智的选择.
若随机变量 $X$,$Y$ 相互独立,则对于任意函数 $f, g$,随机变量 $f(X)$ 与 $g(Y)$ 相互独立.
??? warning "注意" 有时候我们会研究相互独立的随机变量 $X$,$Y$ 的某一函数 $f(X, Y)$(如 $XY^2$)的分布.
尽管 $X$ 与 $Y$ 是独立的,但不能想当然地认为对 $Y$ 的某一取值 $y$,$f(X, y)$ 与 $f(X, Y)$ 服从同样的分布.