【概率论】联合分布
联合分布
部分公式是自己推导的,有不对的地方请说出来 QAQ
离散随机变量
假设
X
X
X 和
Y
Y
Y 是定义在同一样本空间上的离散随机变量,它们的联合频率函数是
p
(
x
i
,
y
i
)
=
P
(
X
=
x
i
,
Y
=
y
i
)
p(x_i, y_i) = P(X=x_i, Y = y_i)
p(xi,yi)=P(X=xi,Y=yi)。
P
X
(
x
)
=
∑
i
p
(
x
,
y
i
)
P_X(x) = \sum_i p(x, y_i)
PX(x)=∑ip(x,yi) 为
X
X
X 的边际频率函数,
P
Y
P_Y
PY 的定义类似。
连续随机变量
假设
X
X
X 和
Y
Y
Y 是具有累积分布函数
F
(
x
,
y
)
F(x, y)
F(x,y) 的连续型随机变量,它们的联合密度函数是两变量的分段连续函数。
F
(
x
,
y
)
=
∫
−
∞
x
∫
−
∞
y
f
(
u
,
v
)
d
v
d
u
F(x, y) = \int_{-\infty}^x \int_{-\infty}^y f(u, v)dvdu
F(x,y)=∫−∞x∫−∞yf(u,v)dvdu。
那么在导数定义存在的情况下,
f
(
x
,
y
)
=
∂
2
∂
x
∂
y
F
(
x
,
y
)
f(x, y) = \frac{\partial^2}{\partial x \partial y} F(x, y)
f(x,y)=∂x∂y∂2F(x,y)。
(
X
,
Y
)
(X, Y)
(X,Y) 落入
(
x
,
y
)
(x, y)
(x,y) 的较小邻域概率与
f
(
x
,
y
)
f(x, y)
f(x,y) 成比例:
P
(
x
≤
X
≤
x
+
d
x
,
y
≤
Y
≤
y
+
d
y
)
=
f
(
x
,
y
)
d
x
d
y
P(x\leq X \leq x+dx, y\leq Y \leq y+dy)=f(x, y)dxdy
P(x≤X≤x+dx,y≤Y≤y+dy)=f(x,y)dxdy。
X
X
X 的边际累积分布函数:
F
X
(
x
)
=
P
(
X
≤
x
)
=
∫
−
∞
x
∫
−
∞
+
∞
f
(
u
,
y
)
d
y
d
u
F_X(x) = P(X\leq x) = \int_{-\infty}^x \int_{-\infty}^{+\infty}f(u, y)dydu
FX(x)=P(X≤x)=∫−∞x∫−∞+∞f(u,y)dydu。
X
X
X 的边际密度函数为:
f
X
(
x
)
=
F
X
′
(
x
)
=
∫
−
∞
+
∞
f
(
x
,
y
)
d
y
f_X(x) = F_X'(x) = \int_{-\infty}^{+\infty}f(x, y)dy
fX(x)=FX′(x)=∫−∞+∞f(x,y)dy。
独立随机变量
定义
随机变量
X
1
,
…
,
X
n
X_1,\dots,X_n
X1,…,Xn 称为独立的,如果
∀
x
i
\forall x_i
∀xi,它们联合累积分布函数可分解成各自边际累积分布函数之积
F
(
x
1
,
…
,
x
n
)
=
∏
F
(
X
i
)
F(x_1,\dots,x_n) = \prod F(X_i)
F(x1,…,xn)=∏F(Xi),该定义对离散型和连续型随机变量都是成立的。
对于离散型随机变量,等价的叙述为:分解联合频率函数。
对于连续型随机变量,等价的叙述为:分解联合密度函数。
条件分布
离散情形
如果
X
X
X 和
Y
Y
Y 是离散随机变量,给定
Y
=
y
j
Y=y_j
Y=yj 的情况下
X
=
x
i
X=x_i
X=xi 的条件概率是:如果
p
Y
(
y
j
)
>
0
p_Y(y_j)>0
pY(yj)>0,那么
P
(
X
=
x
i
∣
Y
=
y
j
)
=
P
(
X
=
x
i
,
Y
=
y
j
)
P
(
Y
=
y
i
)
=
p
X
Y
(
x
i
,
y
j
)
p
Y
(
y
j
)
P(X=x_i|Y=y_j) = \frac{P(X=x_i, Y=y_j)}{P(Y=y_i)} = \frac{p_{XY}(x_i, y_j)}{p_Y(y_j)}
P(X=xi∣Y=yj)=P(Y=yi)P(X=xi,Y=yj)=pY(yj)pXY(xi,yj) 也可以重新表述为:
p
X
Y
(
x
,
y
)
=
p
X
∣
Y
(
x
∣
y
)
p
Y
(
y
)
p_{XY}(x, y) = p_{X|Y}(x|y)p_Y(y)
pXY(x,y)=pX∣Y(x∣y)pY(y)
连续情形
如果
f
Y
(
y
)
>
0
f_Y(y)>0
fY(y)>0,那么
f
X
Y
(
x
,
y
)
=
f
X
∣
Y
(
x
∣
y
)
f
Y
(
y
)
f_{XY}(x, y) = f_{X|Y}(x|y)f_Y(y)
fXY(x,y)=fX∣Y(x∣y)fY(y) 否则为
0
0
0。
联合分布随机变量函数
首先考虑一些重要的特殊情形:
和与商
和
对于离散形式,设
X
,
Y
X,Y
X,Y 为离散型随机变量,具有联合频率函数
p
(
x
,
y
)
p(x, y)
p(x,y),令
Z
=
X
+
Y
Z = X+Y
Z=X+Y,那么
Z
Z
Z 的频率函数为:
p
Z
(
z
)
=
∑
i
=
−
∞
∞
p
(
x
,
z
−
x
)
p_Z(z) = \sum_{i=-\infty}^\infty p(x, z-x)
pZ(z)=i=−∞∑∞p(x,z−x) 这个和称为序列
p
X
,
p
Y
p_X,p_Y
pX,pY 的卷积。
对于连续形式,设
X
,
Y
X,Y
X,Y 为连续型随机变量,我们首先计算
Z
=
X
+
Y
Z=X+Y
Z=X+Y 的累积分布函数
F
Z
F_Z
FZ。 KaTeX parse error: Undefined control sequence: \ce at position 108: …(x, y)dydx \\ &\̲c̲e̲{\overset{v=x+y…
∫
−
∞
+
∞
f
(
x
,
v
−
x
)
d
x
\int_{-\infty}^{+\infty} f(x, v-x)dx
∫−∞+∞f(x,v−x)dx 可以看作是
g
(
v
)
g(v)
g(v)(关于
v
v
v 的函数)。
那么
f
Z
(
z
)
=
∫
−
∞
+
∞
f
(
x
,
z
−
x
)
d
x
f_Z(z) = \int_{-\infty}^{+\infty} f(x, z-x)dx
fZ(z)=∫−∞+∞f(x,z−x)dx。
如果
X
,
Y
X,Y
X,Y 独立,那么
f
Z
(
z
)
=
∫
−
∞
+
∞
f
X
(
x
)
f
Y
(
z
−
x
)
d
x
f_Z(z) = \int_{-\infty}^{+\infty} f_X(x) f_Y(z-x)dx
fZ(z)=∫−∞+∞fX(x)fY(z−x)dx
商
下考虑两个随机变量的商。
Z
=
Y
/
X
Z = Y/X
Z=Y/X,推导的方式类似于上述和的推导方式可以得到结果,这里采取另一种方法:利用二重积分的变量替换。
令:
{
u
=
y
/
x
v
=
x
\begin{cases} u = y/x\\ v=x \end{cases}
{u=y/xv=x 那么有:
F
Z
(
z
)
=
∫
−
∞
z
∫
−
∞
+
∞
f
(
v
,
u
v
)
∣
J
∣
d
v
d
u
F_Z(z) = \int_{-\infty}^{z} \int_{-\infty}^{+\infty} f(v, uv)|J|dvdu
FZ(z)=∫−∞z∫−∞+∞f(v,uv)∣J∣dvdu
其中
J
=
∂
(
x
,
y
)
∂
(
u
,
v
)
J = \frac{\partial (x, y)}{\partial (u, v)}
J=∂(u,v)∂(x,y),这里的
∣
J
∣
|J|
∣J∣ 是
J
J
J 的绝对值。
化简即可得到
F
Z
(
z
)
=
∫
−
∞
z
∫
−
∞
+
∞
∣
x
∣
f
(
x
,
x
v
)
d
x
d
v
F_Z(z) = \int_{-\infty}^{z} \int_{-\infty}^{+\infty} |x|f(x, xv)dxdv
FZ(z)=∫−∞z∫−∞+∞∣x∣f(x,xv)dxdv
因此
f
Z
(
z
)
=
∫
−
∞
+
∞
∣
x
∣
f
(
x
,
x
z
)
d
x
f_Z(z) = \int_{-\infty}^{+\infty} |x|f(x, xz)dx
fZ(z)=∫−∞+∞∣x∣f(x,xz)dx
如果
X
,
Y
X,Y
X,Y 独立,
f
Z
(
z
)
=
∫
−
∞
+
∞
∣
x
∣
f
X
(
x
)
f
Y
(
x
z
)
d
x
f_Z(z) = \int_{-\infty}^{+\infty} |x|f_X(x) f_Y(xz)dx
fZ(z)=∫−∞+∞∣x∣fX(x)fY(xz)dx。
一般情形
利用类似于上面使用雅可比行列式求随机变量的商的方法,我们可以得到多个随机变量函数的一般情形。
假设
X
,
Y
X,Y
X,Y 是连续型随机变量,通过
g
1
,
g
2
g_1,g_2
g1,g2 投影到
U
,
V
U,V
U,V 上:
u
=
g
1
(
x
,
y
)
,
v
=
g
2
(
x
,
y
)
u=g_1(x, y),v=g_2(x, y)
u=g1(x,y),v=g2(x,y)。
同时存在逆变换
x
=
h
1
(
u
,
v
)
,
y
=
h
2
(
u
,
v
)
x=h_1(u, v),y=h_2(u, v)
x=h1(u,v),y=h2(u,v),那么有
f
U
V
(
u
,
v
)
=
f
X
Y
(
h
1
(
u
,
v
)
,
h
2
(
u
,
v
)
)
∣
J
−
1
(
h
1
(
u
,
v
)
,
h
2
(
u
,
v
)
)
∣
f_{UV}(u, v) = f_{XY}(h_1(u,v),h_2(u,v))|J^{-1}(h_1(u, v), h_2(u, v))|
fUV(u,v)=fXY(h1(u,v),h2(u,v))∣J−1(h1(u,v),h2(u,v))∣
不难注意到这个公式和一维公式的形式是非常接近的。
极值与顺序统计量
假设
X
1
,
…
,
X
n
X_1,\dots,X_n
X1,…,Xn 是具有密度
f
(
x
)
f(x)
f(x) 的独立连续型随机变量,对
X
i
X_i
Xi 排序,记
X
(
1
)
<
⋯
<
X
(
n
)
X_{(1)}<\dots X(1)<⋯ X ( k ) X_{(k)} X(k) 的密度函数 f k ( x ) f_{k}(x) fk(x)。 用先求分布函数然后微分的方法比较复杂。 因为分布函数为 F k ( x ) = ∑ i = k n C n i [ F ( x ) ] i [ 1 − F ( x ) ] n − i F_k(x) = \sum_{i=k}^n C_n^i[F(x)]^i[1-F(x)]^{n-i} Fk(x)=∑i=knCni[F(x)]i[1−F(x)]n−i。 然后接下来我不会化了 注意到事件(已排列好) x ≤ X ( k ) ≤ x + d x x\leq X_{(k)} \leq x+dx x≤X(k)≤x+dx 发生的概率为: [ F ( x ) ] k − 1 [ 1 − F ( x ) ] n − k f ( x ) d x [F(x)]^{k-1}[1-F(x)]^{n-k}f(x)dx [F(x)]k−1[1−F(x)]n−kf(x)dx 因此密度函数为: f k ( x ) = C n k − 1 C n − ( k − 1 ) 1 [ F ( x ) ] k − 1 [ 1 − F ( x ) ] n − k f ( x ) = n ! ( k − 1 ) ! ( n − k ) ! [ F ( x ) ] k − 1 [ 1 − F ( x ) ] n − k f ( x ) \begin{aligned} f_k(x) &= C_n^{k-1}C_{n-(k-1)}^1[F(x)]^{k-1}[1-F(x)]^{n-k}f(x)\\ &= \frac{n!}{(k-1)!(n-k)!}[F(x)]^{k-1}[1-F(x)]^{n-k}f(x) \end{aligned} fk(x)=Cnk−1Cn−(k−1)1[F(x)]k−1[1−F(x)]n−kf(x)=(k−1)!(n−k)!n![F(x)]k−1[1−F(x)]n−kf(x) 至于极值(极大值、极小值)的密度函数便分别为上式 k = n , 1 k=n,1 k=n,1 的结果。