CS70 Disc 11B

1 Probabilistic Bounds

一个随机变量 $ X $ 的方差 $ (X) = 9 $,期望 $ E[X] = 2 \(。此外,\) X $ 的值永远不大于 10。根据这些信息,下面给出每个陈述的证明或反例。

(a) $ E[X^2] = 13 $

证明: 根据方差的定义: $ (X) = E[X^2] - E[X]^2 $ 将已知数值代入: $ 9 = E[X^2] - 2^2 $ 因此: $ E[X^2] = 9 + 4 = 13 $

(b) $ P[X = 2] > 0 $

反例: 随机变量并不一定会取到其均值 2。构造一个满足题目条件但不取值为 2 的随机变量 $ X $。

举个简单的例子,构造一个随机变量 $ X $,它仅取两个值 $ a $ 和 $ b $,且 $ P[X = a] = P[X = b] = $,其中 $ a b $ 且 $ a, b \(。我们可以得到期望:\) + = 2 a + b = 4 $ 方差为 9,所以: $ E[X^2] = 13 + = 13 a^2 + b^2 = 26 $ 由此可得方程组: $ \[\begin{cases} a + b = 4 \\ a^2 + b^2 = 26 \end{cases}\]

$ 解得: $ P[X = -1] = P[X = 5] = $ 这是一个反例,表明 $ P[X = 2] $ 不一定大于 0。

(c) $ P[X ] = P[X ] $

反例: 随机变量的中位数不一定等于均值,除非是对称分布。构造一个随机变量 $ X $,满足题目条件但 $ P[X < 2] $ 与 $ P[X > 2] $ 的概率不相等。

我们可以使用与 (b) 类似的构造方式。假设: $ P[X = a] = p, P[X = b] = 1 - p $ 期望为: $ p a + (1 - p) b = 2 $ 方差为: $ E[X^2] = 13 p a^2 + (1 - p) b^2 = 13 $ 我们可以解出 $ b $ 和 $ a $ 的关系,得到 $ b = 2 $ 其中 $ x = $。通过选择合适的 $ x $ 的值,使得 $ a, b $ 且 $ p \(,得到一个反例,比如:\) P[X = -7] = , P[X = 3] = $

(d) $ P[X ] $

证明: 设 $ Y = 10 - X $。由于 $ X $ 的值永远不超过 10,$ Y $ 是非负随机变量。根据马克洛夫不等式: $ P[10 - X a] = P[Y a] = = $ 令 $ a = 9 \(,则:\) P[X ] = P[10 - X ] $

(e) $ P[X ] $

证明: 根据切比雪夫不等式: $ P[|X - E[X]| a] $ 设 $ a = 4 \(,则:\) P[|X - 2| ] $ 注意到 $ P[X ] P[|X - 2| ] \(,所以:\) P[X ] $

总结

    1. 真实
    1. 真实
    1. 真实

2 Vegas

背景

在维加斯星球上,每个人都有一枚硬币。许多人诚实地携带一枚公平的硬币(正面一面,反面一面),但有一个比例 $ p $ 的人作弊,携带两面都是正面的伪币。我们的目标是通过实验估计这个比例 $ p $。

问题与解决方案

(a) 求 $ E[X] $

定义 $ X $ 为抛硬币时正面的比例。我们用 $ X_i $ 表示第 $ i $ 个人抛出正面的指示变量,定义为:

$ X_i = \[\begin{cases} 1 & \text{如果第 } i \text{ 个人的硬币抛出正面} \\ 0 & \text{如果第 } i \text{ 个人的硬币抛出反面} \end{cases}\]

$

则总的正面比例可以表示为:

$ X = _{i=1}^{n} X_i $

根据线性期望的性质,我们有:

$ E[X] = _{i=1}^{n} E[X_i] = E[X_i] $

接下来,使用全概率公式计算 $ E[X_i] $:

$ E[X_i] = p + (1 - p) = (p + 1) $

因此,

$ E[X] = (p + 1) $

(b) 估计 $ p $

我们需要构建一个无偏估计量 $ $,使得 $ E[] = p $。从(a)中的结果可得:

$ E[X] = (p + 1) $

将 $ p $ 表达为 $ X $ 的函数:

$ p = 2E[X] - 1 = E[2X - 1] $

因此,我们可以选择 $ $ 为:

$ = 2X - 1 $

(c) 估计所需样本人数

我们希望找到样本数量 $ n $,使得 $ P[| - p| ] > 0.95 $。这可以等价于要求:

$ P[| - p| > 0.05] $

注意到 $ E[] = p $,我们可以应用切比雪夫不等式:

$ P[| - p| > 0.05] $

我们需要 $ Var[] ^2 $,即:

$ Var[] = Var[2X - 1] = 4Var(X) = 4Var( {i=1}^{n} X_i) = 4 Var({i=1}^{n} X_i) $

由于 $ X_i $ 是伯努利随机变量,其方差为:

$ Var[X_i] = p(1 - p) $

可以证明 $ p(1 - p) $ 最大值为 $ $(当 $ p = $ 时达到最大)。所以,

$ Var[X] $

因此,

$ Var[] = $

要求:

$ ^2 n = 400 $

为了确保在95%置信水平下,我们需要计算:

$ 0.05^2 = 0.0025 n = 4000 $

结论

综上所述:

  1. $ E[X] = (p + 1) $
  2. $ = 2X - 1 $
  3. 需要询问至少4000人,以确保估计的准确性在0.05以内,置信度达到95%。

3 Working with the Law of Large Numbers

大数法则的基本概念

大数法则(Law of Large Numbers, LLN)指出,当进行大量独立重复实验时,样本均值会趋近于总体均值。简单来说,随着实验次数的增加,样本结果的平均值将更接近于真实概率。

问题分析

对于以下问题,我们将分析在抛硬币的情况下,选择10次抛掷还是100次抛掷的利弊。

(a) 超过60%正面

  • 问题:如果抛硬币多次,赢得奖金的条件是正面朝上的比例超过60%。你更倾向于选择10次抛掷还是100次抛掷?
  • 选择:10次抛掷
  • 解释:根据大数法则,样本均值随着抛掷次数的增加更接近于总体均值(0.5)。因此,在100次抛掷的情况下,得到超过60%正面的概率会更低,因为样本均值会更加稳定并更靠近0.5。

(b) 超过40%正面

  • 问题:如果抛硬币多次,赢得奖金的条件是正面朝上的比例超过40%。你更倾向于选择10次抛掷还是100次抛掷?
  • 选择:100次抛掷
  • 解释:同样,根据大数法则,100次抛掷时,样本均值更可能接近0.5,这降低了得到小于40%正面的概率。因此,100次抛掷更有利于赢得奖金。

(c) 在40%到60%之间

  • 问题:如果抛硬币多次,赢得奖金的条件是正面朝上的比例在40%到60%之间。你更倾向于选择10次抛掷还是100次抛掷?
  • 选择:100次抛掷
  • 解释:在100次抛掷的情况下,样本均值更可能接近0.5,因此获得40%到60%之间的正面概率较高。而在10次抛掷的情况下,由于样本量小,结果波动较大,获得这个区间的概率较低。

(d) 正好50%正面

  • 问题:如果抛硬币多次,赢得奖金的条件是正面朝上的比例恰好为50%。你更倾向于选择10次抛掷还是100次抛掷?
  • 选择:10次抛掷
  • 解释:在抛掷次数较少的情况下(如10次),恰好获得50%正面的概率较高。随着抛掷次数的增加,获得完全相同的正反面比例变得更加困难。例如,在2次抛掷中,1次正面和1次反面的概率为50%,但在100次抛掷中,正好50次正面和50次反面的概率会显著下降。

概率计算与比较

为了更深入理解,可以比较2n次和2n+2次抛掷中获得相等正反面次数的概率。

  • P[n heads in 2n tosses]: $ P[n 2n ] = ()^{2n} $

  • P[n+1 heads in 2n+2 tosses]: $ P[n+1 2n+2 ] = ()^{2n+2} $

利用这些概率,我们可以得出结论:随着抛掷次数的增加,获得精确的正面和反面数量变得更加困难。