probability space¶

\(\sigma\) field¶

\(\sigma\) field 的引入，实际上是为了让我们能够描述出我们可以“测量”出来的信息。比如我们考虑一个一厘米长的线段，你有一把尺子，总共也只有一厘米长，但是中间的刻度将其划分为十等分，用这把尺子对准线段的两头，我们会发现线段被这些刻度平均划分为十等分（注意这是我们目前仅有的测量工具）。那么对于线段上的任意一点（我们先不考虑恰好落在刻度上的点），我们对他最精确的位置描述应该是“他落在了这十等分中的第i段”，也就说这是我们知道的所有也是最精确的信息了。当然，我们还可以说出相对于上面这个描述而言更加不精确的描述，比如我们观测到某个点落在第2等分，那我们说这个点落在第2段和第3段的并是完全没有问题的。由此我们自然引入下面的\(\sigma\) field

我们这时候将整个线段视为全集，然后十等分中的每一份都是全集的一个子集。我们依赖于这个全集以及我们现有的子集（十等分）得到的\(\sigma\) field（本质上是个集合）当且仅当他符合以下条件：

全集和空集在这个\(\sigma\) field内
如果集合A（比如十等分中的某一份）在这个\(\sigma\) field内，那么集合A的补集（也就是整根线段中不包含那一份的东西）也在这个\(\sigma\) field内
对于任何可数个落在这个\(\sigma\) field内的全集的子集（这个例子中就是那十等分），我们都要求他们的并落在这个\(\sigma\) field内。

当然根据de-morgan以及其他一些性质，我们还可以推导出可数个集合的并也落在这个\(\sigma\) field中，还有任意两个集合的差也落在\(\sigma\) field中。

generated \(\sigma\) field¶

对于我们上面提到的例子，我们发现整个\(\sigma\) field实际上是由我们定义的全集的十个子集generate出来的。如果更严格的讲，我们应该说包含这些子集的最小的\(\sigma\) field就是这些子集的generated \(\sigma\) field。这些子集被称为atom(s)，也就是最小不可分的单元，或者是我们知道最详细的信息。当然，上面我说的情况是离散状态下的。连续的情况实际上更加重要，例如对于一个闭区间I，我们定义这个I上所有的开区间生成的\(\sigma\) field为一个borel set，里面的元素分别是该闭区间的两个边界点，以及I内部所有的开区间。这里的定义还是比较难以理解的，边界点不是重要的内容，我们可以先不考虑，重要的是内部包含了所有落在原来闭区间I中的开区间，我们可以证明：

区间I中的所有单点都被包含在其中（可以用一系列的区间的交逼近那个单点），进而所有的I内部的闭区间也包含在其中（闭区间被分解成开区间和两个端点）
由于所有可数开区间序列的交落在其中，那么马上得出所有可数闭区间序列的并也落在其中
当然所有可数开区间序列的并落在其中

但是要注意，并非所有I中的子集都落在其中，这一点告诉我们，borel set要比区间I的幂集来的小一些。

还有一点，我们不难发现对于区间I的情况，他的atom应该是单点，但是borel set并非是被这些atoms生成出来的。

将一个闭区间推广到整个\(\mathbb{R}\)上，其borel set就是上面的所有的开区间

在推广到\(\mathbb{R^2}\)上，其borel set就是上面的所有开长方形

sub-\(\sigma\)-field¶

对于一个系统，我们用某种方式观测得到的\(\sigma\)-field和另外一种更精细的方式观察到的\(\sigma\)-field包含的信息量是不一样的。比如我们在一开始用的十等分一厘米尺子的例子中，如果把尺子换成二十等分，那么我们得到的信息就更多，并且会把原来十等分的度量信息全部包含住。这种情况下，我们就称用十等分得到的\(\sigma\)-field是二十等分的\(\sigma\)-field的一个sub-\(\sigma\)-field，在数学上很容易验证，如果一个事件集属于十等分的\(\sigma\)-field，那么这个事件集必然属于二十等分的\(\sigma\)-field

random variables¶

从经典概率论到高等概率论，一个很重要的转变就是关于随机变量的看法。在经典概率论中，我们常常把随机变量看做一个根据一定概率分布得到的取值，但是在以测度论为基础的概率论眼中看来，我们应当把他看做一个函数，他将样本空间中的元素映射到实数上。并且随机变量出现在其分布之前，而非知道了一个分布之后再产生这个随机变量。

随机变量的定义看起来比较复杂（事实上确实如此，我看了好久才大致看懂一点，没办法，只能多看多想）。对于一个定义域为样本空间（全集），值域是实数域的函数f，如果对于一个确定的集合B（这个B要求是R的borel set的任意一个元素），如果f关于这个集合B的原象的集合（我们通常会用符号\(f^{-1}(B)\)来表示）是属于一个预先设定好的\(\sigma\) filed的元素，那么我们就说这个函数f是关于这个样本空间以及该预先设定好的\(\sigma\) filed的一个随机变量。

由于对于任意的B这一点非常难验证，所以我们有等价的判定方法，具体看课程notes，因为这毕竟是一个判定方法罢了，并非有新的意义，所以此处不再赘述。

对于这个复杂的定义，我认为目前我能窥见的几点意义是：

我们的最终目的是研究样本空间中的一个事件发生的“概率”，尽管我们还没有定义，而事件可能是各种具象的事物，比如骰子的点数是1、2等，或者从一个箱子里摸出的水果是苹果、香蕉，所以我们将他们映射到实数域上，就跟编码一样哈哈哈，然后就容易分析了。（目前我还没学到测度，说不定学到测度之后就会想回来修改这一段）
另外一点，对于一个确定的值域，我们要求随机变量关于它的原象必须是可测的，（这里补充一下，对于一个\(\sigma\) filed，我们一般用记号\(\mathcal{F}\)来表示）或者说\(\mathcal{F}\)可测的，也就是落在\(\mathcal{F}\)中，根据上面所讲的意义，就是我们的信息足够描述的情况。否则如果超出了\(\mathcal{F}\)的范围，就意味着我们对这个随机变量的信息太少，无法分析，那么这种东西也就不存在意义了。

\(\sigma\) field generated by a collection of r.v.s¶

对于一个随机变量，我们希望能够描述他包含的所有信息，就像之前我们用\(\sigma\) field去描述可测的事件那样。对于一个随机变量X，我们定义他产生的\(\sigma\) field为整个样本空间中最小的能够让X可测的\(\sigma\) field。

这里有一点需要多想想的是，我们定义r.v.的时候，就已经依赖于整个样本空间\(\Omega\)以及某个\(\sigma\) field \(\mathcal{F}\)，但是我们由X生成的\(\sigma\) field(denoted by \(\sigma(X)\))不一定就是原来的X定义中\(\mathcal{F}\)。或者更直接的说，\(\sigma(X)\)被包含于原来的\(\mathcal{F}\)。以甩骰子为例，如果我们的可测集仅仅是骰子点数的奇偶：

\[ \mathcal{F} = \left\{\Omega, \emptyset, \left\{1,3,5\right\},\left\{2,4,6\right\}\right\} \]

但是，如果我们的随机变量将所有的事件都映射到1上（这符合定义），由他生成的\(\sigma(X)\)却是\(\left\{\Omega, \emptyset \right\}\)。

这样我们就完成了解释。

remark：关于随机变量的函数复合的问题在课程notes中已经解释的比较清晰，所以本notes中不再赘述