probability space¶
\(\sigma\) field¶
\(\sigma\) field 的引入,实际上是为了让我们能够描述出我们可以“测量”出来的信息。比如我们考虑一个一厘米长的线段,你有一把尺子,总共也只有一厘米长,但是中间的刻度将其划分为十等分,用这把尺子对准线段的两头,我们会发现线段被这些刻度平均划分为十等分(注意这是我们目前仅有的测量工具)。那么对于线段上的任意一点(我们先不考虑恰好落在刻度上的点),我们对他最精确的位置描述应该是“他落在了这十等分中的第i段”,也就说这是我们知道的所有也是最精确的信息了。当然,我们还可以说出相对于上面这个描述而言更加不精确的描述,比如我们观测到某个点落在第2等分,那我们说这个点落在第2段和第3段的并是完全没有问题的。由此我们自然引入下面的\(\sigma\) field
我们这时候将整个线段视为全集,然后十等分中的每一份都是全集的一个子集。我们依赖于这个全集以及我们现有的子集(十等分)得到的\(\sigma\) field(本质上是个集合)当且仅当他符合以下条件:
-
全集和空集在这个\(\sigma\) field内
-
如果集合A(比如十等分中的某一份)在这个\(\sigma\) field内,那么集合A的补集(也就是整根线段中不包含那一份的东西)也在这个\(\sigma\) field内
-
对于任何可数个落在这个\(\sigma\) field内的全集的子集(这个例子中就是那十等分),我们都要求他们的并落在这个\(\sigma\) field内。
当然根据de-morgan以及其他一些性质,我们还可以推导出可数个集合的并也落在这个\(\sigma\) field中,还有任意两个集合的差也落在\(\sigma\) field中。
generated \(\sigma\) field¶
对于我们上面提到的例子,我们发现整个\(\sigma\) field实际上是由我们定义的全集的十个子集generate出来的。如果更严格的讲,我们应该说包含这些子集的最小的\(\sigma\) field就是这些子集的generated \(\sigma\) field。这些子集被称为atom(s),也就是最小不可分的单元,或者是我们知道最详细的信息。 当然,上面我说的情况是离散状态下的。连续的情况实际上更加重要,例如对于一个闭区间I,我们定义这个I上所有的开区间生成的\(\sigma\) field为一个borel set,里面的元素分别是该闭区间的两个边界点,以及I内部所有的开区间。这里的定义还是比较难以理解的,边界点不是重要的内容,我们可以先不考虑,重要的是内部包含了所有落在原来闭区间I中的开区间,我们可以证明:
-
区间I中的所有单点都被包含在其中(可以用一系列的区间的交逼近那个单点),进而所有的I内部的闭区间也包含在其中(闭区间被分解成开区间和两个端点)
-
由于所有可数开区间序列的交落在其中,那么马上得出所有可数闭区间序列的并也落在其中
-
当然所有可数开区间序列的并落在其中
但是要注意,并非所有I中的子集都落在其中,这一点告诉我们,borel set要比区间I的幂集来的小一些。
还有一点,我们不难发现对于区间I的情况,他的atom应该是单点,但是borel set并非是被这些atoms生成出来的。
将一个闭区间推广到整个\(\mathbb{R}\)上,其borel set就是上面的所有的开区间
在推广到\(\mathbb{R^2}\)上,其borel set就是上面的所有开长方形
sub-\(\sigma\)-field¶
对于一个系统,我们用某种方式观测得到的\(\sigma\)-field和另外一种更精细的方式观察到的\(\sigma\)-field包含的信息量是不一样的。比如我们在一开始用的十等分一厘米尺子的例子中,如果把尺子换成二十等分,那么我们得到的信息就更多,并且会把原来十等分的度量信息全部包含住。这种情况下,我们就称用十等分得到的\(\sigma\)-field是二十等分的\(\sigma\)-field的一个sub-\(\sigma\)-field,在数学上很容易验证,如果一个事件集属于十等分的\(\sigma\)-field,那么这个事件集必然属于二十等分的\(\sigma\)-field
random variables¶
从经典概率论到高等概率论,一个很重要的转变就是关于随机变量的看法。在经典概率论中,我们常常把随机变量看做一个根据一定概率分布得到的取值,但是在以测度论为基础的概率论眼中看来,我们应当把他看做一个函数,他将样本空间中的元素映射到实数上。并且随机变量出现在其分布之前,而非知道了一个分布之后再产生这个随机变量。
随机变量的定义看起来比较复杂(事实上确实如此,我看了好久才大致看懂一点,没办法,只能多看多想)。对于一个定义域为样本空间(全集),值域是实数域的函数f,如果对于一个确定的集合B(这个B要求是R的borel set的任意一个元素),如果f关于这个集合B的原象的集合(我们通常会用符号\(f^{-1}(B)\)来表示)是属于一个预先设定好的\(\sigma\) filed的元素,那么我们就说这个函数f是关于这个样本空间以及该预先设定好的\(\sigma\) filed的一个随机变量。
由于对于任意的B这一点非常难验证,所以我们有等价的判定方法,具体看课程notes,因为这毕竟是一个判定方法罢了,并非有新的意义,所以此处不再赘述。
对于这个复杂的定义,我认为目前我能窥见的几点意义是:
-
我们的最终目的是研究样本空间中的一个事件发生的“概率”,尽管我们还没有定义,而事件可能是各种具象的事物,比如骰子的点数是1、2等,或者从一个箱子里摸出的水果是苹果、香蕉,所以我们将他们映射到实数域上,就跟编码一样哈哈哈,然后就容易分析了。(目前我还没学到测度,说不定学到测度之后就会想回来修改这一段)
-
另外一点,对于一个确定的值域,我们要求随机变量关于它的原象必须是可测的,(这里补充一下,对于一个\(\sigma\) filed,我们一般用记号\(\mathcal{F}\)来表示)或者说\(\mathcal{F}\)可测的,也就是落在\(\mathcal{F}\)中,根据上面所讲的意义,就是我们的信息足够描述的情况。否则如果超出了\(\mathcal{F}\)的范围,就意味着我们对这个随机变量的信息太少,无法分析,那么这种东西也就不存在意义了。
\(\sigma\) field generated by a collection of r.v.s¶
对于一个随机变量,我们希望能够描述他包含的所有信息,就像之前我们用\(\sigma\) field去描述可测的事件那样。对于一个随机变量X,我们定义他产生的\(\sigma\) field为整个样本空间中最小的能够让X可测的\(\sigma\) field。
这里有一点需要多想想的是,我们定义r.v.的时候,就已经依赖于整个样本空间\(\Omega\)以及某个\(\sigma\) field \(\mathcal{F}\),但是我们由X生成的\(\sigma\) field(denoted by \(\sigma(X)\))不一定就是原来的X定义中\(\mathcal{F}\)。或者更直接的说,\(\sigma(X)\)被包含于原来的\(\mathcal{F}\)。以甩骰子为例,如果我们的可测集仅仅是骰子点数的奇偶:
但是,如果我们的随机变量将所有的事件都映射到1上(这符合定义),由他生成的\(\sigma(X)\)却是\(\left\{\Omega, \emptyset \right\}\)。
这样我们就完成了解释。
remark:关于随机变量的函数复合的问题在课程notes中已经解释的比较清晰,所以本notes中不再赘述