2008年2月29日星期五

区间的随机划分

描述数学问题的时候,自然语言很容易有二义性。在叙述随机问题的时候,尤其是这样。比较著名的例子是Bertrand paradox。在一个空间上的某种分布,映射到另一个空间上以后就成了另一种分布。

昨天上课走神的时候,我想到了一个区间的随机划分问题。给定[0,1]区间,给定正整数n,现在要把[0,1]区间划分成n段,使得划分具有某种随机的特性。这不是随机划分的准确描述,我的问题恰恰就是,如何准确描述随机划分,以避免发生类似的Bertrand paradox?

根据直觉,我和同学给出了两种候选的随机划分方案,都是构造性的。
方案一:生成n-1个独立的,服从U[0,1]分布的随机变量x_1,...,x_(n-1),令他们的顺序统计量为y_1,...,y_(n-1),补充定义y_0=0,y_n=1,则{[y_i,y_(i+1)],i=0,...,n-1}是一个随机划分。
方案二:生成n个独立的,服从U[0,1]分布的随机变量x_1,...,x_n,记s为他们的和,令y_i=(x_1+...+x_i)/s,i=1,...,n,补充定义y_0=0,则{[y_i,y_(i+1)],i=0,...,n-1}是一个随机划分。

接下来,我们就要回答,这两种方案是否得到相同的随机划分?
要回答这个问题,我们首先要定义什么叫做两个随机划分方案等价。最直观的,可以定义为他们产生的分点的联合密度函数几乎处处相同。我们算了一下,对于n=2的情形,上述两种方案不等价。事实上,n=2时只有一个分点,也就是要比较两个一维随机变量的密度函数。方案一的结果显然是均匀分布,方案二粗略看来也应该是均匀的,很对称呀,但其实不然,老老实实计算x1/(x1+x2)的分布函数,发现结果真的不是均匀分布。

我们发现,虽然两种方案的得到的分点联合密度不同,但是可以算出来小区间长的期望都是1/n,而且每一种方案的小区间长都服从相同的分布,只不过两种方案的分布不同。受到这一点启发,我们给出了随机划分的一个准确定义(类似方案二):
如果非负数x1+...+xn=1,且x1,...,xn服从相同的分布F,则称x1,...,xn是[0,1]的F随机划分。
可以证明上述两个方案都是随机划分,划分的分布函数F也可以求出来
方案一的是多项式函数,方案二的是有理函数。计算过程和结果的具体形式用TeX写更好看些,以后贴图吧。

这样定义两个随机划分等价就水到渠成了:当且进当二者的分布函数相同。

没有评论: