南京大学图书馆聂娜
《证》文中根据自己预设的定义统计,“得到1003个字段,6155个字,其中不同的字有1858个,总共相逢18518次”。可见,在此讨论的样本总量为6155个字。
我们用一个简单的例子来模拟这个看似复杂的问题。
相当于一个袋子里装有6155个小球(等同于《证》文中的6155个字),小球共有1858种颜色(等同于《证》文中的1858个不同的字),其中,两两之间在袋内同一区域出现(等同于在同一字段出现),则认为是相逢,一共有18518次。
按《证》文的思考逻辑,若小球之间的相遇是任意的,那么1858种颜色的小球之间理论上相逢关系种数共有多少呢?《证》文认为“对1858个不同的字来说,共有1858×1857/2+1857=1727011种相逢关系”,“每种相逢关系出现的概率是ρi=11727011”。按此思路和计算公式,可见此处讨论的样本已经发生了变化,脱离了原6155个字的样本,虽然此处样本未知,但明显与原6155个字的样本不符。样本的变化使数学建模的基础建立在一个混杂的标准上,失去了应有的数学意义,我们将在后文中详细说到。
同样,把较抽象的音韵问题转化成比较直观的小球问题,相当于“袋子里的1858种颜色的小球(共有6155个),任意两两相遇的颜色搭配共有多少种?每种的概率是多少?”如果题目到此结束,是无法算出唯一正确答案的,在数学上,这样的命题无唯一解。若想知道搭配种数和概率是多少,则应提供每种颜色小球具体数量的相关信息。
这里有两个问题,首先是搭配种数问题,也即《证》文中的相逢种数问题。
对于任意一种颜色的小球,当它和包括自身颜色在内的任意颜色小球配对,必须有足够的数量。比如白色小球,可以和蓝色、红色、绿色、黄色小球配对,也可以和自身颜色白色配对,此时需要的白色小球至少有2个,一个白色小球分别与蓝色、红色、绿色、黄色小球以及另一个白色小球配对,此时,白色小球能够搭配的颜色种数是5种。但如果白色小球只有1个,那它无法与自身颜色小球相配,最多颜色配对种数只有4种,无法达到完全配对种数。对于1858种颜色的小球,如果要满足完全配对,我们最少需要多少个小球呢?很显然,每种颜色小球至少需要2个,才能满足条件。做一个极端假设:假设这1858种颜色的小球中,1857种只有1个该颜色小球,最后一种比较多,有6155-1857=4298个。在这种情况下,小球之间的颜色搭配有多少种呢?很显然,只有1858×1857/2+1=1725154种,而非《证》文中的方法所算得的1727011种。
由上例不难看出,对于《诗经》中字与字的相逢种数,也是同样道理。假设1858个字中,有1个字共出现了4298次,而其他1857个字都只出现了1次。此时两字相逢种数的最大可能只有1725154种。可见,相逢种数并非固定是1727011种。理论上来说,这个数字可能是1725154到1727011之间的任意一个,只能根据具体每个字出现的次数准确算出。
另一个问题更重要,就是概率的问题。
从概率的定义可知,在同一个事件整体中,如果认定每种关系出现的概率一样,则必定承认,其前提是默认每个事件出现的次数相同。此例中,每种相逢关系对应的整体是一致的,若认定每种相逢关系出现的概率是ρi=11727011,根据概率相关性质,则参与种种相逢关系的每个字出现次数也应该是相等的。比如“言”与“长”之间是一种相逢关系,“长”与“详”之间也是一种相逢关系,如果在《诗经》的“句末字”中,“言”出现了100次,“长”也必然出现了100次,“详”也必然出现了100次,任何一个句末字在《诗经》中出现的次数都是相同的,才能满足每种相逢关系的概率是相等的。《诗经》中的每个不同句末字出现的次数是不是完全相同的呢?显然不是。因此,根据矛盾推翻原设,即每种相逢关系出现的概率不是ρi=11727011。
我们举个简单的例子模拟这个问题,就显而易见了。
有一个袋子里有红球、白球2种颜色的球,随机摸出两个球来,问:(1)颜色搭配的可能共有多少种?(2)红白、红红、白白这三种搭配关系的概率是多少?
我们承认,这样的题目在数学中无唯一解。而按《证》文的算法,颜色搭配有2×(2-1)/2+2=3种,即红白、红红、白白三种。
而实际情况可能有如下几种:
(a)红球有1个,白球有1个,那么搭配就只有一种,即红白。
(b)红球有2个,白球有1个,那么搭配有2种,即红红和红白。
(c)红球有1个,白球有2个,那么搭配也有2种,即红白和白白。
(d)红球有5个,白球有5个,那么搭配关系有三种,即红白、红红、白白。
可见,理论搭配关系并非固定是3种,它根据具体每种颜色球的数量不同而来。对于《诗经》中的句末字也是一样的,只有参照到具体每个字的数量,才能算出它们的搭配关系理论种数。
再按《证》文算法看看概率的问题,按他的逻辑推理:因为红球和白球是任意相逢的,因此它们的相逢一共有3种搭配关系,每种搭配关系的概率肯定是1/3。但实际上呢?按上文四种情况来算一下就可以看出矛盾来了。
(a)情况中,红白的概率为100%,红红的概率为0,白白的概率为0。
(b)情况中,红白的概率为50%,红红的概率为50%,白白的概率为0。
(c)情况中,红白的概率为50%,红红的概率为0,白白的概率为50%。
(d)情况中,红白的概率为1/3,红红的概率为1/3,白白的概率为1/3。
根据基本的概率运算规则,我们可推得,每种颜色的球数量相同,才会出现每种搭配关系产生的概率均为1/3。同理在《证》文中,只有每个句末字出现的数量相同,才会有任意两个字相逢关系出现的概率是ρi=11727011。而在《诗经》中,句末字并不是字字数量相等,因此,《证》文中的概率计算是片面的。
在《诗经》句末字的数理实践中,暂不谈数学方法在此是否真的适用并有实际意义和效果,我们且看数学建模的过程。在同一个数学模型中,对实际数值的点数和相应理论数值的计算,一般都有一致的标准,构建在同一个样本中完成。在本例中,实际数值点数的样本是6155个字,总量是一定的,在理论数值的计算中,也应根据1858种字在6155个字中的具体数量来计算可能的相逢种数和它们出现的概率。实际相逢情况根据1858种字、6155个字的样本总量点数得来,理论相逢情况的计算则脱离了该样本去讨论1858种字的理论相逢情况,并在不同样本标准下将二者做比对,混杂在一起做数理计算,这样的计算恐不具备实际可靠的数学意义。