為什麼漢語是世界上最先進的語言之一(2 / 3)

世界各主要語言經過了幾千年的進化,其詞彙的長度分布,都比較符合信息論的要求。你會發現各個語言中越常用的詞,一般就越短。英語裏,我、你、他、她、我們,都是單音節詞。

英文的單音節詞非常豐富,實際上比中文的單音節發音要多,這是因為英文可以在一個輔音-元音組合的前後都添加輔音,來實現各種不同的單音節發音。這樣排列組合下來,英文的單音節詞就是一個比較龐大的詞庫了。但是這就有一個代價,就是抗噪性能低。這個問題我們放在下一節講解。

按西方音節定義,英語的單音節詞的使用比漢語要頻繁。根據統計分析。漢語使用者平均詞長約為1。5字上下。(見《ReadingChineseScript:ACognitiveAnalysis》這本書裏有一個章節《EyeMovementsinReadingChineseandEnglishText》),而成年英語使用者平均每詞音節數約為1。4(見www。waisman。wisc。edu/phonology/pubs/PUB30。pdf,這也得到了另一個研究的支持:分析10小時的發聽錄音,平均沒詞音節長度為1。38)。

所以,就音節數而言,漢語詞平均比英語詞長7。14%。然而,考慮到英語一個音節比漢語單音節實際上長得多(即便把上一節得到的17。78%折半,也有8。89%)。再加上漢語每音節信息含量大致比英語高3。30%(見第三節數據)。從信息論的角度講,漢語的信息傳遞效率基本上比英語高。(是的是的,我知道信息論的計算還需要更多的數據,隻有平均值是不夠。但是實在找不到啊,隻能草草估計了。)

這一點也得到了另一個實驗的驗證(見www。ncbi。nlm。nih。gov/pmc/articles/PMC3111932/)

這篇論文找了8個漢語使用者和8個英語使用者。然後讓他們兩人一組。一組之中,一個人描述圖片(描述者),另一個人根據描述來繪製(繪畫者)。最後對比圖片的準確度。同時觀察描述者的語言。

最後結果是,漢語描述者明顯比英語描述者先開始描述。描述者開始描述與繪畫者開始繪畫之間的時間差,漢語使用者低於英語使用者。繪畫時間,漢語繪畫者低於英語使用者。整體時間,漢語組顯著低於英語使用者。所以漢語組所有都比英語組快。而且越複雜的繪畫,漢語組就快得越多。

繪畫結果,144次繪畫。漢語組平均每次犯8。1個錯誤,其中描述者平均每次犯3。7個錯誤,繪畫者犯4。4個錯誤。英語組平均每次犯13。25個錯誤,其中描述者平均每次犯8。5個錯誤,繪畫者犯4。75個。兩者的差距仍然在統計誤差之內。所以並不算顯著。(嗯?剛才誰說漢語沒有英語精確來著?)

之後,為了考慮繪畫者的技巧差異。讓每個繪畫者直接對照原圖繪畫。結果漢語組反而慢於英語組。

繪畫期間,漢語組使用音節數顯著少於英語使用者。兩組語速(每秒音節數)接近(這個結論與前麵的播音速度分析結果一致)。

這雖然是一個初步的實驗,但是還是能看出漢語在交流上的優勢的:用詞更少,時間更短,描述精確水平差不多(如果不是更高的話)。這個實驗還說明了……我國人民美術水平還有待提高……

至於歐洲主要其他語言,根據第三節提到的數據,它們發音頻率比英語高,信息密度比英語低。要那些語言在這方麵超過漢語,我覺得可能性不大。

六、組詞邏輯

由於英語單音節詞資源比較豐富,但平均發音長度較長。所以你會注意到英語裏單音節詞比例高於漢語,而多音節詞的使用比例就小於漢語。很多邏輯上非常相關的詞由於不得不全部擠入有限的單音節詞庫,其發音就失去了聯係。這就導致英語的常用詞往往缺乏組詞的邏輯。

比如我們可以很輕鬆地說“公雞”、“母雞”、“小雞”、“雞蛋”。而英語裏就成了“Cock”、“Hen”、“Chick”、“Egg”,毫無聯係。如果常用詞要建立聯係,那麼英語就必須提高這些單詞的音節數,那麼平均詞長就要上升,從信息論角度講,信息傳遞效率就更低了。所以英語隻能在組詞的邏輯性上進行妥協。

相比之下,漢語就從容的多了,即便在當前這種信息效率下,漢語仍然能保證絕大多數詞語構造具有邏輯性。因此相比於英語詞彙,漢語詞彙就比較容易記憶。這就產生了一個結果,那就是漢語的常用詞彙量遠遠多於英語。

英文使用者的單詞量和生詞辨識能力可見1995年的以下論文:jlr。sagepub。/content/27/2/201。full。pdf

其中,大學生平均自稱單詞量為16141,經過多項選擇測試發現,平均能夠辨識其中71%的詞彙。也就是說平均大學生詞彙量估計為11460個單詞。老年人平均自稱單詞量為21252,經過多項選擇測試,發現平均能辨識其中80%。也就是說老年人的詞彙量大致為17002。對於從未見過的詞的正確理解概率,大學生為30%,老年人為39%。

沒有找到中國的相關研究。不過這裏是商務印書館的《現代漢語常用詞表(草案)》:wenku。baidu。/view/51636fec551810a6f5248676。html

大家可以進去看看自己的詞彙量。我感覺大學生達到五萬應該不成問題。而且這肯定不是一個人的全部單詞量。不過這裏麵有些詞是英語裏幾個詞合起來的。所以中國人詞彙量未必比美國人高這麼多。但我覺得定性的結論還是可以下的。

另外裏麵可能有你沒見過的詞,可以看看有多少你猜不出正確含義……我覺得除了極少數,確實沒什麼難度……

另外,漢語和英語都各自在組詞上有一個弱點。漢語有大量的同音詞,而英語有大量的多義詞。漢語有“攻擊”和“公雞”,英語的Ball既可以是球也可以是舞會,當然還有相關的一些列動詞含義。漢語中,曾經在文言文中大規模使用的單音節多義詞現在大多變成了雙音節單義詞。漢語中真正的多義詞(各個意思之間沒有直觀邏輯聯係)是極少數。而英語裏的同音詞也是極少數。可以說這兩種語言在各自的發展路徑上都做了妥協。

由於英語多義詞比例比較大,所以盡管英語使用者詞彙量比漢語使用者低,也不能說明英語的描述能力不如漢語。另外注意到,美國大學生的詞彙量遠低於老年人,這說明他們並不是已經記下了所有能見到的詞彙,而是在那個年齡段,還沒有足夠的時間記下。因此可以看出,英語一詞多義很多的原因,很可能就是英語單詞的記憶難度比漢語大。

所以總的來說,由於漢語精簡了發音,並且每音節信息密度較高,這就使得漢語可以有較長的平均詞長,因此組詞邏輯相比於英語就有了一定的優勢。至於其他主要語言,信息傳遞效率與漢語相比差距更大。主要方麵都無法相比,這種次要方麵就不需要再比了。(不過話說回來法語之類組詞邏輯比英語確實要好)

七、強勁的抗噪能力

前麵講到,英語依靠大量的單音節詞才能夠接近漢語的信息傳遞效率。但這不是沒有代價的。

構造大量的單音節詞,就需要在詞彙中使用大量的輔音。輔音分為兩種。一種屬於響音,就是能夠持續發音的,諸如m、n、ng(除這類輔音外,所有的元音也都是響音),一類叫做阻礙音。阻礙音本身發音短促、強度低、音高也很低。隻有當阻礙音與元音結合,才能發出強度比較大的音。

漢語普通話中,所有阻礙音都是與元音結合的。而英語以及歐洲所有拚音語言,都大量使用了不與元音結合的阻礙音。事實上,古漢語中不與元音結合的阻礙音是極度常見的,音節結構比現代漢語的諸多方言都複雜。但是後來這種輔音用法就基本淘汰了。具體上古漢語的發音案例,大家可以自行搜索“《關雎》上古漢語朗讀”。雖然學界對上古漢語的具體發音還有很多爭議,但古漢語音節的複雜度在那個朗讀中體現得很好。

消滅獨立的阻礙音,首先加快了發音速度,第二保證所有音都具有很高的強度。但是其代價就是大大縮小了單音節詞庫。不過在上麵的比較中我們可以看出,這個代價是值得的。漢語的信息傳遞效率仍然非常高。

那麼我們繼續一個前麵提到的話題,是不是音調越多越好呢?

有一個搞笑論調是這麼說的,“我們的普通話叫“mandarin”,什麼意思啊?滿大人,滿族人清朝入關之後,說不出我們的口語,他就把很多調去掉了,把入聲去掉了,說的發音越來越簡單了。然後逼著全國人都這麼說。所以我們現在的口語比粵語要簡單得多。“

這是一個非常愚昧的論調。首先,Mandarin這個英語單詞來自於葡萄牙語mandarim,葡萄牙語這個詞又來源於馬來語m?nt?ri,馬來語這個詞來源於梵語mantrin,而梵語這個詞的意思是官員。換句話說,mandarin的願意是“官話”。而且Mandarin這個詞能查找到的最早的記錄出現於1589年。大家可以查查那時候“滿大人”在哪裏呢。

很多人以為粵語是正宗的漢語發音。這話對,也不對。粵語具備一些中古漢語的發音特征。但是它也是在中古漢語的基礎上發展而成的,語音還是有相當大的差異。有人認為北方官話/中原官話的形成,是因為蠻族入侵“汙染”了漢語。這個說法同樣,對,也不對。北方官話之所以在中古漢語的基礎上進一步的發展,就是因為戰爭與征服,北方漢民與語言不通的外族加深的了交流,多種族的融合,教育,逐漸把一些發音變得更加容易。

舉一個例子,粵語裏白菜的白是Baak6,普通話是Bai2。粵語裏尾部的這個k是一個不發音的舌頭動作。這個動作略微改變了原來Baa的發音。但是這個音,如果不費力就很難造成Baa明顯的變化。相比之下,Bai本身就容易發,雙元音ai的發音是通過舌頭跟隨下顎動作完成的。我們知道咀嚼肌的力量比舌頭大,運動也快。依靠下顎完成的ai音顯然比依靠舌頭完成的aak音要容易發。當然這不是一個公平的比較,相比之下普通話Liu、Lang的發音難度與粵語Baak相近,但是這兩個音的尾部都是響音,不需要費力就能發得很清楚。

與這個不發音的k類似的,還有粵語中p和t結尾。這種發音方式正式名稱叫做不除阻的塞音尾。在亞洲很多國家和方言裏都有。這應該是古漢語流傳下來的特點。這種塞音尾既不抗噪也不省力。在交流更廣泛、更頻繁的北方方言裏是很難見到的,應該是已經演化成其他發音了。

粵語依具體方言不同,有6-10個聲調。其音高變化模式並不超出普通話的四個音調。之所以多出來這麼多音調,是因為粵語還引入了不同基準音高。比方說在一些方言裏,粵語的第1、3、6聲都是保持音高,但是這三個聲調各自保持的音調高度不同。再比如粵語第2、5聲,都是音高由低到高變化,但起始音高不同。粵語總共有四種不同的基準音高,分別是do、re、mi和sol。類似的情況在很多南方方言裏都存在。

這就是為什麼有時候南方方言聽起來有些像唱歌。大概也就是為什麼吳儂軟語聽起來很好聽。

然而粵語音調最大的問題就是,每一個人音調高低是不一樣的。有的人說話音調高,有的人音調低。沒有一個統一標準。甚至同一個人說話的時候,在低沉、平靜、激動時,音調高低也是不同的。因此,與一個不熟悉的人說話,出現單獨的一個音高或兩個音高,都很難分辨出到底是哪一聲。必須要三到四個基準音高都繁出現,才能判斷準確對方的音高究竟屬於哪一聲。而這些基準音高是否會頻繁出現,這就是比較看人品的了。當然,就漢語的冗餘度而言,一部分音高判斷不準是沒有太大關係的。但這就讓粵語發音多變的優勢大大削弱了。

此外,粵語的7、8、9聲都是短促音,其音高和音高變化模式與1、3、6聲沒有區別。短促音抗噪能力不如普通音長的發音,但它們的發音速度更快。不過在現今人類口語交流中,瓶頸是大腦的思維速度,發音速度太快並沒有明顯的好處。

有人問到底多少個聲調最合適。我覺得這很不好說。現在沒有客觀的評估。但是無論如何有聲調的漢語(及其方言)總是要比沒有聲調的外語強。。

那麼漢語的抗噪性能有沒有什麼證明呢?

有的。出了國,尤其是到了歐美的人,就會發現一個問題。那就是中國人說英語,相比於當地人來說,總有點含混不清。外語老師總是要求中國人說英語的時候嘴巴要張大、舌頭的運動要有力,甚至要求用牙齒咬住一根鉛筆來訓練唇舌運動。這是為什麼呢?因為中國人已經習慣了唇舌微微運動的發音過程。

首先漢語發音具有很高的信號強度。而且由於舍棄了所有單獨發音的輔音,所以一個音節裏的元音就能保持更長的時間(這也就是為什麼我們一般覺得漢語說話比英語慢的緣故)。我們知道長時間保持一個信號,也有利於對抗隨機噪聲。發音強度大、元音維持時間長,這就導致,同等發音強度時,漢語的抗噪能力更加強大。換句話說就是,同等噪音條件下,漢語所需要的音量更小。因此漢語使用者發音不必費力,唇舌運動幅度比英語之類明顯小。

八、口語的速度

說到口語的速度,我們先來看這篇論文:ldc。upenn。edu/myl/llog/icslp06_final。pdf

其中圖1顯示,根據一些談話樣本,當去掉沉默與噪音占據的時間後,英語會話者每分鍾一般能夠說160-280個詞。漢語會話者大致是250至400詞(這裏不是字)。這差不多是普通人不受思緒影響的最高語速。所以可以看出,漢語的理論最高信息傳遞能力是遠遠高於英語的。

但實際上受限於思維速度,兩者的速度差距並不大。以下這篇論文研究了在不同語速下聽眾正確聽得每個字的概率。www。sciencedirect。/science/article/pii/S0169814104001581

一般廣播節目的語速在4。3字每秒左右。也就是每分鍾260字上下。高於這個數字,就可能會聽眾接收語音時聽錯。從上文可以看出,年輕人在對方語速達到約650字每分鍾時(即吐字時間縮短60%)仍然能保持90%以上的正確接收率。但是老年人就會降低到約70%。可以看出這個速度實際是受限於大腦的處理速度。中國好聲音的華少,是47秒說350個字,也就是速度達到了446。8字每分鍾。這個速度上能說得字字清晰,這是很厲害的。

英文新聞播音一般在150-180詞每分鍾(當然,也取決於詞的長度)。根據10個小時的法庭錄音的數據結果(languagelog。ldc。upenn。edu/nll/?p=1255),可以看出美國大眾90%的情況下說話速度低於200詞每分鍾,99。75%的情況下低於250詞每分鍾。平均水平差不多是160-170詞每分鍾。(因為僅靠10小時庭審記錄統計,所以不會特別準確,這裏就是看個大概。)

所以,按照平均每詞1。4音節計算,基本上英文新聞播音一般每分鍾210-252個音節左右。這與庭審記錄中平均一分鍾226個音節接近。

英文播音平均每分鍾210-252個音節與漢語播音平均每分鍾240-260字沒有顯著區別。

可以說,人類接受語音的速度,現在是受到了人腦處理能力的限製。上麵的播音速度,都不是播音員最快的說話速度,而是為了保證觀眾正常收聽才控製的速度。隨著交流的日益深入,人類說話的速度實際上在加快。40年前美國一般語速是145詞每分鍾。如今是160-170詞每分鍾。中國60年代播音185字每分鍾,如今是240-260字每分鍾。這也許是信息的豐富讓人腦的處理能力上升的緣故。

九、漢字:偉大的基礎

漢語一開始也是一種綜合語。大量使用詞根、詞綴。但是從文字角度,漢字為漢語成為分析語提供了非常關鍵的基礎結構。漢字導致詞形變化無法記錄在紙上。最後詞形變化就隻能用額外的漢字來標記了。而這個增加的漢字就變成了一個通用的邏輯規則,也就與修飾的特定詞失去了必然關係。這樣漢語就逐漸變成分析語了。

而正是由於漢字將讀音與書寫割裂,使得漢語的語音能夠相對自由地發展。因此在漢語語音在幾千年中變化了如此之大,而我們的文化卻沒有多少割裂。

更進一步地,由於漢字並不受限於讀音,因此可以創造出大量同音異形字,幫助漢語降低平均音節長度、提高組詞的邏輯性。而且,雖然在口語上,漢語的同音異形詞和英語的多義詞都屬於“同一發音可能包含不同含義”的情況,但寫到紙麵上,同音異形詞就比多義詞更容易辨識,減少歧義的可能。