在平面設計的過程中,常常會用一些無意義的假文(pseudo text)填充版面。目的是讓觀看者專注檢視排版效果,不會因為理解文句而分心。英文排版使用的假文通常由看起來像拉丁文的假詞組成,一般稱為 Lorem Ipsum。那麼,中文呢?我寫了個中文假文產生器(Chinese “Lorem Ipsum” Text Generator),可以產生由一般讀者認不得的中文字組成的假文。
這個中文假文產生器每次會產生由五個段落、每段六至八個假句組成的假文。所以,假句其實是假文的基礎。為了讓假句在視覺質地上接近真句,我準備了一個由 128 個真句組成的語料庫。每次要產生假句時就從中隨機挑選一個,然後逐字替換為隨機選出的筆畫數相同、但一般人不可能認得的低頻字。因為一般人不可能認得,實際上也算是假字了。例如:
真句:這個中文假文產生器每次會產生由五個段落、每段六至八個假句組成的假文。
假句:埜窅圠旡崍仂孮氶懆冹扢塛婝犮戉仂笐洝媵、灺侻巿朼兀唅笣刌硉朾岶唭冘。
假字的選擇是隨機的,所以即使來源是同樣的真句,每次產生的假句都不一樣。例如:
真句:所以,假句其實是假文的基礎。
假句:佸圣,屙匜佸鉾侻觖丮呯崚謮。
假句:冞肊,焀玊姇墆拺粔冇虰掽礒。
假句:帔宁,荴宄呫鉹陊堋夬旻羝襡。
為什麼要寫這個中文假文產生器?起因是不久前在 Twitter 和貓頭鷹出版社的老貓的討論。老貓抱怨「即使你用亂拼的中文字排在一起,有時看起來也有像程度差的文言文,很礙眼」。我知道有很多罕用的中文字其實一般人完全不認得的,可以拿來當假字用。在 Twitter 上用人工的方式試了兩次效果還不錯,但也發現假句組成字的筆畫數分布一定要接近真句:
@octw 倎哤垽娭屔,峷《敊浭浞浧浵》烗猀。珖珝砯「砨砫粍」紞紏蚙,迻郙鬯偟偩勓埳埱娵徖;梜淊淭烳牼翐脬舑?(2010-04-08 5:44 PM)
【假句】偗皏侕妴屾皁,棜哳笎掟涗:「蛩妀莿昢詌臮剆娾,蚗芊亍硠邰莮,桹詒舴陼伅妅氿硰洉,昫啑咁軱蚕揇,堭梴虷灱丱稊迮砒苖桻?」(2010-04-08 8:58 PM)
@octw 我現在的作法很偷懶,只是把低頻字隨機化。正常句子中都是筆畫數較少的常用字,而大部分低頻字的筆畫數都比較多。筆畫數的分布的確可以更有代表性,但那就得找時間動手寫個小程式了。(2010-04-08 9:32 PM)
演算法很簡單,字頻與筆畫數資料我也有,就抽空把程式寫出來了。
如果你有興趣的話,網路上還有另外兩種不同的中文假文產生器:
- 亂數假文產生器- Chinese Lorem Ipsum(李怡志的個人網站 Richyli.com):由常用字隨機組成假句,再組成假文。句長與標點符號分布大致符合真實語料。在個別單字的層次有意義,但在詞組或更高的層次是無意義的。
- MoreText.js: 一用就愛上的中文假文產生器(Handlino Inc.):將真實語料中的句子隨機組合而成的假文。在個別詞組或句子的層次有意義,但在段落或文章的層次是無意義的。