八月七日下午,也就是九十六年大學考試分發入學放榜的前一天,《自由時報》記者謝文華打電話採訪我,問我從 1994 年開始連續 13 年統計大學考試分發入學榜單常見名字的一些觀察,也請我評論網路上熱烈討論「菜市場名」的現象。八日報導見報後,我立即接到幾家電視台記者的電話。說是看到報紙報導,希望能夠採訪。可惜我當天另有已排定之行程,而無法配合採訪。在此跟電視台的記者們致歉,也再作一些說明。
兩年前,在「菜市場名的背後」與「性別主流化」這兩篇文章中,我已經表達過我對所謂「菜市場名」的看法。即使這次接受訪問,我要說的大概還是這些。所以我那天就跟電視台的記者們建議,其實不需要勞師動眾採訪,直接引述即可。
如果是我長期關注的議題,而且採訪的目的是希望我談得更深入,只要事先排好時間,我通常都很願意配合。《中央廣播電台》請我以電話連線的方式在節目中從錄取考生的常見名字談性別與人權,《公視晚間新聞》採訪我談高雄市英文路標的問題並製作成「高雄市的英文路標 考驗你的眼力」的報導,都是很好的例子。
關於常見名字,如果一定要我再說些什麼,就是接下來要說的這些。我很確定,記者和觀眾都不會感興趣。
早在 2000 年初,我就已經把 1994 到 1999 共六年榜單的常見姓名統計公布在《Common Chinese Names》網頁。今天,已累積了 14 年的統計資料。也是在 2000 年初,我就已經在《A List of Chinese Names》網頁提供由這些榜單整理出來的不重覆的姓名列表。今天,這個列表上已有由超過一百萬個名字整理出來的 574,010 個不重覆的姓名。
《自由時報》記者謝文華很好奇我為什麼要做姓名頻率統計。其實,我的主要目的不是頻率統計,而是語料收集。網際網路普及之後,在網路上就很容易找到中文詞庫,而我也很早就在《A Review of Chinese Word Lists Accessible on the Internet》網頁作了整理。甚至,連中文語料庫在網路上都找得到。詞庫與語料庫不僅對自然語言處理的應用(例如注音/拼音輸入自動選字)很重要,對認知心理實驗材料的準備(例如詞頻的操弄與控制)也同樣有幫助。
與詞庫與語料庫同樣重要的是姓名語料庫。夠大且有足夠代表性的姓名語料庫,在網路上一直很不容易找到。很幸運地,也是在網路普及之後,台灣的大學聯考(後來的指定科目考試)分發入學榜單開始在網路上公布。對自然語言處理有興趣的人,包括我在內,就開始收集這些資料。
每年榜單的格式都不太一樣,所以要寫程式把名字一個個分離出來。我在程式中加了一小段額外的程式碼,每找到一個名字時,也順便統計一下姓名的出現次數。所以,這些統計其實只是副產品,目的是幫助我了解語料的特性。後來因為很多人對榜單常見姓名統計感興趣,我就做了網頁公布這些資料。
早年大考中心公布榜單,都會提供一個文字檔,依校系列出錄取考生的學號姓名。對我這個寫程式的人來說,這個檔案處理起來很方便。只要幾行 Perl 程式碼,就可以把考生姓名抽取出來並整理成一個列表。
這幾年,大學考試入學分發委員會只提供媒體與學校榜單下載的功能。一般人就只能依校系瀏覽,或是使用線上搜尋的功能。我都會寫信跟大學考試入學分發委員會索取榜單,他們也多半很願意幫忙。
有時實在無法取得單一檔案的榜單,我就上網尋找提供線上檢閱校系榜單的網站,再用開放原始碼瀏覽器 Mozilla Firefox 的 DownThemAll! 插件把所有學系的榜單下載回來。以今年為例,1,697 個檔案。之後,把所有檔案重組為單一檔案,並清除所有檔案的 HTML 標籤。這個額外的過程比較費工,但也不會太麻煩。
延伸閱讀:九十六年大學考試分發入學榜單常見姓名;九十五年大學考試分發入學榜單常見姓名;九十四年大學考試分發入學榜單常見姓名;姓名雲;台灣百家姓;猜名字。