推特語言處理

以下是 2009 年 9 月 至 2009 年 12 月間我在 Twitter 上分享的與 Twitter 訊息有關的自然語言處理議題的觀點,多半基於計算語言學的分析,共十則。如果你有興趣,歡迎追蹤(follow)我的 Twitter 帳號:@hao520

  • 「因為字數限制,Twitter 上的訊息通常省略脈絡且用詞精簡。在這種情況下,我們正好可以由讀者對一則訊息的回應方式看出他的閱讀理解能力、問題解決能力、以及背景知識範圍。」(2009-12-12)
  • 「Twitter 輸入框標題英譯中:『What’s happening?』→『蛤?』」(2009-11-20)
  • 中文的訊息密度 – tw.bbs.lang.chinese | Google 網上論壇(我在 1994 年用《光華雜誌》的 16 篇中英對照文章佔用的版面大小來估計訊息密度。)」(2009-10-13)
  • 「不只在 Twitter/Plurk,就連在手持式裝置上,中文的高訊息密度都是一種優勢。」(2009-10-13)
  • 「@octw 詞長與詞頻統計都會排除標點,分詞標準可參閱這份文件(PDF)。〔中英文〕標點符號出現頻率應該不會差太多。但這是我的直覺,沒統計過就是了。」(2009-10-13)
  • 「@qing_wang 最好的〔訊息密度統計〕指標是命題(proposition),但分析的難度高很多。以詞為指標不僅較容易計算,也已經很能反映訊息的密度了。」(2009-10-13)
  • 「Plurk 每則訊息未展開的情況下,中文顯示 13.5 個字,約等於 9 個詞;英文顯示 24 個字母,約等於 4.2 個詞。中文訊息量是英文的 2.1 倍。」(2009-10-13)
  • 「前推以平均詞長估算 Twitter 中英文訊息量,進一步說明如下。英文平均詞長 4.7 個字母的統計來自 Brown Corpus,中文平均詞長 1.5 個字的統計來自中研院現代漢語平衡語料庫。其實任何語料庫統計出來的數值都差不多。」(2009-10-13)
  • 「在 Twitter 140 字元的限制下,中文可以傳遞的訊息量大約是英文的 3.7 倍。中文以平均詞長 1.5 字估計,140 字 = 93 詞。英文以平均詞長 4.7 再加詞間空白估計,140 字母 = 25 詞。」(2009-10-13)
  • 「過去一年我在 Twitter 最常使用的四十個中文詞彙:的、我、了、在、與、是、上、就、聯合、有、台灣、新聞網、到、這、但、部落格、時、用、不、或、一、人、中、你、年、看、高鐵、新聞、也、網路、讓、沒有、從、小、我的、把、高雄、要、設計、日。」(2009-09-30)

延伸閱讀:中文姓名頻率統計