教育部臺灣閩南語字詞頻調查工作簡介       Ungian作品    本站首頁
論文全文 PDF版本      最近修改日期: 2011/11/10      最近閱讀日期:2021/6/25
台語華語辭典


台語文句欣賞

國立成功大學台灣語文測驗中心 專案計畫助理研究員 楊允言

摘要

     詞頻調查是一個語言ê基礎統計。教育部tī 2008年委託學術單位進行台語字詞頻調查統計,按算beh蒐集100萬詞以上ê台語語料,並且提供語詞檢索系統hō͘社會大眾查詢。

     本文介紹這個詞頻調查計畫,伊ê重要性kah目標,工作團隊ê分工情形,mā針對所蒐集ê語料分佈做簡單ê說明,包括各文類(15小類)ê比例,文字型式(漢字、漢羅合用、羅馬字)ê比例,無仝年代ê文本比例來對照台語文發展歷史。Soah落來說明計畫執行ê實務問題,包括工作流程,輸入ê格式,羅馬字轉換kah漢字造字ê處理方式。

     關係語詞檢索系統ê功能,使用者thang利用詞組、語詞、詞頭、詞中、詞尾、漢字造字、重疊詞等來查詢,mā會當設定語料範圍,顯示方式、排等kah取樣數量。

     本文mā列出這個計畫tih執行ê時,所tú著ê一寡問題,包括斷詞原則、文類分類方式kah漢字使用,希望會當提供參考。最後,討論未來咱koh愛做ê空課。

關鍵詞:台語文、語料庫、字詞頻、語詞檢索、斷詞


1. 踏話頭:詞頻統計的重要性
2. 教育部台語詞頻調查簡介
3. 詞頻調查工作ê進行
3-1 工作團隊
3-2 語料蒐集建檔
3-3 語料整理方式
3-4 造字處理方式
3-5 語詞檢索功能
3-6 詞頻統計功能
4. 相關問題
5. 結論kah未來方向

參考文獻
Biber, Douglas, Susan Conrad and Randi Reppen, 1998, Corpus Linguistics : Investigating Language Structure and Use, New York : Cambridge University
中央研究院, 現代漢語標記語料庫, http://dbo.sinica.edu.tw/ SinicaCorpus/
中央研究院詞庫小組, 1998, Accumulated Word Frequency in CKIP Corpus, 台北
教育部, 2007, 臺灣閩南語羅馬字拼音方案連字符使用規則http://www.edu.tw/files/site_content/M0001/lanrule.pdf
教育部, 2008, 教育部台灣閩南語常用詞辭典, http://twblg.dict.edu.tw/ tw/index.htm
莊德明, 謝清俊, 2005, 漢字構形資料庫的建置與應用, 漢字與全球化國際學術研討會, 台北
楊允言, 2005, 台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計, 國科會結案報告