Logo

台大台灣南島語多媒體語料庫

國立台灣大學語言學研究所

「臺大臺灣南島語語料庫」於2005年建立雛型,原為國立臺灣大學資訊電子科技整合研究中心「多媒體整合實驗室」子計畫之一(2001-2003),由臺灣大學語言學研究所黃宣範、蘇以文及宋麗梅教授共同主持,結合了臺灣大學四個學院之八個系所的跨領域專業人才,以臺灣南島語為主軸,藉由資訊科技運用,建構起語言資料典藏及後設資料之標準,有系統彙整、轉寫、保存彌足珍貴的口述語料。

後又承蒙國科會人文學研究中心 (2006-2010)及行政院原住民族委員會臺灣原住民族圖書資訊中心(2012-present)經費補助,由宋麗梅教授負責語料蒐集及轉寫,原住民族圖書資訊中心同仁負責典藏技術,在既有的基礎上進行改版、修訂、轉檔與擴增工作。轉寫格式/方法與學術引用,請參考Sung, Li-May. Lily I-wen Su, Fuhui Hsieh and Zhemin Lin (2008)。

 

研究團隊

語言所研究團隊成員黃宣範、蘇以文、宋麗梅等教授,自1998年便以團隊合作方式致力於研究台灣南島語語言,每週定期採集語料,並交換彼此研究心得,研究團隊成員默契十足、合作無間。本計劃,結合台大跨院之數大系所,期望建立綜合語音、影像、文字之多媒體語言典藏。

研究方法

我們透過田野調查的方法採集口語語料,利用數位錄音機及錄影機紀錄每段語料,而後將之轉寫成文字紀錄,並進一步分割為IU單位、做標記、及中英翻譯等等,語料內容來自於發音人的生活對話、傳說故事,或是請發音人觀看影片(Pear story)或不含文字的圖書(Frog story),之後再口述觀看過的影片或圖書內容。標記分為言談篇章標記及語法標記。語法標記是參考德國Max Planck語言所及Leipzig大學語言所共同建置的 Leipzig Glossing Rules 來做標記。而言談篇章標記則是根據Du Bois et al. (1993) 的轉寫標記法。根據Chafe (1987, 1994)以及Du Bois et al. (1993)的定義,所謂的IU (語調單位)是指在自然言談中,說話者產出的一段在聲譜圖上看是緊密結合一起的語音,這就稱為語調單位(IU)。以語調單位來切割自然言談語料,可以讓研究者得到與研究人造句子時截然不同的研究成果,因為以語調為單位的自然語料,可以呈現語言使用者在產出語料時的心理及認知方面的訊息。Chafe (1994) 曾說過,一個語調單位呈現的是說話者當時的意識焦點。而停頓更可反映出語言構思(planning)與語言產出(production)的關係(Huang 1993),至於重複及修正都有其認知與語用上的功能。 。

研究成果

目前語料庫中已建構好賽夏語、噶瑪蘭語、鄒語及阿美語資料庫。噶瑪蘭語有4筆口述語料(皆有聲音及影像檔)。賽夏語有22筆口述語料(只有聲音檔)。 阿美語則有2筆口述語料(皆有聲音及影像檔)。鄒語有2筆語料(只有聲音檔)。

未來展望

除了繼續逐年蒐集台灣各南島語的相關資料外,本計畫另有兩個目標。第一,在與圖資系及資訊系的合作下,我們希望為台灣南島語建置語言資料典藏及後設資料之標準。第二,有鑒於語料庫的建構往往耗時耗工,本計畫接下來也以半自動化為目標,包括半自動化翻譯 (automated semi-translation)、聲音與文字同步 (sound-to-text alignment)、影像與文字同步 (image-to-text alignment)。藉由資訊系、電機系等教授對資訊、語言處理之長才,加上語言所研究團隊對台灣南島語之研究成果,以期對台灣南島語語料庫建制之半動化有所貢獻。

參考資料

Chafe, Wallace. 1987. Cognitive constraints on information flow. In Coherence and grounding in discourse, ed. by Russell S. Tomlin, 21-51. Amsterdam: John Benjamins.

Chafe, Wallace. 1994. Discourse, consciousness and time: The flow and displacement of conscious experience in speaking and writing. Chicago: University of Chicago Press.

Du Bois, J. W, Stephan Schuetze-Coburn, Susanna Cumming, and Danae Paolino. 1993. Outline of discourse transcription. In Talking Data: Transcription and Coding for Language Research, ed. by J. A. Edwards and M. D.

Lampert, 45-90. Hillsdale, N.J.: Lawrence Erlbaum Associates.

Huang, Shuanfan. 1993. Pause as a window in the mind and grammar—evidence from spoken Chinese discourse. Paper presented at the Workshop on Interfaces and the Chinese Language, June 30-August 6, 1993, Ohio State University.

出版著作

Sung, Li-May, Lily I-wen Su, Fuhui Hsieh and Zhemin Lin. 2008. Developing an Online Corpus of Formosan Languages. Taiwan Journal of Linguistics 6.2, 79-118.

Su, Lily I-wen, Li-May Sung, Shuping Huang, Fuhui Hsieh and Zhemin Lin. 2008. NTU Corpus of Formosan Languages: A State-of-the-art Report. Corpus Linguistics and Linguistic Theory 4-2, 291-294. [ERIH: European Reference Index for the Humanities]




建議使用 1024x768 及 Firefox 瀏覽本頁。 Copyright © 2019 國立台灣大學語言學研究所. 版權聲明
[首頁][搜尋][計畫簡介][標記表][聯絡我們][常見問答][使用說明][網站地圖][English][Chinese][中文]