臺灣財經情緒字典之編製與應用
Traditional Chinese Finance Dictionary with Sentiment Word Lists
我們利用臺灣長期的財經新聞文本,結合大量人力、建立分類指標,並透過大型語言模型的協助,編製一部適合臺灣財經新聞用詞的情緒字典。不同於過往,我們不單純只是將國外字典直接翻譯成中文 (或只是簡體轉成繁體),而是針對臺灣財經新聞報導文本篩選出常用的情緒字詞,再以人工方式檢視最後結果。目前,我們篩選出 9,890 個字詞,其中包含正面情緒字詞 4,853 字,負面情緒字詞 5,037 字。若將此字典應用在中央銀行新聞稿的情緒分析,並與 GPT-4 模型的情緒評分進行比較,結果顯示財經情緒字典在處理經濟發展以及金融穩定等議題時雖不及 GPT-4 精準,但仍有一定的水準。我們認為,若研究者想從大大量文本中快速獲得初步的情緒分析結果,利用字典方式進行情緒評分不僅能節省時間,還能降低成本,並且無資訊安全的考量。最後,我們也計算每一個字詞在過往財經新聞 (共 1,560,766 則新聞) 中出現的次數頻率,並依長詞優先以及次數頻率 (由高至低) 排序。若依此排序方式將其加入中文斷字 (segmentation) 相關套件 (如 Jieba) 的字典中,可提高套件在斷字的精確度。
我們感謝陳重吉研究員,吳俊毅副研究員、管中閔、徐之強以及徐士勛教授對本文初稿所提供的寶貴意見。
對此字典若有任何建議,修正或擴充詞彙,均可透過 e-mail: ylihuang@mx.nthu.edu.tw 與我們聯繫。
黃裕烈 (2024),臺灣財經情緒字典之編製與應用。