香港教育大學
数据化的中文学习资源 香港旧电影粤语语料库 透过情境对白学习语言

文: 教育传媒

教育资讯 香港教育杂志 教育传媒 教育专业 香港旧电影 粤语 语料库 香港教育大学 语言学及现代语言系 钱志安博士 二十世纪中期香港粤语语料库 美国矽谷国际发明展金奖及特别奖
語言學及現代語言系  錢志安博士
语言学及现代语言系  钱志安博士

 

  对语言学家来说,研究语言最奥妙之处,就是能够从语言的演化中,疏理及钻研出时代的变迁与发展。香港教育大学语言学及现代语言系副教授及系主任钱志安博士前后花了约10年时间建立「二十世纪中期香港粤语语料库」,从跨越20年的电影对白中,探索广东话的前世今生,更从珍贵的大数据中,看到了语文教育的价值及可能性,希望发展成有效的广东话教学工具,对教育及学习者,作出强大的支援。

 

从旧电影对白收集真实语料 数据完善 用途广泛

  钱志安博士率先介绍「二十世纪中期香港粤语语料库」,目前库中共承载了80万个中文字词,语料的内容来自1943年至1970年的香港旧电影。钱志安博士笑着分享:「作为一位语言学者,我当初建立粤语语料库的初衷,是希望透过收集一些语言材料,了解广东话由过去到现在的演变,从而探索这种语言的面貌。计划开初是从研究语言演变的基础出发。」他指出,要收集旧时的语言材料,而且是口语,他跟团队有想过访问老人家,但在研究角度而言,记忆有误及人为主观等因素,收集的数据未必精确。「于是我就想到了粤语长片。虽然电影是一门创作,但亦会采用当时社会的常用语言,只要从中加以整理及分析,就能呈现50、60年前被记录下来的广东话。」

  钱志安博士续指,目前语料库收集的80万字,其内容取材自60套电影,横跨了约20年时间。库中的资料仔细详尽,每句对白亦有分词处理,每个字词亦有完整的数据如:包含该字词的句子、总出现句子数目、字词的总出现次数、于60套电影中的使用比例、字词属性等;除了语言资料,亦有一些基本资料如字词的电影出处、男女演员应用比例等,对于研究社会文化及历史的用家来说亦是非常珍贵。「我们从中找到了很真实的语言材料,亦很高兴于数据中发现了语言的变化。语言研究中最有趣的部分,就是能于语言变化的过渡期中,找到其演变机制及逻辑,了解到当中的原因。」

 

透过数据分析 确保教材客观性 助语言学习生动贴地

  虽然「二十世纪中期香港粤语语料库」一开始是为了研究广东话而成立,但钱志安博士从中看到了更多可能性,希望可以把库中的庞大数据应用于语文教育中。他举了个生动例子,「如教导一个外国人广东话,需要举一个最常用的动词,你会发现当刻可以有成千上万的答案。但如何才算准确呢?透过语料库的数据分析,我们就能找到客观性的结果。对于支援教育者制定教材及教学方针,极具参考价值。」


  钱志安博士分享,他是一位语言学家。教育和撰写教育材料不是他的专长,反而期望语料库能成为有效的工具,帮助语文教育者及学习者。「举例说,如希望教导『咗』字,库中就能找到3000多条例句,现有的教学资源未必能够提供到这数量的资料。我们亦正研究把电影片段剪辑并加入库中,令用家可以真正理解如何『讲』学习中的字词,体会到适当的神情、语气等,对外国学习者是非常有用的资源。」


  钱志安博士强调,学习语言不只学「说什么」,「如何说」亦很重要,学习者需有足够的语境训练。因库中语料来自电影对白,作为当时的流行文化产物,有一定的真实性。教育者能够按需要筛选,制作出活生生的教材,令语言学习变得生动而贴地。

 

建立粤语语料库参考指标 设计应用程式 以句子层面学习广东话

  钱志安博士坦言,放诸于现时大数据的发展,80万字的确难以与Google等数据库相比,但在广东话的范畴下,也是个可观的成果。「据我们了解,现时坊间未有其他粤语语料库能达至我们的字词数量,以及其数据的仔细度。」钱志安博士指出,「建立这个语料库涉及大量的繁复工序,例如要把对白转化成文字材料,要以人手记录成文本。而且广东话中有大量同音字,亦有不同变化,如『一』既可是数字,又可是副词,要区分出来。」他希望透过跟团队的努力,可以给业界一个建
立粤语语料库的参考,共同推进语言研究,以及支援语文教育的发展。


  「二十世纪中期香港粤语语料库」的成效甚广,2019年获得了「美国矽谷国际发明展」金奖及特别奖,钱志安博士很高兴他们的努力得到外界认同,证明其研究方向正确及能够作出贡献。未来正计划以语料库为基础,设计一个以广东话语音练习为题的手机应用程式,希望学习者能以句子的层面去学习广东话,而不只集中于词汇。另外,钱志安博士亦正与研发中文语言学习应用程式「纵横识字」的谢家浩博士商讨合作,希望用家学习到中文字的字义之外,亦可连结到语料库,进一步学习中文的应用,达到学习语言的真正意义。