运用大数据学习广东话 紧贴社会文化变迁 学习在地化生活语言

文: 教育传媒

教育资讯 教育传媒 教育专业 教育专业26期 香港教育大学 钱志安博士 语言学及现代语言系 粤语 大数据

研究指出香港非华语人士学习粤语的成功率偏低,当中非本地人士平均十人中就有九人因不同的学习困难而中途放弃,专家指出个中原因与粤语口语和中文书面语差距大,声调容易混淆和学习教材未赶得上时代用语,难以融入生活等有关。香港教育大学语言学及现代语言系系主任及副教授钱志安博士研究汉语和粤语多年,曾经整理出「二十世纪中期香港粤语语料库」,探索粤语过去半个世纪的演变。2019 年,钱博士得到语文教育及研究常务委员会(语常会)和语文基金的资助,参与「香港非华语人士中文学与教材料开发计划」,结合大数据科技,取用日常生活的粤语语料,开发「Learn Cantonese with Big Data」手机应用程式,以提升非华语人士学习日常粤语的兴趣和成效。

雅俗文本兼收 提高学习多样性

「Learn Cantonese with Big Data」应用程式较传统的粤语学习工具和课程更贴近时下的生活用语,程式除了记录词性、笔划、部首、笔顺外,亦结合语料库技术和语言学知识,从而引导师生透过字词使用频率,词汇搭配和常用字词等调整教学模式,达致更有效的学与教。钱志安博士指出,坊间的粤语教材有时会包含一些不常见或一早已消失于香港社会的词语,如「马车」、「人力车」、「三厢车」、「风车」、「脚车」和「款厢型车」等。

「我们注意到大部分粤语词典着重粤语方言词,如『佢哋、咩嘢、叻』等,跟现代汉语一样的词条则未被收录,如『苹果』、『社会』、『政府』等——然而这些都是常用词,工具书缺乏这些词条会对粤语学习者引起不便。」钱博士指出,他与团队运用数据科技,分析和处理了网上资源和现代粤语材料,如面书专页「西客之道」、「维基百科」、「回响粤语文学期刊」、「《 小王子》粤语版」、「二十世纪中期香港粤语语料库」和「粤典」等雅俗兼备的文本,整理出一些常用词,并比较这些粤语词料的使用频率和配搭字词如「动词—名词宾语」和「量词—名词」,最后开发手机应用程式——「Learn Cantonese with Big Data」。

设以图搜字功能 字词对照南亚语

程式为更切合非华语人士使用需要,特意加设了以图像搜字的功能,用家可以拍下照片,再上传至系统,透过文字辨识技术,自动输入相片的汉字进行检索,同时系统除了中英对照外,亦对照多种南亚语,如乌都语,尼泊尔语和印度语。钱博士补充,平台为提供个人化的学习模式,用家只要注册个人帐户,就能将字词页面加入书签,作为个人的学习纪录,方便日后复习。

显示使用频率 从常用字开展学习

「香港部分的非华语人士可能未必对整个粤语语系知识感兴趣,他们只想融入香港社会,能在日常生活中顺利和交流,因此一些符合日常需要,并能应用于生活的学习素材更为重要。」钱博士表示「Learn Cantonese with Big Data」处理了约 210 万字,当中主要来自 4,466个汉字。语料中首 1,000 个常用汉字已经涵盖 95% 的语料。「因此掌握粤语常用词汇对于学习粤语有着关键性的意义,程式因为应用了大数据,可以展示出字词的使用频率,同时亦会显示『动词—名词宾语』和『量词—名词』的搭配。」这种数据主导的学习方法,能够提高语言学习效能,同样还能加强常用字训练,而且亦方便系统进行快速更新。此外,语料能够反映当下文化趋势,如在疫情中的香港,系统反映「食外卖」的配搭使用次数亦较高。

钱博士希望以后能够有更多运用大数据开发的语言学习工具,使学习更生活化和做到学以致用的效果。

錢志安博士Learn Cantonese with Big Data程式中高頻詞語