天天小说网

5.1 词切分及其在阅读中的作用

5.1.1 什么是词切分

词是语言中最小的能够独立运用的有音有义的单位(黄伯荣,廖序东,2007),也是分析和处理语言的基础。鉴于词在阅读中的重要作用,要理解语言中的句子乃至段落篇章,首先需要对词进行加工识别。要对词进行加工又需要把词从文本中切分出来,此过程简称为“词切分”(李兴珊,刘萍萍,马国杰,2011)。

5.1.2 词切分的重要性

词切分在汉语阅读中的重要作用

在古代文言文阅读中缺少标点符号,“句读”(即词切分)成为一项重要的阅读能力。《师说》曾明确指出:“句读之不知,惑之不解,或师焉,或不焉,小学而大遗,吾未见其明也。”句读技能的高低直接影响着读者的阅读理解。例如,在《论语·泰伯篇》中有一句“民可使由之不可使知之”,因句读不同而有以下五种理解:(1)“民可使由之,不可使知之”(只可让老百姓听从驱使,不需要让他们了解这样做的原因)。(2)“民可,使由之;不可,使知之”(民众认可、同意的,就让他们照着做;民众不认可、不同意的,就让他们明白为什么要做的道理)。(3)“民可使,由之;不可使,知之”(民众可使唤,让其听从使唤;民众不可使唤,则晓之以理,让其明白要使唤他们的缘由)。(4)“民可使,由之不可;使知之”(如果老百姓可以被支使,放任自由是不行的,必须加以引导)。(5)“民可使由之?不。可使知之”(老百姓可以放任不管吗?不。要进行教育)。

在现代汉语中,虽然标点符号可以标记语意停顿,然而,汉语句子由一系列紧密相连的汉字串组成,几个相邻的汉字构成词间没有明显的视觉标记。如“武汉市长江大桥”,既可以切分为“武汉市/长江/大桥”,也可以切分为“武汉/市长/江大桥”,但两种切分方式下语句的含义完全不同。因此,词切分在现代汉语阅读中同样起着重要作用,一直备受语言学、心理语言学等领域的专家和学者的关注。

词切分在计算机科学中文信息处理中的重要作用

由于现代信息技术的发展,大量的信息以文字的形式爆炸式增长。如何利用计算机对这些信息进行分类、检索等自动处理,是计算机科学面临的巨大问题。目前利用计算机进行中文信息的自动处理还有很大难度,其中一个重要难点在于词的切分。词的切分是计算机理解文本的基础。由于汉语词汇复杂多变,很难从中概括出一条统一的规律适合于所有词汇的切分。基于词汇的切分困境在于很难组建一个完善的词典,并构造出一个完善的切分策略。基于人工智能的切分目前尚处于发展阶段,它的困境是如何获取完备的规则库,包含所有的切分策略,或者如何找到一个完善的样本,让计算机在短时间内习得误差最小的切分方式。基于统计的切分策略所面临的困境是算法问题,很难完全依赖于一种简单的算法就能解决所有切分问题。因此,词切分认知机制的研究和解决,可以为计算机科学的中文信息处理提供科学依据。

此外,中文词切分在机器智能化切分领域(如机器人翻译、语音识别、智能输入、数据挖掘、人机对话和机器测评等)有重要的应用价值。智能化是未来时代的主题,要使词汇的切分实现真正的智能化,探讨词切分过程所采用的规则就显得非常重要。因此,词切分机制的系统研究可以为现代智能系统的词切分提供心理语言学方面的证据。

更多内容加载中...请稍候...

若您看到此段落,代表章节内容加载失败,请关闭浏览器的阅读模式、畅读模式、小说模式,以及关闭广告屏蔽功能,或复制网址到其他浏览器阅读!