公告栏:

首页 > 项目动态 > 列表

上海:刑事侦查的汉语方言识别

“用于刑事侦查的汉语方言识别系统模型”通过评审结项

 

  最近一项由上海师范大学刘泽民教授主持完成的上海市社科基金项目“用于刑事侦查的汉语方言识别系统模型”通过评审结项。该研究建立的数据库系统是一个以面向刑侦的,以样本的方言识别或鉴别为目的的专家系统。系统实现以下功能:一、语音样本听辨分析和整理存档功能;二、全国各地方言语音和带方言口音的普通话语音的播放、听辨对比功能;三、全国汉语方言分区分类状况的查询功能;四、多角度的方言特征检索功能,该功能是实现方言识别的最核心的功能;五、可供咨询的汉语方言专家的信息查询功能。

 

  这是面向应用的研究,运用了多学科知识的综合研究,在国内是开创性的,模型开发过程中,涉及许多方言学的学术难题,创新价值明显。

 

  该模型分为五大功能模块:

 

  方言分区分类信息模块  目前数据库提供全国两千多个县级行政区方言使用情况,包括各县市的行政区辖和使用方言所属的大方言区和下属的方言小区、方言片。分言分区信息提供两种检索方式:行政区以省为单位查询,方言种类以一级方言区为单位查询。

 

  方言听辨比较模块  釆集了几百个方言点的方言语音样例和带方言口音的普通话语音样例,提供了以行政区为单位的选择播放功能。该模块有两方面的功用,一是在案件分析时与案件语音样本进行比照,以确定样本与哪些方言点语音在听感上相似;二是供办案人员平时反复听辨,从听感上熟悉各地各类方言,训练自己的方言听感,提高对不同口音的辨别能力。

 

  语言样本分析模块  本模块提供语音样本的分析功能。通过该模块可将涉案语音样本调入,反复播放,仔细听辨,以确定语言样本的各种可供鉴别的特征。在口耳听辨不足以鉴别的情况下,该模块可以调用优秀的语音分析软件PRAAT,对样本进行更专业的语音分析。该模块还有语音样本文本记录和特征分析记录的功能,将这些信息存档,成为专业的案件语言样本数据库以资利用。

 

  特征查询模块  该模块是本系统的核心功能模块。对样本的方言鉴别主要靠从样本中提取各种语言特征,包括语音特征、音系特征、语法特征和词汇特征。语音特征包括样本语言中的元、辅音种数总量,有无特殊发音的稀有音素。音系特征对方言类属的判定有最重要的意义,这是本系统的重中之重。除非说话人操极其纯正的普通话,否则其话语中都会或多或少的暴露一些所属方言的特征信息。语言中音系特征的捕捉是判定方言归属的最重要手段,但音系特征仅靠方言的共时分析无法掌握,它涉及古今音类的对应关系。概言之,所谓方言的差异,主要可以归结为方言中古今音类对应规律的差异,即方言的现代声母对应古代哪些声母,现代韵母对应哪些古代韵母,现代声调对应哪些古代声调。例如,汉语方言中大量存在所谓n、l不分的音系现象,西南官话、江淮官话、部分赣语、部分闽语、部分湘语都有这类现象,但各地n、l分混还有一些差异。在n、l区分的方言中,读n声母的字是中古的泥母、娘母字,如:拿奴那难,读l声母的是中古的来母字,如:来兰林李。又如,普通话中一些读f声母的字,在闽方言中读成x或h声母,如,飞发反饭粉,相反,普通话中一些读x声母的字,到了客家话、湘语还有一些西南官话中却读成f声母,如,花湖魂回。普通话中读f声母的是中古的非组声母字,读x声母的是中古晓匣母字。要搞清楚古今音类对应关系,数据库中的方言资料不仅要包含现代语音和音系信息,还要包含古代音系的信息,并且要在这两类信息之间建立联系。该模块中的方言数据库就是包含了数千字的古今语音、音类的大量数据信息,以中古《切韵》音系为核心,关联古今,并提供了多角度的检索,使得通过方言音系特征来判定方言归属,判断说话人说何种方言甚至何地方言成为可能。在建成完备的数据库的前提下,在一个语音样本中,如果能提取出若干个语音或音系特征,通过全面检索数据库,就能找出符合这些特征的方言种类或方言点,如果某片或某个方言符合样本中所有特征,那么极有可能该说话人就是说该片或该点方言的人,锁定他的籍贯或生长居住地。如果只有某些特征相符,我们也能提供一个方言属地的范围,缩小侦查范围。

 

  专家资源查询模块  方言鉴别毕竟是相当专业和相当困难的事,侦查人员在面对样本无法提取方言特征或有了特征却无法通过数据库确定方言归属时,就有必要求助相关专家。本模块提供可备咨询的全国方言和语言专家的相关信息,以便必要时联系咨询。

 

  为了实现以上功能,本模型建立各类数据库15个,包含数据表385个,其中代表方言点语音数据表320个,覆盖全国各大方言包括北方话、晋语、吴语、湘语、赣语、客家话、徽语、闽语、粤语、平话和土话等,中古音数据表18个。总的数据记录数超过60万条。采集了带方言口音和纯方言口音的录音样本228个。程序代码达2000多行。

 

  国内的刑事犯罪中异地作案的比例越来越高,尤其是在大中城市,外来流动人员刑事犯罪占据不小的比例。流动人口犯罪中犯罪嫌疑人在作案过程中往往会留下带有方言特征的线索,考虑到流动人口犯罪有明显的团伙性特征,往往由籍贯相同的“老乡”关系为纽带组织团伙,方言使用成为常态,加之流动人口受教育程度偏低,而低教育程度人员语言中方言口音偏重,这就突显了语言因素在这种犯罪侦破中的重要作用。这些语言特征线索往往能为侦破提供有决定意义的信息,如根据犯罪嫌疑人的方言特征确定他的籍贯,以确定侦查的方向,锁定重点侦查目标等。目前公安机关迫切需要一个面向刑侦的方言识别系统,建立起这样的系统,对刑侦工作的意义是十分重大的,其社会效益是巨大的。