对于大词汇量语音识别系统,适当选择基本单元至关重要。虽然以词为基本单元时避免了词边界的确定等复杂过程,但很多派生类结构中(如黏性语言),词比较长,而且很多文字(中文、日文)不需要词边界,因而在自然语言处理应用中没有选取基本单元集的固定模式。本文,以维吾尔语大词汇量语音识别系统为例,研究基于层次化基本单元集的语音识别系统,比较了各种单元集的优缺点,提出了新的平衡长单元集和短单元集的优缺点的方法。通过比较各种层次化单元集为基础的语音识别结果,分析错误识别模式,收集被误判的单元序列,作为在两层单元序列