2013年最完整的“汉字→拼音声母”处理pas单元支持Delphi6 XE5 转载的一位大虾的非

文件名称: 2013年最完整的“汉字→拼音声母”处理pas单元支持Delphi6 XE5

所属分类: Delphi

开发工具:

文件大小: 143kb

下载次数: 0

上传时间: 2014-09-06

提供者: u0128*****

下载 (143kb)

不能下载？报告错误

详细说明：转载的一位大虾的非常好用对于有用的人来说这个分值了一起共享只为了多个下载通道不敢少于他的分数一特点： 1 支持多音字支持所有中国汉字共20902个包括难字生僻字广东白话字繁体字等所有计算机能显示的全部汉字例如：镕啱揾叻嘅咁門長發財車冇乜嘢 2 同时支持Unicode和ANSI字符集 3 支持Delphi6至DelphiXE系列的所有Delphi版本最后一次测试是XE4 二实现原理 Unicode ： 1 根据汉字的编码规则汉字在Unicode的编码范围为$4E00至$9FA5 即:19968至40869 共20902个汉字 2 对中国汉字字库中的每个汉字扫描从互联网下载的较完整的拼音字库找到每个汉字的全拼拼音包括多音一个汉字最多4种读音并获取每个读音的声母首字母生成汉字声母字典文件 3 把声母字典文件中每个汉字的声母按汉字字库的Unicode编码规则全部串在一起由于一个汉字最多3种读音有4种以上读音的仅有"竓qfzygs 竕sfzyg 竡yg sb"三个生僻字仅取前三个读音为每个汉字预留3个字节空间生成Unicode汉字声母表如本单元所定义的PartUnicode常量 4 查找原理：要查找一个汉字在声母表中的对应位置应使用以下公式计算得：汉字声母索引汉字Unicode编码 19968 3 + 1; 其中19968是指Unicode字符集中的第一个汉字位置; 3表示每个汉字预留的3个字节空间三实现原理 ANSI ： 1 根据汉字的编码规则第一字节为区码纵向第二字节为位码（横向）第一字节的范围是129 254 共126种其中161 169段存放各种标点符号 254段为无效汉字真正有效段为129 160 170 253 共116种第二字节的范围是64 254 其中127段为分隔符不存在任何内容真正有效段为64 126 128 254 共190种排除无效字符及标点符号后有效的汉字库分为三部分： 1 第一部分区:129 160 位:64 254[除127] 32 190 6080 2 第二部分区:170 253 位:64 160[除127] 区253位156 160留空 84 96 5 8059 3 第三部分区:176 247 位:161 254 区215位250 254留空 72 94 5 6763 合计: 20902个汉字 2 按以上规则可生成三个部分的中国汉字字库每个区码一行每个位码一列 3 同二 2 4 同二 3 如本单元所定义的Part1 Part3常量 5 查找原理：要查找一个汉字在声母表中的对应位置应使用以下公式计算得：汉字声母索引汉字区码段落起始区码位码长度 + 汉字位码段落起始位码 3 + 1; 其中3表示每个汉字预留的3个字节空间如汉字“啊” 其区位码分别是 176 161 根据上述第1点所定义属于第三部分汉字理应在常量Part3中查找由于第三部分的位码范围是161 254 横向长度是94 即一行一个区有94个汉字所以“啊”在Part3中的位置应该是： 176 176 94 + 161 161 3 + 1 1 即Part3[1] "a"; 四更新历史： 1 10 9 8 由于全拼输入法的拼音库太过全面有部分多音字的第一个拼音却不是常用的拼音导致汉字转声母有时不准确决定抛弃全拼输入法的拼音库改为采用从互联网下载的较完整的拼音字库重新生成汉字声母表 2 10 12 27 上一次更新时是在Excel中编辑文件的在Excel内替换右括号" "为空时 "Jun1 "替换后会变成"1 Jun" Excel的奇怪现象导致"军"字的声母变成数字"1" 类似的情况还有很多本次更新全面修正此类问题并且经检测发现99 9%以上的多音字最多只有三个读音仅"竓qfzygs 竕sfzyg 竡ygsb"三个生僻字有4种以上读音故声母表全部由4个字节改为预留3个字节上述三个僻字仅截取前三个读音的声母 3 12 2 14 之前的版本按常用程度分为五个级别但却漏了区:170 175 位:64 160 一段汉字合计漏了6 96 576个汉字未处理今改为按汉字编码分布规则划分为三个部分（三段）共计20902个汉字是迄今为止史上最完整的汉字字库据此生成的Part1 Part2 Part3三个声母常量也是最完整的汉字声母表另外从该版本起开始支持Delphi2007 DelphiXE系列 4 13 9 13 针对Unicode的编码规则生成全新的Unicode原生汉字声母表放弃以前把String转换为AnsiString的方法由于少了转换步骤所以理论上在Delphi2009 或更高版本时算法速度更优更快同时使用编译指令兼容Delphi6 2007的非UniCode开发环境这部分保留以前的算法 ">转载的一位大虾的非常好用对于有用的人来说这个分值了一起共享只为了多个下载通道不敢少于他的分数一特点： 1 支持多音字支持所有中国汉字共20902个包括难字生僻字广东白话字繁体字等所有计 [更多] ...展开收缩

(系统自动生成,下载前可以参看下载内容)