只需一步,快速开始
原帖由 谢振斌 于 2008-6-12 15:47 发表 我已经实现的系统是处理7万多汉字的。对于词语,我不储存拼音的。 不过,我把Ext-B汉字单独储存,而且目前也没有考虑Ext-B汉字构成的词语,所以: (1)BMP汉字,每个汉字内码用2个字节,拼音2个字节(采用 ...
举报
原帖由 路路通 于 2008-6-12 17:29 发表 说一下我的码表: 对于词语,只保存多音字的拼音。 每个汉字内码用2个字节,拼音2个字节(声母占5位,韵母占5位,声调占2位,共12位),频度信息2个字节。 路路通键盘可提供两组键盘,一组用于声 ...
原帖由 谢振斌 于 2008-6-12 18:18 发表 想到了一个我遇到的矛盾,提一下,看看路兄是否可以给点参考意见。 目前动态频度统计部分目前虽然还没做进去,但具体做时有一个问题需要考虑。 那就是,动态频度涉及到“场景”问题,不同编码模式输入时的频 ...
原帖由 谢振斌 于 2008-6-13 15:29 发表 谢谢路兄的意见。 论坛越来越冷清了,讨论学术的少了,宣传输入法的也少了
原帖由 路路通 于 2008-6-13 16:43 发表 不知何故变得如此冷清,就连火爆的《语言文字漫谈》也是如此。 谢兄的“多音字采取不同内码表示”可节省不少内存,不过不明白为何不支持包含非汉字的短语。我觉得编码串如果不是要求拼音与非拼音混合输 ...
原帖由 谢振斌 于 2008-6-13 17:41 发表 不支持非汉字的短语,是为了便于和音节数进行对应。比如三个音节、三字词、6个字节,都是对应的,否则结构就会比较复杂。对于静态数据部分,我是力求简单。搜索匹配也是顺序搜索。 对于动态部分,还没有弄好 ...
原帖由 路路通 于 2008-6-13 19:37 发表 难道谢兄的码表结构只记录词语,连记录长度这一个字节也省掉?
原帖由 路路通 于 2008-6-13 21:19 发表 希望你明天就赚到大钱!
本版积分规则 发表回复 回帖后跳转到最后一页
Archiver|手机版|小黑屋|北大中文系 ( 京ICP备12040209号 )
GMT+8, 2016-3-24 20:37 , Processed in 0.124550 second(s), 19 queries .
Powered by Discuz! X3.2
© 2001-2013 Comsenz Inc.