北大中文论坛 www.pkucn.com

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
楼主: 一马平川

形码理论,刻不容缓

[复制链接]
发表于 2011-6-26 21:06:26 | 显示全部楼层
原帖由 万码奔腾 于 2011-6-26 17:46 发表
关键是理论在哪里,哪里有,有多少
没有理论还得建立理论才能谈理论创新
没有理论谈理论创新是无米之炊。

首先我们必须放弃五笔的理论,组成汉字的基本笔画是横、竖、斜(点)三种纯笔画。这是一个全新的理论。它是组成汉字的最少笔画。在此基础上编成的《强的纯笔画输入法》只有二十六 组字根组合,
因为每一个键上的字根都是同笔画码。字根越多却越容易记。每个键上都可以标上基本笔画即可。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
 楼主| 发表于 2011-6-26 21:19:53 | 显示全部楼层

无字根形码拆分编码新理论

从这篇帖子开始,将陆续介绍我对形码输入法的新思想,新理念,或说新“理论”。

无字根形码拆分编码新理论——拆分

   形码输入法,如果撇开编程,则莫过于拆分和编码了,而且也是绕不过去的两道坎。
   形码输入法,最有代表性的当然是五笔字型字根输入法了。五笔字型字根输入法发展到今天,几乎已到了至善至美的程度,但也同时让他的固有弊端和先天的局限性暴露无遗。五笔字型字根输入法靠字根起家,最后还要毁于字根。
五笔字型字根输入法的最大问题就是从数万的庞大汉字群中抽出几十个或几百个有代表性的部件作为字根,以字根作为基本组字原件实现对汉字的拆分和重组。由于字根数量的局限性,再加上汉字结构的复杂性,必然使拆分难以精确到位,也很难到达有理有据,只能取其大概折中而已。这样做的结果必然要存在较大的歧义性,引起较多的麻烦和争议,这也正是字根形码输入法拆分编码的不确定性所带来的难学问题。也是一个字根形码无法克服的顽癖。
    要输入就得拆分,就得编码。拆分编码都是手段,输入才是目的。字根形码,为了达到输入的目的,必须一切围绕字根转,所以就不可能做到以字为本,按着字例本身的结构实行自然拆分,就可能乱点鸳鸯谱,强行拉郎配,甚至任意阉割,肢解字例。这有点不尊重汉字,不符合人性的表现,会给人们造成某种程度的抵触心理。汉字的拆分,要尽可能做到自然、直观。既要保留尽可能多的原来信息、又要化繁为简,便于操作。无字根输入法首先在编码层面采用规则编码方案,赋予了汉字拆分极大的自由空间,即无论汉字采用何种方式拆分,都有相应的编码方案和他相对应。这样一来,我们完全可以把汉字的拆分做到入情入理,最佳选择。例如贯彻少分、大分的原则,贯彻约定俗成的原则,贯彻离分交不分的原则,贯彻成字整体拆分的原则等,。总之就是最大限度的符合字例原有结构和符合人们的认知习惯。对小字符集来说,绝大多数字例都可以做到明确拆分,少数字例可能需多做斟酌。由于无字根拆分是从组字着眼,拆字着手,拆是为了组,因此也可以对一些特殊部件做合并处理,对特大部件做特定处理,使拆分更趋简洁。
    拆分是第一步,有了好的拆分,再有好的编码,输入法就成功了一大半。现在的问题是任何规则也不是万能的,必须让规则与字例有机地结合,找出真正适合的方案来。对于少部分特例,只有采取特殊的办法来解决。
关于拆分带来的重码问题,既然拆分一定,靠拆分本身是不能解决的。因此需要在编码层次多做文章。主要的思想就是尽可能均衡分配代码的负载量,只要代码负载量分配均衡,那么重码也会被有效分离,只要把重码控制在10以内,做到不翻页见字或翻一次页见字,对于普通用户还是能够接受的。把这个重任交给编码,也是对编码的考验。
     拆分这一步做得好,就可以做一个好输入法。拆分这一步做不好,就不可能做一个好输入法。
     万码奔腾先生的二分理论,用在形码拆分上是完全可行的,只不过是不要机械理解。例如有一次二分,还可以有二次二分,三次二分等。

    举例:   字例        最佳拆分       参考拆分
              输             4分           2分
              入           0分
              法           2分
              形           2分
              码           2分
              理           2分
              论           2分
              探           3分          2分
              索           2分          3分
              编           3分          2分
              辑           3分         
              荟           2分          3分
              萃           2分          3分
发表于 2011-6-26 21:32:12 | 显示全部楼层
原帖由 一马平川 于 2011-6-26 21:19 发表
五笔字型字根输入法发展到今天,几乎已到了至善至美的程度

可否解释一下,实在看不懂
发表于 2011-6-26 21:33:32 | 显示全部楼层
原帖由 一马平川 于 2011-6-26 21:19 发表
由于字根数量的局限性,再加上汉字结构的复杂性,必然使拆分难以精确到位,也很难到达有理有据,只能取其大概折中而已。

请举例说明什么叫精确到位,怎么样的难以精确到位。
发表于 2011-6-26 21:35:32 | 显示全部楼层
楼主说的显然不是理论,是拆分方法,个人的观点、看法之类。方法上升到理论是有距离的,理论至少是经过实践得来的又能够指导实践的东西。
所谓理论,指的是“人们由实践概括出来的关于自然界和社会的知识的有系统的结论”。是指人们对自然、社会现象,按照已知的知识或者认知,经由一般化与演绎推理等方法,进行合乎逻辑的推论性总结。是在某一活动领域(如医学或音乐)中联系实际推演出来的概念或原理,或经过对事物的长期观察与总结,对某一事物过程中的关键因素的提取而形成的一套简化的描述事物演变过程的模型。
发表于 2011-6-26 21:38:08 | 显示全部楼层
不管一马先生说的是否是理论或者方法或者观点或者看法。鼓励一马先生继续说下去。

不过,大家可以帮着推敲。对吧
 楼主| 发表于 2011-6-26 22:35:13 | 显示全部楼层
回复18楼
    是指五笔字型字根输入法这种模式已近乎完美,接近顶峰,再没有较大的发展空间。
回复19楼
    我是主张高保真复制和全息编码的,因此认为五笔字型字根输入法难谈精确,其前三末一取码方式有省略之嫌。
 楼主| 发表于 2011-6-26 22:38:38 | 显示全部楼层
回复20楼
像“初级阶段”社会主义一样,属“初级阶段”理论吧!
发表于 2011-6-26 22:41:59 | 显示全部楼层
原帖由 一马平川 于 2011-6-26 22:35 发表
回复18楼
    是指五笔字型字根输入法这种模式已近乎完美,接近顶峰,再没有较大的发展空间。

我的意思是不但不是“至善至美”,而是十分差劲的理论!
一个漏洞百出,不能自圆其说的理论,怎么可能是接近顶峰的的呢?
所以,不仅仅是普通用户,很多人对五笔的认识都不到位。
发表于 2011-6-26 22:45:00 | 显示全部楼层
原帖由 一马平川 于 2011-6-26 22:35 发表
回复19楼
    我是主张高保真复制和全息编码的,因此认为五笔字型字根输入法难谈精确,其前三末一取码方式有省略之嫌 ...

这个就好像是全拼用户的简拼。应该无可厚非。

如果确实需要做到不省略,可以给个模式。相信选择五笔的用户几乎没有选择取全模式的。因为这是一个简单的扬弃冗余信息的办法。

你可以问问五笔用户,看看愿意用取全模式的占什么比例。取全任何人都会。而合理的扬弃是以汉字、键盘、码长等要素为基础的综合结果。
发表于 2011-6-26 22:47:15 | 显示全部楼层
不必太在意文中的句子的准确或表达得是否绝对正确。
把你的思想或灵感留下来,就可以给人启发。
 楼主| 发表于 2011-6-26 23:03:19 | 显示全部楼层
回复25楼
     采用大部件拆分可避免字根带来的失真问题。
发表于 2011-6-26 23:05:52 | 显示全部楼层
大部件的副作用很大。
比如记忆问题,
比如字根数量和键位安排问题,
比如末笔识别的难题,包括字根字的输入,
最后,如果不固定码长的话,效率又没有了。

如果又不能简单,又不能快速的话,为什么不用更好的办法呢
发表于 2011-6-26 23:07:34 | 显示全部楼层
原帖由 一马平川 于 2011-6-26 23:03 发表
回复25楼
     采用大部件拆分可避免字根带来的失真问题。

这个看怎么理解了。
恐怕没有任何用简拼的用户,感觉到有什么失真。他们觉得“方便”
 楼主| 发表于 2011-6-26 23:15:58 | 显示全部楼层
回复16楼
      五种基本笔画最好不动,这是中文大厦的基石,抽掉其中任意一块都会使大厦不稳,且还涉及大众认可的问题。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|北大中文系 ( 京ICP备12040209号

GMT+8, 2016-3-24 19:30 , Processed in 0.118528 second(s), 20 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表