话说古时候,天下人都说一种语言。他们计划修一座高塔,塔顶要高耸入云,直达天庭,以显示人们的力量和团结。塔很快就建起来了,这惊动了天庭的耶和华。他见到塔越建越高,心中十分嫉妒。他暗自思忖,现在天下的人们都是一个民族,都说一种语言,他们团结一致,什么奇迹都可以创造,那神还怎么去统治人类?于是耶和华便施魔法,变乱了人们的口音,使他们无法沟通,高塔也无法继续建下去,最终没有建成。
如今通过电脑实现了Unicode编码,人类又重新建立了通天塔。然而此时人类的语言文字简直天差地别,反映在电脑上则是大异其趣的各种民族文字。尽管Unicode收集了全世界的各种民族文字,不过摆在人们面前的难题是如何检索和输入。
当前Windows XP在附件的系统工具(Accessories > System Tools)中所提供的字符映射表(Character Map)仍是Unicode 2.0版本,只能检索其中20902个中日韩统一汉字(CJK Unified Ideographs)。即使从微软官方网站免费下载并安装了符合Unicode 3.0版本的宋体-18030(收2.7万汉字)或Unicode 3.1版本的细明体(收7万汉字),字符映射表对于检索前者新增的6582个CJK扩展A汉字或后者新增的42711个CJK扩展B汉字是无能为力的。
这时我们迎来了取名自巴比塔的文字工具——巴比塔输入板(BabelPad)(图1)和巴比塔字符表(BabelMap)(图2),其中输入板可从选项菜单的用户界面语言选择英文、简体中文和繁体中文。目前两者均支持Unicode 4.1版本,可从
http://babelstone.co.uk网站下载。作者是英国人魏安。根据《维基百科》网站(
http://zh.wikipedia.org)记载:“魏安(Andrew West)是一位著名的语言学家。他专长于亚洲文字,Unicode里的不少亚洲文字就是由他建议的。”他有一本专著《三国演义版本考》,由上海古籍出版社出版。
基本上,输入板覆盖了字符表的所有功能(图3)。除了对Unicode全部字符检索输入之外,输入板还可以处理一般的文字编辑、打印和保存的工作。此外,输入板的转换功能提供中文简繁转换,并可以解决出现乱码的中文电子邮件,方法是选中有关乱码,从转换菜单选择引用数字转换成统一码(图4)。
输入板和字符表的工具菜单都提供统一码分析和字体分析,从中我们可以了解到Unicode各版本的历史、平面和编码区(图5)以及特定字体覆盖了哪些Unicode编码区(图6)或特定Unicode编码区有哪些字体(图7)。输入板还提供文件分析,从中我们可以了解到文件内容用了哪些Unicode编码区字符,其摘要提供字数、词数和行数统计(图8省略)。
输入板的输入工具栏除了提供系统预设的输入法,也可采用Unicode、藏文、蒙古文、满文和彝文输入法。对于中日韩统一汉字来说,汉字部首输入法无疑用途最大。有关部首按照《康熙字典》214个部首排列,另有23个简体部首不计算在内。如果我们确知要找的字属于某个编码区,那么可以通过关闭CJK汉字、CJK扩展A汉字、CJK扩展B汉字或CJK兼容汉字选项来缩小找字结果。此外,我们也可以通过笔画数限制找字范围,笔画数还可以增减一画来扩大找字结果(图9)。另外汉字拼音输入法通过选定拼音音节来找字,并附加声调(图10省略),可以查找全部CJK汉字、CJK扩展A汉字以及约两百个CJK扩展B汉字。至于彝文部首输入法令人大开眼界(图11)。
最后关于字的属性,包含了该字的Unicode属性、注释、别名、参考、规范异体字(未实现)、汉字读音(普通话、朝鲜话和越南话)等,点击字的演变按钮可以查询该字从哪一版本收入Unicode。
补充:BabelPad不能直接打开非Unicode编码的文件,而必须通过导入文件来选择编码(如简体中文选用Windows代码页936,繁体中文选用Windows代码页950)才能正确显示内容。通过导出文件则只能选择ASCII Plus或GB18030(一般选择后者)输出内容。