北大中文论坛 www.pkucn.com

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
楼主: tsiank

汉语大字典第二版检索表excel发布

[复制链接]
发表于 2014-2-20 17:10:09 | 显示全部楼层
本帖最后由 星空一号 于 2014-2-21 08:17 编辑

有幸在其他网站发现了《汉语大字典》(第二版)中无法用输入法打出了的非Unicode字,4523个(图片字)。现在把它奉上,希望楼主尽快完善这个Excel表格的字头,并把遗漏的100多个字给补上,形成一个完整的字典字表。













本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
发表于 2014-2-23 13:38:00 | 显示全部楼层
extc 发表于 2014-1-17 00:39
我把X字用圖片列出來了, 你打開我的版本看看吧.

http://www.pkucn.com/thread-299116-1-1.html汉语大字 ...

請問星空一号, 你的excel 和我的excel 有什麼不同呢?
我的都是待定字頭 4523 啊.  

点评

你的链接,我打不开。  发表于 2014-2-23 21:13
哦,我下的是楼主的字头表,待定字是用X表示的。  发表于 2014-2-23 21:11
发表于 2014-2-23 21:22:28 | 显示全部楼层
楼主打不出来的字,现在有了图片字(可复制),但他丢失的100多个字,是哪些字?现在好像还没答案呀。
发表于 2014-2-24 19:25:53 | 显示全部楼层
我找到缺失的字都用字頭編號後配上a字, 例如在220字後缺字就叫做220a,
如果有兩個缺字, 就叫b,如此類推.
不過全部都沒有連續兩個或以上的缺字. 所以只要在我的Excel文件進行篩選就可得出
哪個是前人錄漏的字頭了.

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x

点评

哦,先生的Excel文件在哪里下载?  发表于 2014-2-25 09:38
发表于 2014-2-25 17:26:18 | 显示全部楼层
extc 发表于 2014-2-24 19:25
我找到缺失的字都用字頭編號後配上a字, 例如在220字後缺字就叫做220a,
如果有兩個缺字, 就叫b,如此類推.
...

你好,extc先生,我今天下载了你的excel表,发现我32楼提供的字体表,正是来源于你的数据表。
发现点小问题
1、待定字体表中,非Unicode汉字有4523个,其中,有两个有误差。
完整表中有55588a,待定表中缺乏该字,没有图片字。而待定表中的4523(周的异体字)属于Unicode汉字,不在完整表的X(非Unicode)之列
2、汉语大字典共60370字,你的完整表中只有60347字,还差23个字呢。
发表于 2014-2-25 22:11:38 | 显示全部楼层
extc先生的字头表,还差23字。
今天浏览汉语大字典,偶然找到一个遗漏的字:【丑】上面的【互】字。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
发表于 2014-2-25 22:41:53 | 显示全部楼层
本帖最后由 extc 于 2014-2-25 22:51 编辑
星空一号 发表于 2014-2-25 17:26
你好,extc先生,我今天下载了你的excel表,发现我32楼提供的字体表,正是来源于你的数据表。
发现点小问题
1、待定字体表中,非Unicode汉字有4523个,其中,有两个有误差。
完整表中有55588a,待定表中缺乏该字,没有图片字。而待定表中的4523(周的异体字)属于Unicode汉字,不在完整表的X(非Unicode)之列
2、汉语大字典共60370字,你的完整表中只有60347字,还差23个字呢。


55588a 號 (馬亻付)在待定字头工作表上確實遺漏了, 另外 6740號 (𠱬)原本是tsiank兄標註做X, 我根據U+20C6C 康熙字典的解釋(zdic.net)和汉语大字典的解釋對上了. 由於 6739號 (𠕛)字形很類似, 所以我特別把這兩個字頭的解釋都打出來.

看來,我要好像電影《字裡人間》一般,把字典都較五遍,把缺失的都找出來了。
发表于 2014-3-14 17:45:54 | 显示全部楼层
找到一个遗漏的字:第85页第5个——85-05

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
 楼主| 发表于 2014-3-20 17:53:02 | 显示全部楼层
星空一号 发表于 2014-3-14 17:45
找到一个遗漏的字:第85页第5个——85-05

是82頁第4個字吧

点评

对,是我标注错了。  发表于 2014-3-21 15:48
发表于 2014-3-29 13:30:51 | 显示全部楼层
這四千多個缺字,若以「http://glyphwiki.org/wiki/GlyphWiki」網站逐字處理,(日後可以一併下載成單獨TIF字型檔。)無論是螢幕上網路顯示或者離線電腦文書使用都可以。

若著手處理,時間大約要二個月,費用大約需要新台幣八萬左右。

若這些缺字處理,並支援「構字式」方式查詢,「漢字大字典」的網路資料庫才有實現的可能。
发表于 2014-3-30 21:23:57 | 显示全部楼层
本帖最后由 星空一号 于 2014-3-30 21:25 编辑
extc 发表于 2014-2-25 22:41
55588a 號 (馬亻付)在待定字头工作表上確實遺漏了, 另外 6740號 (&#134252原本是tsiank兄標註做X, 我 ...



看來,我要好像電影《字裡人間》一般,把字典都較五遍,把缺失的都找出來了。

不知extc先生,是否把这些缺失都找出来了?

另外,那些没有编码的图片字中,有哪些是马上公布的扩展E中有的?可否先给定这些图片字的Unicode码?
发表于 2014-3-31 18:39:55 | 显示全部楼层
tsiank 最近更新了EXCEL文件, 只剩餘約30字未有找到.
其實找Babelmap的作者Andrew West用IDS(Ideographic Description Sequence)做一次
漢字分拆分析,就容易找到unicode 對應了.Andrew West已經初步將CJK_E五千多個漢字都做了
一次漢字分拆分析:
http://babelstone.co.uk/Data/CJK_E_DATASHEET.xls

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
发表于 2014-3-31 22:09:18 | 显示全部楼层
嗯,我看到了siank 最近更新的EXCEL文件。辛苦他了。
那些图片字,可能有些是扩展E的。目前无法打出来。exct先生是否可以用另外一列,对属于扩展E的字,先标出它们的Unicode码来?以后有字库出来了,我们只需转换一下就可以了。
发表于 2014-4-1 09:37:56 | 显示全部楼层
星空一号 发表于 2014-3-31 22:09
嗯,我看到了siank 最近更新的EXCEL文件。辛苦他了。
那些图片字,可能有些是扩展E的。目前无法打出来。ex ...

请问是否可以用动态组字来做?
发表于 2014-4-1 21:27:32 | 显示全部楼层

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|北大中文系 ( 京ICP备12040209号

GMT+8, 2016-8-8 21:11 , Processed in 0.142203 second(s), 25 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表