北大中文论坛 www.pkucn.com

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
楼主: tsiank

汉语大字典第二版检索表excel发布

[复制链接]
发表于 2014-5-1 23:24:51 | 显示全部楼层
重新处理卷 H01 共 1744 页

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
发表于 2014-5-2 17:47:55 | 显示全部楼层
本帖最后由 dayandy 于 2014-5-2 21:41 编辑

根据紫雪蓝海的文本,我做了一个检字法,很简单实用,除去不显示的字,共计55400余字。目前编辑进行中,近期可发表。只是不知怎样发表上传,我的权限不够。
发表于 2014-5-3 11:36:04 | 显示全部楼层
第六卷字头位置文本数据

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
发表于 2014-5-4 11:50:10 | 显示全部楼层
经过十几个小时的努力,在倾斜校正作了改进,效果令人鼓舞。处理了卷H07,准确率提高,时间缩短不止一半(用了0.618优选法)。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
发表于 2014-5-5 00:25:44 | 显示全部楼层
再作改进,首次目测50页没有发现误识别,100页有2页误识别

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
发表于 2014-5-10 21:13:51 | 显示全部楼层
看来改进的效果还不行,但哪里不行不清楚。自己去检查吧。
发表于 2014-5-24 11:05:04 | 显示全部楼层
周末了,开始大词典词头统计。更改程序还没进入角色。
先把紫雪的每页词头数与程序分析的对比差别上载,可能程序错误的比较多

把图片拿来核对了三十几条(最头和最尾)紫雪只有两条错,其他都是程序错。
看来程序不改进是没有办法用

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
发表于 2014-5-25 16:48:09 | 显示全部楼层
经过一番努力,完成H01到H04部分。虽然没有得到理想的程度,与紫雪统计相差的页数降低了将近一半。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
发表于 2014-5-26 19:23:46 | 显示全部楼层
H01-H12处理完了,先把处理结果上载。(含每个词条在页面的位置)

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
发表于 2014-6-7 17:11:31 | 显示全部楼层
经过一番努力,与紫雪每页词条数目不同的页数由三千多下降到一千多。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
发表于 2014-10-1 14:44:58 | 显示全部楼层
本帖最后由 南阳钰锋 于 2014-10-3 17:55 编辑

《汉语大词典》电子版公益软件,供网友分享。
星期天完成的修改版,今天才完成上载百度云。
请用以下链接和密码下载:
链接: http://pan.baidu.com/s/1o67I206 密码: bbfk
全集有 6 个 RAR 压缩包,需要全部下载完毕才解压缩。

下载及解压:
1. 点击本楼第 4 行“链接:”右方的 http://pan.baidu.com/s/1o67I206 ,到达 百度云 出现输入密码的画面打入 bbfk
2. 勾选所有文件,然后点击【下载】按钮

3. 等待 6 个文件下载完毕 ...
4. 下载的 6 个文件中 DCD20140928.part1.ex_ 是自解压缩的可执行文件,请将文件名的最后一个字符【 _ 】改为【 e 】。改名后文件名为:DCD20140928.part1.exe
5. 双击 DCD20140928.part1.exe 运行此文件,开始解压缩。
  请留意,必须 6 个文件都在同一个文件夹才能解压成功。
  运行时,预设解压的目标文件夹是“C:\YF”,也可以放到其他文件夹,如 U 盘的 E: 或者 F:

本软件是免安装绿色软件,不需要安装。解压后目标文件夹中有个 DCD 文件夹,进入此文件夹,点击里面的 DCD.exe 立即运行本软件。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
发表于 2014-10-2 09:36:19 | 显示全部楼层
本帖最后由 南阳钰锋 于 2014-10-3 17:53 编辑

接 71 楼
《汉语大词典》为 上海辞书出版社 版本。
正文 12 卷;收词语三十七万五千余条;约五千万字。

“电子版公益软件”显示原词典图片页面(总共18,314页)。
软件部分提供字、词查询,词条过滤,页面放大缩小等功能。

软件由楼主 tsiank 倡导,南阳钰锋 执行编程工作。


如果哪位网友有 商务印书馆 出版的繁体版《汉语大词典》的电子图片,并愿意让网友分享,南阳钰锋很乐意承担编程工作,将其制作成方便检索的电子版。
发表于 2014-10-2 15:30:12 | 显示全部楼层
本帖最后由 南阳钰锋 于 2014-10-2 15:37 编辑

运行时的截图如下:


词头显示全部为繁体。
输入可以用简体。
输入一个字列出全部含有该字的词头,点击一个词头即显示其所在的页面。
鼠标扫入页面,显示一绿色方块标志词条所在的位置。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
发表于 2014-10-3 18:21:15 | 显示全部楼层
本帖最后由 南阳钰锋 于 2014-10-4 19:52 编辑

73 楼的图片上方蓝色半透明部分是操作板。可以放大缩小页面,翻页,显示指定的 卷 / 页 等等。

操作板左方八个排成两行的按钮是词条过滤用的。

比如输入一个“漢”字,会列出无数个含有“漢”字的词条,找要查的词条困难。词条过滤可以只显示“漢”字在最前(靠左),或者在最后(靠右)。也可以靠中,即:既不靠左也不靠右。下排的过滤是二字词,三字、四字词和四字以上。

73 楼的图片因为输入了两个字,所以没有过滤词条也不多。


查词的时候可以用 % 和 _ 作为通配符。
比如要查含有“語”,“言”两个字的词,可以输入“语%言”。结果有:

文學語言 萬語千言 語言 ... ...

如果要查“語”,“言”两个字中间有一个任意字的词,可以输入“语_言”。结果有:

千語萬言 蜜語甜言 ... ...

这时结果中没有“語言”这个词,因为两个字中间没有隔另外一个字。
所以, _ 通配一个字,% 通配任意个字,包括 0 个字。

请到 71 楼参看此公益软件的下载方法。
发表于 2014-10-5 22:39:57 | 显示全部楼层
本周末的改进是增加了查询回退功能,方便再查已经查过的词条。

请到 71 楼参看此公益软件的下载方法。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|北大中文系 ( 京ICP备12040209号

GMT+8, 2016-8-8 21:10 , Processed in 0.136019 second(s), 19 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表