请选择 进入手机版 | 继续访问电脑版

北大中文论坛 www.pkucn.com

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
楼主: 有女同车

廣韻全字表(unicode 3.1-2007-4-18更新)

[复制链接]
 楼主| 发表于 2007-4-19 01:16:27 | 显示全部楼层
#########################################################
################廣韻字表2007年4月18日更新說明#############
#########################################################


#########################################################
本次更新內容:
#########################################################
一)上一版中有近1/4的小韻所收辭目(字頭:headword)次序錯亂,另有相當數量的小韻以一己私意另選淺白他字充作首字,今完全依《廣韻》原書次序校正
二)改正若干錯字
三)補足若干缺漏
四)將廣韻辭目中未見之字全部析出
五)將unicode3.1未收字在辭目欄中以「㊀」等標記,後附說明
六)改進韻目標記方式,以阿拉伯數碼引導,以利排序。詳下。
七)增加小韻分韻序號(小韻於所屬韻中的序號),以利檢索校讎。

#########################################################
格式:
#########################################################
MS Access 文檔和utf-8 txt 文檔內容、格式相同,用戶各取所需

TXT 文檔各字段(fields)由「|」分隔,兩文檔内容由左至右依次爲
1、舊版(unicode3.1字符集第一版)小韻總序號。缺錄:丑戾切、no=2381,烏懈切、no=2455,他德切、no=3728,盧合、no=3784四小韻。
2、刊正小韻總序號
3、反切
4、小韻内辭目(headwords)
5、小韻所收辭目數
6、校驗表記
7、韻目。阿拉伯數碼「X.XX」,小數點前一位爲卷號,小數點後兩位爲韻目。如「4.11暮」意爲「第四卷去聲、十一暮韻」。
8、小韻在韻中的序號。如「『德紅切』『東』爲『東』韻第一小韻,『薄紅切』『蓬』爲『東』韻第三十一小韻。」古書向無頁碼,兼且版本紛紜卷帙雜沓難於取捨,故此僅錄標目序號不記頁碼。
9、聲紐
10、呼(開合口)
11、等
12、韻部(四聲劃一)
13、聲調
14、Polyhedron擬羅馬字
15、有女同車擬羅馬字
16、舊版備註
17、本次復校備註
18、特殊小韻韻目歸屬說明
19、見於廣韻辭條中的辭目重文、取自集韻的增補和異體字、等價異形字、備考新字等
20、unicode3.1未收字的準IDS(Ideographic Desciption Characters)描述:H=⿰、Z=⿱、P=⿸、E=⿳、V=某字unicode缺載之變體

#########################################################
責權聲明:
#########################################################

本字表(兩種文檔)爲自由軟件,使用者允許複製、再發佈和修改其內容。切勿將其用於一切贏利目的。整理者對本壓縮包内資料的正確性不提供任何擔保,使用者風險自負。


#########################################################
整理者:
#########################################################
Polyhedron
Zgheng
有女同車

#########################################################
如發現本字表的任何紕繆或對本表有任何疑問及建議請賜函至blankego@163.com垂訓。

其他事項詳舊版readme文件。

遠程下載: http://www.esnips.com/nsdoc/124a8232-c653-4446-8c38-87d7542a4f35

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
发表于 2007-4-23 23:40:47 | 显示全部楼层
怎么下载好慢啊
发表于 2007-5-13 20:21:07 | 显示全部楼层
多謝有女同車先生!功德無量。

更正:

1594小韻,我原來把反切弄錯了。我的拼音應該是mrenx
-------------------
補:
4001 nrungx
4002 njah
4003 khimh
4004 chuan
4005 puot
4006 t'iu(爲何是幽韻不是尤韻?)
4007 chrah
4008 thauh
4009 g'aih

還有,建議把最新的版本的下載更新到一樓。我開始沒看清,光看見標題了,就把老版本下下來了,看了半天才發現不對。。。還有,能否把廣韻未收的異形字用某種方式補上,否則有時候很難查找。再有,能否轉換格式做一個以漢字而非小韻爲單位的數據庫?

還有,回復的話,可以去水木或者給我的信箱biopolyhedron@薅特寐嘔.com,這裏我一年能來一趟吧。

[ 本帖最后由 polyhedron 于 2007-5-13 20:23 编辑 ]
发表于 2007-5-15 04:48:05 | 显示全部楼层
有女同車,
勞苦功高呀!
非常感謝你的作業
--------
記得我嗎?
发表于 2008-4-14 10:04:01 | 显示全部楼层
爲何我不能下載?
发表于 2008-5-1 13:32:00 | 显示全部楼层
新版本改进之处在哪里?
 楼主| 发表于 2009-1-13 19:03:16 | 显示全部楼层
原帖由 biohuang 于 2009-1-12 00:50 发表
近日我打算做一些开发,类似广韵输入法之类的,发现*.txt文件格式有问题,恐怕规划不够周详。经过与*.mdb文件的对比,发现问题的关键在于“|”的滥用,尤其是第19、20个字段,除了有“{*|**}”、“[*|**]”,还有“| ...


*《廣韻》的xml版http://kanji-database.sourceforge.net/上所錄入整理的算是比較完整。
*.mdb可輸出爲utf-8 /utf-16等格式,都不會出現亂碼,建議是用utf-8。
* 我正在做一個基於subversion 和瀏覽器的 Unihan +古籍數據系統,以實現unihan + 古籍 + 辭書(字書、韻書、雅書)的整合——相信不久就能跟大家見面。(廣韻將涵蓋其中)

*對utf-8 文本的處理,我用的是madedit---一個對unicode支持得較好的editor,只有一個最煩人的bug,直接輸入utf8外字(cjkv extb(U+20000+))會變成亂碼。需要轉utf-16再轉utf-8才能變成真正的utf8字符。

*在win下開發ime非常困難,不像linux 上有scim平臺,最容易的也就是用現成的imegen以詞典形的碼表來生成。我自己用的是自擬廣韻羅馬字+倉頡+詞庫的輸入法,雖然有些錯誤,也一直湊合用著。
 楼主| 发表于 2009-1-13 19:25:49 | 显示全部楼层
原帖由 biohuang 于 2009-1-12 00:50 发表
  还有一个疑问,对于大部分用户,Excel是比Access更常用的软件,您发布*.mdb文档是因为开始就用这个开发吗?我的麻烦是,把*.mdb导出成*.txt时有很多汉字变乱码了。有什么技巧吗?

當時,在整理 tables 的過程中有一些SQL操作,「需要」用到Access。當然,stand alone的數據庫不只MS Access一種。但Access 的好處是有一個用戶友好的data populating(灌輸數據)界面。可惜它對unicode的支持實在很差。

其實excel也不夠方便。我現在傾向於凡文本類的據都用utf8平文本來保存。數據庫則用open source 的sqlite

本來,字表中原本也用不著那麼多個字段。重複的數據都可以另設一表來記錄。對字表,只需有「反切」和「同小韻字」兩箇字段就足夠了(可以再加上一個note 寫校記),用平文本來編輯也不會覺得眼花繚亂。再比如詞條,只須ID + 詞條内容即可。像日本人用的xml也不方便,輸入和轉換都很囉嗦。將文本表做好後import 到database中,再通過SQL操作生成其他的索引性質的表。
发表于 2009-1-22 18:21:14 | 显示全部楼层
能給小弟發一份麽?郵件liuksiem@gmail.com
发表于 2009-1-23 15:37:10 | 显示全部楼层
怎么下載啊,怎么看不到呢?
发表于 2009-2-6 21:59:53 | 显示全部楼层

廣韻全字表及輸入

在下也想要新的廣韻全字表及輸入法,
煩請電郵:
tonytamsir@yahoo.com.hk

本人有興趣推廣
使用古代格律現代漢語來創作唐詩,
目前已用上了平水韻,如下:
http://learn.tsinghua.edu.cn:8080/2008370007/e01.htm
還想加上廣韻,故此四處尋找廣韻電子版.
僅此致謝!

中華學子Tony Tam
发表于 2009-5-8 17:44:21 | 显示全部楼层
該檔案的“䔾”字,寫成 “矛割切”,但 zdic.net 是寫 “予割切”。究竟誰的版本才正確?
发表于 2009-6-15 10:39:13 | 显示全部楼层

求字表

能否请版主给我发一份?不胜感激!
roberson17@yeah.net
发表于 2009-6-19 02:44:24 | 显示全部楼层
发表于 2009-7-19 07:59:14 | 显示全部楼层

用甚麼軟體打開廣韻全表?

用甚麼軟體打開廣韻全表?
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|北大中文系 ( 京ICP备12040209号

GMT+8, 2017-4-23 18:00 , Processed in 0.110342 second(s), 20 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表