北大中文论坛 www.pkucn.com

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 641|回复: 12

没有收录繁体字版本的简化字

[复制链接]
发表于 2015-9-17 18:44:05 | 显示全部楼层 |阅读模式
本帖最后由 slt 于 2015-9-21 14:47 编辑

(1) 在我統計 Unicode 漢字的過程中,發現以下一些字,Unicode 裡只有它的簡體字,但是卻沒有它們所對應的繁體。

U+35F7 㗷
U+3E86 㺆
U+3E99 㺙
U+4726 䜦
U+4728 䜨
U+478F 䞏
U+497B 䥻
U+497C 䥼
U+4984 䦄
U+49B8 䦸
U+4DAD 䶭
U+9FD5 ⿰鱼丹
U+219C1 ⿱宀马
U+21E3E ⿱山黾
U+2401A ⿰氵⿱艹⿵门杀
U+2620A ⿰纟巫
U+2620D ⿰纟⿱尤止
U+26779 ⿰月⿵门杀
U+27D77 ⿰貝麦
U+28031
U+28E08 ⿵门美
U+297FE ⿰饣氏
U+29804 ⿰饣来
U+2980D ⿰饣旋
U+299E7 ⿰马立
U+299F7 ⿰牢马
U+299F8 ⿰利马
U+299F9 ⿰马里
U+299FD ⿰马固
U+299FE ⿰马垔
U+2A241 ⿰鸟欠
U+2A247 ⿰鸟戌
U+2A38F ⿺麦宗
U+2A390 ⿺麦帶
U+2A86F ⿰員门
U+2B329 ⿺见句
U+2B35D
U+2B52C ⿱万门
U+2B533 ⿵门㪯
U+2B538
U+2B573 ⿱雨⿰革鸟
U+2B622 ⿰马杏
U+2B6FF ⿱赦鸟
U+2B706 ⿰廖鸟
U+2B938 ⿳冖一见
U+2BA91 ⿰口⿰子贝
U+2BE70 ⿱心门
U+2BFC2 ⿰⿳⿱⺊冖一贝攵
U+2C172 ⿰⿱圥黾欠
U+2C312 ⿱将且
U+2C617 ⿰纟勾
U+2C644 ⿰纟超
U+2C74A ⿱艹⿰纟瓜
U+2C88D ⿰束见
U+2C8EB ⿰讠团
U+2C903 ⿰讠卷
U+2C9A2
U+2CA0A ⿺尾车
U+2CA15 ⿰车㚄
U+2CB44 ⿰钅西
U+2CB9A ⿵门工
U+2CB9B ⿵门上
U+2CB9E ⿵门今
U+2CBAC ⿵门青
U+2CBB7
U+2CC55
U+2CC7E ⿺风林
U+2CCA7 ⿰饣亏
U+2CCA8 ⿰饣于
U+2CCB1 ⿰饣它
U+2CCBD ⿰饣其
U+2CDA5 ⿰鱼弯
U+2CE07 ⿰加鸟

未知它們的來歷??

(2) 又有以下兩字,
“䥿/U+28BC5、“U+2B5AA/U+29454”,
不少出處都指這兩個字是繁簡對應字。但它們的筆畫其實有少許差異。
各位有什麼看法?
发表于 2015-9-20 18:30:34 | 显示全部楼层
请问楼主是如何统计出简体和繁体字对应关系的,

从楼主的统计结果来看,不存在繁体对应关系的简体字主要集中在扩展A区和B区,

字符集GBK区基本保持“绿色环保”状态。
 楼主| 发表于 2015-9-20 22:14:54 | 显示全部楼层
使用一個叫 IDS Sequence 的數據庫
http://github.com/cjkvi/cjkvi-ids
(zdic.net 裡的“漢字拆分”就是採用這個東西做出來)

例如䞏的 IDS Sequence 是“⿰贝思”。
然後再找“⿰貝思”,你便會發現,“⿰貝思”是不能夠找出任何結果。

至於“字符集GBK区基本保持‘绿色环保’状态”,看怕是那時候
還沒有大量出現這些簡化字總表以外的類推簡化字而已。
 楼主| 发表于 2015-9-21 15:06:42 | 显示全部楼层
本帖最后由 slt 于 2015-9-24 15:48 编辑
yangming 发表于 2015-9-20 18:30
请问楼主是如何统计出简体和繁体字对应关系的,

从楼主的统计结果来看,不存在繁体对应关系的简体字主要 ...


坝←→垻
纤←→䊹
继←→継
舰←→䚀
观←→覌
质←→貭
购←→U+27D48
赃←→賍
钟←→鈡
钥←→鈅
钻←→鉆
铁←→鉄
顾←→頋
驴←→馿
鸡←→鳮
馋←→U+2974E

认、让、讲、谗,卻沒有只更換讠字旁做訁字旁的版本。

為什麼要提出這個呢?原因是,如果“鐵”沒有一個像“鉄”字的寫法,決不能做出簡化字“铁”出來。

所以頗肯定的是,[訁人]、[訁上]、[訁井]這三個字是存在的;只是正式詞典沒有收錄過。
发表于 2015-9-22 21:03:36 | 显示全部楼层
本帖最后由 yangming 于 2015-9-22 21:08 编辑
slt 发表于 2015-9-21 15:06
坝←→垻
纤←→䊹
继←→継


从以上示例给我的感觉是简化字一定有其可类推的繁体字,

但我认为这也许是个错觉,简化的主要目的是简省汉字笔画,类推简化只是其副产品;

同时我也看到GBK字符集中繁体汉字也良莠不齐。
 楼主| 发表于 2015-9-24 22:59:02 | 显示全部楼层
話題扯遠了,我原來想問的是,䜦、䜨、䞏、䥻、䥼等字,對應的繁體是什麼字。

類推簡化只是漢字簡化的其中一種手段,不是漢字簡化的全部。所以也就沒有“錯覺”的問題。
发表于 2015-9-25 23:53:11 | 显示全部楼层
字客网的查询如下:


IRG字源-中国S-2164
IRG字源-《康熙字典》1188.181


IRG字源-中国S-2166
IRG字源-《康熙字典》1188.181


IRG字源-中国S-2322
IRG字源-《康熙字典》1213.211


IRG字源-中国S-2444
IRG字源-《康熙字典》1328.061


IRG字源-中国S-2445
IRG字源-《康熙字典》1328.061
发表于 2015-9-30 08:17:39 | 显示全部楼层
并非你认为所有的“简化字”都有类推的繁体字,也就是说许多所谓的简体字本来就是繁体字,根本就不存在所谓的大众认为的繁体字。
 楼主| 发表于 2015-9-30 18:52:27 | 显示全部楼层
zhjian 发表于 2015-9-30 08:17
并非你认为所有的“简化字”都有类推的繁体字,也就是说许多所谓的简体字本来就是繁体字,根本就不存在所谓 ...

也許是的。

原來那些在 CJK-A 的,都是新加坡簡體字。
 楼主| 发表于 2015-10-16 09:44:10 | 显示全部楼层
本帖最后由 slt 于 2015-10-16 10:08 编辑

我這一篇帖的原始統計資料:

簡體部件CJK0ExtAExtBExtCExtDExtE散落於其他的地方
------58EE, 5956, 5986, 5BDD, 5C06, 6868, 6D46, 72B6, 9171, 200E1, 20B27, 21CD9, 22227, 230DE, 243B9, 254A9, 2837A, 28A3C, 2C312
7EA0-7F354336-434126208-262212B119-2B1392B7C3-2B7C72C613-2C64B8F94, 8FAB, 2C66B, 2C74A
89C2-89D1--2B328-2B32D-2C887-2C8944F23, 5C98, 67A7, 73B0, 781A, 7B15, 8230, 82CB, 86AC, 9753, 4A44, 20BDF, 2A389, 2AFA2, 2B028, 2B938, 2C02A, 2C1BE, 2C2A6, 2C591, 2C616, 2C7EA, 2CE9F
8BA1-8C364723-472927BAA2B359-2B37F2B7DE-2B7E22C8D9-2C93172F1, 7F5A, 8FA9, 96E0, 3E86
8D1E-8D63478C-479027E51-27E572B3A6-2B3AC-2C973-2C9805219, 5457, 5458, 5522, 575D, 5A74, 5C43, 72C8, 7410, 7F42, 8487, 94A1, 9501, 35F7, 3E86, 3E99, 243BA, 29BD2, 2A800, 2A960, 2AC77, 2B766, 2B7A5, 2B981, 2BA91, 2BF36, 2BFC2, 2C089, 2C1D9, 2C8AF, 2C9A5, 2CB82, 2CE15, 2CE73
8F67-8F9A4880-488228405-2840A2B404-2B4192B7E4-2B7E62CA01-2CA154F21, 519B, 538D, 5E93, 65A9, 6BC2, 7817, 8206, 8FDE, 9635, 2A833, 2AA36, 2C1A6, 2C6FC, 2CB07
9486-9576, 9FCF, 9FD4497A-498628C3E-28C562B4E5-2B5152B7F2-2B8012CB27-2CB838854, 2B6FE, 2BEC7
------4F25, 5E10, 5F20, 6005, 67A8, 80C0, 82CC, 8D26, 29C92, 2AF34, 2AF6A, 2B2AA, 2B3C3, 2B5E0, 2C447, 2CB2E
95E9-961B49B6-49B828DFF-28E0E2B52C-2B5392B8022CB98-2CBB94EEC, 626A, 8A1A, 9494, 21B5C, 2401A, 26779, 2A86F, 2BA56, 2BE70, 2C9A2
97E7-97EC-293FC-294002B591-2B5962B8052CC31-2CC384F1F, 56F4, 5E0F, 709C, 73AE, 794E, 7EAC, 82C7, 8886, 8BB3, 8FDD, 95F1, 3B4F, 20A3C, 23C97, 2AB5D, 2B073, 2B0D7, 2BC0D, 2BD76, 2BE74, 2C029, 2C66D, 2C8C0, 2CB2C, 2CC75
9876-98A7-29595-295972B5AA-2B5BA2B8062CC53-2CC7356A3, 704F, 70E6, 7855, 9FD2, 3454, 2C0F2, 2C23E, 2C948, 2CE82
98CF-98DA-29665-296702B5C7-2B5CB2B807-2B8082CC75-2CC885C9A, 67AB, 6CA8, 75AF, 781C, 8BBD, 343D, 36AF, 2C725, 2CC32, 2CCF3
------200E7, 2B5CC, 2CC89
9964-99954B6A297FE-2980F2B5DE-2B5F5-2CCA5-2CCD48680
9A6D-9AA74BC3-4BC5299E6-29A102B61B-2B6312B80A-2B80C2CCF3-2CD1051AF, 5417, 5988, 6769, 72B8, 739B, 7801, 7943, 7B03, 7F81, 817E, 84E6, 8682, 95EF, 3437, 461E, 219C1, 28C3E, 2A803, 2BF17, 2C073, 2C3DC, 2C847, 2C9C3, 2CBBA, 2CE58
9C7D-9CE4, 9FD54C9D-4CA429F79-29F8E2B688-2B6AD2B80F-2B8122CD80-2CDBB6E14, 7A23, 2C199, 2C741
9E20-9E744D13-4D192A241-2A2552B6DA-2B7062B8162CDFB-2CE317A8E, 8311, 83BA, 3B64, 3D89, 2B061, 2B573, 2C1AE, 2C61E, 2C84D, 2CDD5
9E7E--2B70A2B8172CE35-2CE397875, 79BC, 209DF, 209E4, 20A04, 20CF1, 2BF35
9EB8-9EBA-2A31B, 2A388-2A3902B711-2B715-2CE45-2CE4E551B, 9FCF, 24FF2, 257C0, 25AA3, 27D77, 28031, 2816B, 28310, 2898E, 28E67, 28EAE, 2AF42, 2B9EE, 2C35E
9F0B-9F0D--2B71F-2CE63-2CE646E11, 7EF3, 8747, 42F2, 4C17, 21E3E, 23223, 28D5C, 2B013, 2B461, 2B719, 2C172, 2CE9E
9F51----2CE734FAA, 5242, 54DC, 6324, 658E, 6D4E, 8110, 8360, 86F4, 8DFB, 9701, 9C9A, 28828, 2AC8E, 2B145, 2B7A6, 2BE8A, 2C627, 2CB49, 2CBC0, 2CCB6, 2CE3E
齿9F80-9F8C-2A68F-2A6902B728-2B7302B81A, 2B81C2CE7A-2CE96556E, 2BC7F, 2CB54
9F9A-9F9B4DAD-4DAE-2B732-2CE9B-2CE9D5390, 5499, 5784, 5785, 5BA0, 5E9E, 62E2, 663D, 680A, 6CF7, 73D1, 772C, 783B, 7B3C, 804B, 80E7, 830F, 88AD, 8A5F, 9647, 22619, 241ED, 26A29, 28001, 28407, 299EA, 29B24, 2AACC, 2AEAA, 2B3A6, 2B585, 2B6DF, 2B892, 2C9E2, 2CE04
---2B733-2CE9E9604, 2B0E7, 2C4EB


上表不重複碼有2701個。其中,U+7EAC, 7EF3, 8BB3, 8D26, 8F94, 9494, 94A1, 9604, 9C9A, 9FCF, 3E86, 28407, 28C3E, 299EA, 2A389, 2B3A6, 2B5E0, 2B6DF, 2B6FE, 2C616, 2C61E, 2C627, 2CB2C, 2CB49, 2CB82, 2CC32, 2CC75, 2CCB6, 2CE04, 2CE15, 2CE73, 2CE82, 2CE9E 有多於一個簡體部首部件,所以在上表出現多次。

在上述2701字,有2560字在Unicode有類推繁簡對應。

“奖 将 桨 浆 缠 认 让 讲 谗 轰 酱” 有非類推的繁簡對應。

“练” U+7EC3 的繁體 “練” ,日文字形是左糸右東。兩字形同被編入 U+7DF4。
 楼主| 发表于 2016-3-6 23:27:46 | 显示全部楼层
本帖最后由 slt 于 2016-3-6 23:31 编辑

終於找到了,有人打算申請加入 [⿰訁人]、[⿰訁上]、[⿰訁⿱免⺀]、[⿰糸东]、[⿰金乐]、[⿰金聂] 等字了。不過,沒有 [⿰訁井]。

http://www.babelstone.co.uk/CJK/IRGDraft/index.html

引圖來源:1956汉字简化方案

点评

這些“僞繁體字”或曰繁體不是繁體,簡體不是簡體的字沒有必要加入unicode了。給unicode省點空間,安置更有用的符號吧。  发表于 2016-3-7 10:54
发表于 2016-3-7 11:01:51 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|北大中文系 ( 京ICP备12040209号

GMT+8, 2016-3-24 19:41 , Processed in 0.170341 second(s), 24 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表