
标题: 谁能翻译unicode5.0? [打印本页]
作者: 求知求实 时间: 2007-6-24 11:05 标题: 谁能翻译unicode5.0?
提示: 作者被禁止或删除 内容自动屏蔽
作者: 求知求实 时间: 2007-6-24 11:30 标题: 回复 #1 求知求实 的帖子
提示: 作者被禁止或删除 内容自动屏蔽
作者: 韦剑 时间: 2007-6-24 11:47
个人认为全部译完意义不大,毕竟Unicode标准的内容较广泛,有些东西不是所有人都用得上的。如果某方面你不了解或不感兴趣,强译出来不仅显得生硬,关键是如果不能正确完整地表达出原文的含义的话那还不如不译,所以主要依靠翻译软件的做法不可取,谁都知道民用机器翻译的质量连日常文本都不能保证,更不用说专业文本了。
多人就自己所感兴趣或需要的部分分工合作是可取的,不过也有行文风格不统一和无法保证能召集到译完所有章节的人这些问题。不过看得出来楼主是个热心人,如果能牵头组织促成此事也是大有裨益的,不知楼主心中可有选好了自己需要或感兴趣译出来的部分?当然如果已经有一定程度的译好的内容,也不妨先贴上来供大家参考参考。
作者: 求知求实 时间: 2007-6-24 11:57
提示: 作者被禁止或删除 内容自动屏蔽
作者: xin421 时间: 2007-8-13 06:01 标题: 这种文件没有翻译的必要性。
主要原因是经常被更新,再说现在如果连英文的这种说明文都读不懂的朋友,还要想搞什么汉字编码的研究,特别是研究什么UNICODE,都是浪费时间。
高中毕业生就可以读懂UNICODE说明文了,翻什么翻,浪费人家的时间就等于谋财害命。
退一万步,UNICODE的标准说明文,当成字典来用就行了,需要查什么就去查,何必全部翻译?以后使用英文的这种东西会很多,要想有所作为,学点基础的英文比什么都好。
拜托!
作者: shunsoftware 时间: 2007-8-13 10:21
引用:
原帖由 xin421 于 2007-8-13 06:01 发表 
主要原因是经常被更新,再说现在如果连英文的这种说明文都读不懂的朋友,还要想搞什么汉字编码的研究,特别是研究什么UNICODE,都是浪费时间。
高中毕业生就可以读懂UNICODE说明文了,翻什么翻,浪费人家的时间 ...
同意。
作者: 求知求实 时间: 2007-8-14 00:08
提示: 作者被禁止或删除 内容自动屏蔽
作者: xin421 时间: 2007-8-14 01:15 标题: 你的回答正好说明了你需要英文
你说“研究Unicode是为了更好的研究各种文字的输入,这与懂不懂英文是毫无关联的。”
这句恰恰就是错误的。应该改为:
为了更好地通过研究UNICODE从而达到研究各种文字输入方式的目的,必须要求懂得英文,越多越好。"
作者: 京典 时间: 2007-8-14 08:40
說 unicode 5.0 文件,不準確。看樓主列出的目錄,我看了,是「ISO∕IEC 10646」文件。
將樓主翻譯的要求,實質地說要為一份「國際標準」提供「中文版」。這樣,就理所當然了。而且,是國家標準局的責任。我相信國際間都會有一個基本出發點,為所有國際標準提供該國語文版本。在基礎之上由於種種原因而將某一國際標準的翻譯擱置,算是個別國家的處理。
日常的文章,在運用「ISO 10646」以及「Unicode」的時候,往往「運用」就是「混用」,一般情況大家看得明就算了。但是,例如現在,就有雖要分清「身份地位」,避免「渾用」。原理上,中國有國際標準 10646 的中文版,我認為是理所當然的。但是,民間不適宜插手國家份內的翻譯事務。
「翻譯國際標準」這一個理由就足夠要,製作「ISO 10646」的中譯本;其他是否看得通英文,譯本有沒有用等等的想法,完全可以不必提了。
有很多地方的用處,大概是令我看了知道他們對於我沒有用。這一個「用處」,對於「講究標準」,知道沒有用,也是很有用的。若果你不需要這個用處,譯文對你有用的,可能很少。
脫離了樓主的個別翻譯要求以外的情況,要求英文水平充份:誰都懂得說啦。對於有需要的個別章節,作個別翻譯就是了(樓上韦剑說的,我都覺得中肯)。
[ 本帖最后由 京典 于 2007-8-14 09:17 编辑 ]
作者: 求知求实 时间: 2007-8-14 22:40
提示: 作者被禁止或删除 内容自动屏蔽
作者: xin421 时间: 2007-8-15 01:23
引用:
原帖由 求知求实 于 2007-8-14 22:40 发表 
如果Unicode组织提供中文版材料,我就是只有小学英文水平,我同样可以把各种文字研究透,这与懂英文有什么关联?
如果我出点钱,找人翻译一下,同样能达到这个目的,这与懂英文有和关联?
如果有国家某部门 ...
你找得那個人翻譯,還不是要求他/她懂英文,不懂你也不找他/她了。怎麽知道他/她懂足夠你需要的英文呢?你可能還是需要懂些英文吧,不如乾脆不找別人,自己弄就可以了。初中畢業的英文水平就可以了,不要沒有自信。
作者: lrk 时间: 2007-9-6 16:50
这事儿没下文了么?
作者: 求知求实 时间: 2007-9-6 21:31
提示: 作者被禁止或删除 内容自动屏蔽
作者: APOO 时间: 2007-9-8 03:20
我看了一下文本,觉得确实有一定难度。而且涉及各个具体文字的一些规则,除非是确实学过这种文字的,否则很难翻译精准,甚至很难理解。
作者: extc 时间: 2007-9-9 00:42
引用:
原帖由 求知求实 于 2007-6-24 11:05 发表 
unicode5.0用英文写的,生词太多,不易懂,借助翻译软件也是词不达意。希望有人能够把他翻译成中文(简体),供大家共享、参考。
unicode5.0书章节页数较多,550页(不含字符代码页),翻译成中文大概只有200页 ...
求知求实, 那就请你先把第一章翻译出来吧。
作者: 求知求实 时间: 2007-9-9 13:38 标题: 回extc先生!
提示: 作者被禁止或删除 内容自动屏蔽
作者: extc 时间: 2007-9-12 17:35
那麼邀請著名的出版社例如電子工業出版社出手翻譯如何?
原價US$52.99, 如果翻譯後推出精裝版, 賣三百圓, 你會不會買?
作者: 求知求实 时间: 2007-9-12 23:29
提示: 作者被禁止或删除 内容自动屏蔽
作者: chenxin3075 时间: 2008-4-5 13:49 标题: 翻译
我都还没见过unicode 5.0
你不把资料发出来,怎么翻译?
作者: nirvana104722 时间: 2008-4-5 18:45
可從我的網站下載:
★★Unicode Standard Version 5.0 ★★
http://wyx.nbtvu.net.cn/jmm/Computing/font.Unicode.Standard.Version.5.0.rar
壓縮包內含:
[attach]83293[/attach]
[ 本帖最后由 nirvana104722 于 2008-4-5 19:57 编辑 ]
作者: extc 时间: 2008-4-6 15:02
各位, 我翻譯了第 i 頁, 兄弟們, 繼續吧
對Unicode 標準版本5.0 的稱讚
"世界是地球村,貿易突破語言界限,但每個人還是喜歡用自己的母語。Unicode 使我們和世界交易時
找到自己熟悉的感覺--這是我們在旗下全線產品支持Unicode的原因。"
-Shai Agassi, 成員
SAP執行委員會
"W3C 組織成立在於發展共同協定去帶領網際網路的革命。W3C將這個網真正全球化就是利用Unicode.
Unicode 是W3C 工作的基礎;由早期的HTML, 及至成長中的XML家族或以後, 它是W3C規格的一環。"
-Tim Berners-Lee爵士, KBE
萬維網發明者及(萬維網聯盟)W3C 董事長
"IETF將相容於Unicode 的ISO10646 UTF-8 格式作為網上程序通訊協定的預設編碼,因此我很高興
見到Unicode 5.0 的正式推出。"
-Brian E. Carpenter, (網際網路工程小組)IETF主席
IBM 網際網路標準及科技 傑出工程師
"谷歌的目標是組織全世界的資訊以及使它容易取得,Unicode 在此有核心角色因為它是能夠令軟件
明白人類各類語言的法則。正當Unicode擴展至其他世界語言,它幫助谷歌實現使命。"
-Vint Cerf, 谷歌機構最高網路大使
"Unicode 版本5.0 是Unicode 標準--計算機學上要緊要的--自1991年以來的一大里程碑。透過新
擴展的文本及字符支持,這個新版本幫助我們跨越數碼鴻溝,使每日更多人用自己的語言使用電腦。
容易理解的數學符號集對利用商業軟件製作技術文件有很好支持。十數年間,Unicode 是微軟產品及
科技的根據:Unicode 標準5.0 令使用者受惠。"
-Bill Gates, 微軟公司主席
作者: vcfbox 时间: 2008-4-7 19:06 标题: Foreword(前言)xxxi页
前言
无须吹捧,在过去十年Unicode已经完全改变了软件和通信的基础。无论你在电脑上读写什么,你都使用Unicode。无论你在Google, Yahoo!, MSN, Wikipedia或其它web站点中搜索,你都使用Unicode。Unicode 5.0标志着一个里程碑,它提供任何地方的人们在电脑上使用自己的语言的能力。
Unicode开始于一个简单的目标:去统一无数种不同的字符编码方法,替换成一个简单的、全球统一标准。那些遗留下来的字符编码是不完整和不一致的:两种编码使用同样的内部编码表示不同的字符、使用不同的内部编码表示同样的字符、没有编码表示的一些小语种(?)。文本数据在不同程序和平台之间转换时,就会有讹误的危险。
过去程序通过“硬编码”去支持特别的编码,制作开发国际版本是昂贵的。对于公司和用户来说,产品投放在外国市场是高价和不令人满意的。发展中国家尤其困难,在支持小市场上行不通。他们被迫去使用特殊字体来代表任意字符。但是当字体无效时,内容将变得混乱。
Unicode从根本上改变这种状况。现在对于所有文本,程序只需要一个唯一的表达来支持全世界的语言。程序结构能够容易地从程序代码中分离出来,提供了多语言RAD(快速开发工具)的基础。这样,多语言版本程序几乎能够同时开发,而只有一点增加的成本,甚至包括像Microsoft Office 或者OpenOffice这样的复杂程序。
字符指派只是Unicode标准和辅助说明的一小部分。他们为程序师提供了关于字符函数的广泛描述和巨量数据:怎样构成词和断行;怎样在不同语言中排序文本;怎样格式化不同语言中的数字、日期、时间和其它适当的元素;怎样去显示从右到左书写的语言如阿拉伯和希伯来文,或者像分隔、联合、重排书写的南亚语言;怎样处理全世界安全公司关于“外形相似”的字母表。没有Unicode标准和辅助说明中的属性、算法和其它规范,不同工具之间的互通将是不可能的。
随着web的增长,文本的单一表达成为全球无缝通讯的绝对必需。HTML 和XML的文本内容由unicode定义,每个程序处理XML必须在内部使用unicode.搜索引擎全都使用unicode是个好的理由。甚至使用遗存字符的web页面,搜索引擎索引页面的唯一有效方式是转换它为通用语言Unicode。所有web中文本能够被同样的程序代码保存、搜索、匹配。由于所有搜索引擎转换web页面为Unicode,最可靠的方式中保存页面为Unicode。
本版本的Unicode 5.0取代和废弃了所有先前的标准版本。本书尺寸小,不昂贵,有数百页的新内容和修改。像人类的企业,Unicode当然不是没有瑕疵。本书有助于你 unicode的工作,重要的是,它将帮助您了解哪些特点,可能在将来会改变,哪些不能,所以你可以适当地优化您的工具。如果你对unicode未来发展方向感兴趣,或者密切跟进这些正在进行的工作,你将从unicode协会找到信息。你手中所拥有的是来自全球的专家多年经验的精华,我确信你将发现它是非常有用的。
Mark Davis, Ph.D.
Unicode协会主席
[ 本帖最后由 vcfbox 于 2008-4-9 17:33 编辑 ]
作者: 求实—求知 时间: 2008-4-8 22:38 标题: 曲高和寡!
提示: 作者被禁止或删除 内容自动屏蔽
作者: happychina 时间: 2008-4-8 23:00
能翻译的,愿意翻译的发言,不就完了吗?
作者: extc 时间: 2008-4-24 20:47
以下翻譯來自 GB13000.1-93
《中国强制性国家标准汇编》电子与信息技术卷2(第三版)
(只列出词滙, 沒有解釋)
Information technology -- Universal Multiple-Octet
Coded Character Set (UCS) --
Part 1: Architecture and Basic Multilingual Plane
信息技术 通用多八位编码字符集(UCS)
第一部分:体系结构与基本多文种平面
4. 术语
Basic Multilingual Plane 基本多文种平面
block 块
canonical form 正则形式
cell 字位
character 字符
character boundary 字符边界
coded character 编码字符
code table 代码表
combining character 组合用字符
compatibility character 兼容字符
compositie sequence 复合序列
control function 控制功能
default state 默认状态
device 设备
graphic character 图形字符
graphic symbol 图形符号
group 组
interchange 交换
interworking 交互运作
octet 八位
plane 平面
presentation; to present 显现
presentation form 変形显现形式
private use planes 专用平面
repertoire 字汇
row 行
script 文字
supplementary planes 辅助平面
user 用户
zone 区
5. UCS 总体结构
DIGIT ZERO 数字0
LATIN CAPITAL LETTER A 拉丁文大写字母A
19. 块名称
BASIC LATIN 基本拉丁文
LATIN-1 SUPPLEMENT 拉丁文-1 补充
LATIN EXTENDED-A 拉丁文扩充-A
LATIN EXTENDED-B 拉丁文扩充-B
IPA EXTENSIONS 国际音标扩充
SPACING MODIFIER LETTERS 进格的修饰字符
COMBINING DIACRITICAL MARKS 组合用发音符
BASIC GREEK 基本希腊文
GREEK SYMBOLS AND COPTIC 希腊文符号及哥普特文
CYRILLIC 西里尔文
ARMENIAN 亚美尼亚文
HEBREW EXTENDED-A 希伯来文扩充-A
BASIC HEBREW 基本希伯来文
HEBREW EXTENDED-B 希伯来文扩充-B
BASIC ARABIC 基本阿拉伯文
ARABIC EXTENDED 阿拉伯文扩充
DEVANAGARI 天成文书(梵文)
BENGALI 孟加拉文
GURMUKHI 锡克教文
GUJARATI 古吉拉持文
ORIYA 奥利雅文
TAMIL 泰米尔文
TELUGU 泰卢固文
KANNADA 卡纳达文
MALAYALAM 德拉维族文
THAI 泰文
LAO 老挝文
BASIC GEORGIAN 基本格鲁吉亚文
GEORGIAN EXTENDED 格鲁吉亚文扩充
HANGUL JAMO 朝鲜文字母
LATIN EXTENDED ADDITIONAL 拉丁文扩充增补
GREEK EXTENDED 希腊文扩充
GENERAL PUNCTUATION 广义标点
SUPERSCRIPTS AND SUBSCRIPTS 上标及下标
CURRENCY SYMBOLS 货币符号
COMBINING DIACRITICAL MARKS FOR SYMBOLS 用于符号的组合用区分标志
LETTERLIKE SYMBOLS 类似字母的符号
NUMBER FORMS 数的形式
ARROWS 箭头
MATHEMATICAL OPERATORS 数学运算符
MISCELLANEOUS TECHNICAL 零杂技术用符号
CONTROL PICTURES 控制图符
OPTICAL CHARACTER RECOGNITION 光学字符识别
ENCLOSED ALPHANUMBERICS 带符号的字母数字
BOX DRAWING 制表符
BLOCK ELEMENTS 方块元素
GEOMETRIC SHAPES 几何图形符
MISCELLANEOUS SYMBOLS 零杂符号
DINGBATS 丁贝符
CJK SYMBOLS AND PUNCTUATION CJK 符号和标点
HIRAGANA 平假名
KATAKANA 片假名
BOPOMOFO 注音
HANGUL COMPATIBILITY JAMO 朝鲜文兼容字母
CJK MISCELLANEOUS CJK 零杂符号
ENCLOSED CJK LETTERS AND MONTHS 带括号的CJK 字母及月份
CJK COMPATIBILITY CJK 兼容字符
HANGUL 朝鲜文
HANGUL SUPPLEMENTARY-A 朝鲜文扩充-A
HANGUL SUPPLEMENTARY-B 朝鲜文扩充-B
CJK UNIFIED IDEOGRAPHS CJK 统一文字
PRIVATE USE AREA 专用区
CJK COMPATIBILITY IDEOGRAPHS CJK 兼容汉字
ALPHABETIC PRESENTATION FORMS 拼音文字变形显现形式
ARABIC PRESENTATION FORMS-A 阿拉伯文变形显现形式-A
COMBINING HALF MARKS 半形组合用标志
CJK COMPATIBILITY FORMS CJK 兼容形式
SMALL FORM VARIANTS 小写变体
ARABIC PRESENTATION FORMS-B 阿拉伯文变形显现形式-B
HALFWIDTH AND FULLWIDTH FORMS 半形及全形字符
SPECIALS特殊字符
20 双向语境中的字符
LEFT PARENTHESIS 左圆括号
RIGHT PARENTHESIS 左圆括号
LEFT SQUARE BRACKET 左方括号
RIGHT SQUARE BRACKET 右方括号
LEFT CURLY BRACKET 左花括号
RIGHT CURLY BRACKET 右花括号
LEFT SQUARE BRACKET WITH QUILL 左E型方括号
RIGHT SQUARE BRACKET WITH QUILL 右E型方括号
SUPERSCRIPT LEFT PARENTHESIS 上标左圆括号
SUPERSCRIPT RIGHT PARENTHESIS 上标左圆括号
SUBSCRIPT LEFT PARENTHESIS 下标左圆括号
SUBSCRIPT RIGHT PARENTHESIS 下标左圆括号
LEFT-POINTING ANGLE BRACKET 左指尖括号
RIGHT-POINTING ANGLE BRACKET 右指尖括号
LEFT ANGLE BRACKET 左尖括号
RIGHT ANGLE BRACKET 右尖括号
LEFT DOUBLE ANGLE BRACKET 左双尖括号
RIGHT DOUBLE ANGLE BRACKET 右双尖括号
LEFT CORNER BRACKET 左角括号
RIGHT CORNER BRACKET 右角括号
LEFT WHITE CORNER BRACKET 左空心角括号
RIGHT WHITE CORNER BRACKET 右空心角括号
LEFT BLACK LENTICULAR BRACKET 左实心凹形括号
RIGHT BLACK LENTICULAR BRACKET 右实心凹形括号
LEFT TORTOISE SHELL BRACKET 左龟壳形括号
RIGHT TORTOISE SHELL BRACKET 右角壳形括号
LEFT WHITE LENTICULAR BRACKET 左空心凹形括号
RIGHT WHITE LENTICULAR BRACKET 右空心凹形括号
LEFT WHITE TORTOISE SHELL BRACKET 左空心龟壳形括号
RIGHT WHITE TORTOISE SHELL BRACKET 右空心角壳形括号
LEFT WHITE SQUARE BRACKET 左空心方括号
RIGHT WHITE SQUARE BRACKET 右空心方括号
21. 特殊字符
SPACE 间隔
NO-BREAK SPACE 无间断间隔
EN QUAD EN空隙
EM QUAD EM空隙
EN SPACE EN间隔
EN SPACE EM间隔
THREE-PER-EM SPACE 三分之一的EM间隔
FOUR-PER-EM SPACE 四分之一的EM间隔
SIX-PER-EM SPACE 六分之一的EM间隔
FIGURE SPACE 数字间隔
PUNCTUATION SPACE 标点间隔
THIN SPACE 窄间隔
HAIR SPACE 微间隔
IDEOGRAPHIC SPACE 表意字符间隔
YEN SIGN 日元/人民币元
DOLLAR SIGN 元
23 组合用字符
COMBINING TILDE 组合用颚化符
GRAVE ACCENT 抑音符
COMBINING GRAVE ACCENT 组合用抑音符
作者: 求实—求知 时间: 2008-4-28 21:16 标题: 怎么没下文了?
提示: 作者被禁止或删除 内容自动屏蔽
作者: extc 时间: 2008-4-29 19:40
序言
這本書, Unicode 標準5.0版本, 以及Unicode字庫資料庫,是Unicode 字符編碼的官方信息來源。
5.0版本是Unicode標準的一次躍飛。它對支持Unicode 的程序提出更清楚的要求,以及為實作者提供更明確的指引,使能夠抓住快速增長的技術、新興的市場,同時安全、可靠的程序切合使用者的需要。
為什麼要買這本書
作為一項重大改進,Unicode 標準5.0 版本以更多的內容但更小型的、便利的大小面世。例如首次包含所有Unicode 標準的附錄--為重要程序例如文本常規化(text normalization)、雙向處理(bidirectional handling)、識別符語句分析(identifier parsing)提供規格。
5.0 版本包含來自世界各國多年來的實踐並且大大增強:內裡加上15年來用戶的回饋、為Unicode 用戶提供完全的答案、以及更易使用--大力改善的圖表,用字更淸晰。
- 四分之五的圖是新的
- 三分之二的定義是新的
- 一半的Unicode 附錄是新的
- 三分之一的一致條款(conformance clauses)是新的
- 四分之一的表格是新的
另外,5.0 版本反映書寫系統實作的進步。它實質改善印度語系的表達以迎合其日益重要的市場地位--印度政府支持以Unicode為主的實作,這本書解釋怎樣實作。5.0 版本突出新的CJK 子集 IICore, 它是東亞市場之間互通必不可少的。
簡單來說,Unicode 標準5.0版本,能讓發展商快速實作最新程序,開拓世界新市場。由3.0,4.0移至5.0 版本是重大而且重要--這本書每一位Unicode實作者都必須要有一本。
為什麼要升級去5.0版本
相比於3.0和4.0版本,5.0版本有著重大改進。軟件工業已經意識到而且正在快速步向5.0版本--Windows Vista採用5.0版本;ICU, Google, Yahoo! 全都計劃升級去5.0版本.互聯網和W3C 通訊協定建基於Unicode並且持續採用最新版。國際標準ISO/IEC 10646 與5.0版本同步。
這個版本是Unicode保安機制、Unicode較對機制、CLDR(Common Locale Data Repository)的國別設定以及Unicode常規表達式的基礎。Unicode編碼模型改善表達式,使
實作者怎樣在UTF-8或其他編碼上淸楚使用Unicode文本。系統化的字符屬性大幅擴展幫忙實作者去支持Unicode文本處理。這標準建立casefolding及識別碼的穩定性原則,對使用官式語言的跨平台性和向舊版本兼容性以及、依賴精確慣用法的上文下理都很重要。
5.0 版本發表穩定、實用的文本處理模型以切合今時今日信息科技的需要。Unicode提供:
- 對中國GB18030標準及HKSCS雙向兼容
- 新建立的CJK字符子集核心--IICore
- 仔細調較的大小楷(casing) 及雙向行為(bidirectional behavior) 以達到工業規格的要求
- 改進的印度渲染指引(Indic rendering guidelines)
- 更好的處理複合字符(combining characters), Unicode字串, 異體識別符(VS), 換行符, 詞語切割指引
實作者如果想追上行業的潮流,利用穩定的安全性基礎,最新的校對及地域定義--最重要一點--擴展市場,就要儘快升級去5.0 版本了。
詳細的改動資料 見附錄D:和前版本的比較,包括數字數,穩定性保證,UCD(Unicode字符數據庫)的更新和Unicode標準附錄。
本書的組織
本書及UCD(Unicode字符數據庫)定義出Unicode標準5.0 版本。包括基本原則,一致性要求,實作者的指引,字符表及名稱,最後Unicode標準附錄。
槪念,架構,一致性,指引 首五章介紹Unicode標準,提供一致性實作的基礎資料。基本文本處理,複合標記以及編碼形式都有提到。還有一章解答實現Unicode時一般常見的問題。
第一章 介紹標準的基本槪念,設計預測,及討論處理基本文本的要求。
第二章 提出Unicode標準的基礎原則,涵蓋有關主題例如文字處理,大槪字符屬性,複合標記的使用。
第三章 指明一致性的官方說明。本章提出以下三種程序規範的演算:複合標記的標準排序、利用結合字母(Jamo)的韓文音節編碼、預設大小楷(casing)。
第四章 詳細描述字符的規範屬性和資訊屬性。表格列出在Unicode字符數據庫出現的額外字符資訊。
第五章 討論實作問題,包括壓縮,應付不明和不支持的字符的策略和轉碼上的問題。
字符板塊描述 第六至第十六章包含字符板塊描述,提供每國文字或符號的基本資料,討論某種字符和相干版面編排。當中有些資料是為某種文字提供Unicode一致性實作所要求的。
字符表 第十七章提供字符表及字符名稱淸單。字符表包含規範字符編碼指派,而字符名稱淸單則規範信息,互相參照及國際性筆記。
漢字部首/筆劃表 第十八章提供IICore CJK子集的部首/筆劃表。這個索引旨在方便尋找Unicode標準內的常用漢字。
附錄 提供有關Unicode標準的歷史和與ISO/IEC 10646的關係的詳細背景資料。
附錄A 在標準內註釋慣例
附錄B 提供Unicode技術報告摘要和其他Unicode資源列表
附錄C 詳述Unicode標準與ISO/IEC 10646的關係
附錄D 列出Unicode標準自4.0版本以來的轉變
附錄E 描述Unicode漢字統一的歷程
附錄F 重印Unicode機構對字符編碼穩定性政策
詞彙表,參考,索引 術語的解釋,參考書目,Unicode索引和本書索引
UAX (Unicode 標準附錄)
UAX 構成整體所必需的一部分。對Unicode 標準的一致性應包括對UAX一致。
UAX #9, "左右雙向演算法", 提供對混合文本內(例如阿拉伯文,希臘文)字符位置規格。
UAX #11, "東亞文字字寬", 提供Unicode 字符與舊款東亞字符集互動的規格。
UAX #14, "換行屬性", 描述Unicode 字符的換行規格。
UAX #15, "Unicode 常態化形式", 描述4種常態化Unicode文字的規格。
UAX #24, "語系名稱", 具體指定指派語系名稱。
UAX #29, "文字界綫", 描述如何決定在音素,字,句子之間設下界綫
UAX #31, "識別符和模式句法", 描述建議的識別符定義和模式句法的規格。
UAX #34, "Unicode 字符名稱序列", 定義字符名稱序列的槪念以及可能出現的序列的命名規則 。
UAX #41, "UAX常用參考", 包含其他UAX 的參考書目。
UAX 的 5.0.0 版本已經包含在CD-ROM 裏。所有版本,包括最新的UAX,都已經放在Unicode 網頁:
http://www.unicode.org/reports/
UCD(Unicode字符數據庫)
Unicode字符數據庫(UCD) 係 字符碼,字符名稱,字符屬性的數據集合。4.1 節, Unicode字符數據庫有更詳細的描述。所有版本,包括最新的UCD,都已經放在Unicode 網頁:
http://www.unicode.org/ucd/
5.0.0 版本的文件已經包含在隨本書附送的CD-ROM 裏。
有關版本的資訊以及所有Unicode標準的版本可以在Unicode 網頁找到:
http://www.unicode.org/versions/
Unicode技術標準及Unicode技術報告
Unicode技術報告和Unicode技術標準係分開的出版物,不屬於Unicode標準的一部分。
所有Unicode技術報告和Unicode技術標準的版本都已經放在Unicode 網頁:
http://www.unicode.org/reports/
出版日前的最新的版本已經包含在CD-ROM 裏。槪要見附錄B, Unicode 出版物和資源,
CD-ROM有什麼
本CD-ROM包含額外資訊,例如範例程序碼,會維持在Unicode FTP 站台:
ftp.unicode.org
也可以在HTTP取得:
http://www.unicode.org/Public/
有關CD-ROM的內容,見ReadMe.txt 文件。
更新及勘誤表
舉報Unicode標準錯誤,包括UCD和UAX,可以利用線上報告:
http://www.unicode.org/reporting.html
已知的錯誤在Unicode 網頁列出:
http://www.unicode.org/errata/
所有已列出的錯誤會在隨後的版本作出更正。
[ 本帖最后由 extc 于 2008-4-29 19:45 编辑 ]
作者: sjgsjg 时间: 2008-5-19 12:52
"相比於3.0和4.0版本,5.0版本有著重大改進。軟件工業已經意識到而且正在快速步向5.0版本--Windows Vista採用5.0版本"
Windows Vista已采用了5.0版本unicode了吗?他使的的unicode字体文件名是什么?
作者: zxq200407 时间: 2008-8-11 10:57
我到unicode.org上看了,确实在它的网站上有说Vista采用了5.0的版本.可以做个小小的实验,输入几个5.0新加的character就知道是不是5.0版本的了
作者: zxq200407 时间: 2008-8-13 17:16
很希望大家能一起把unicode翻译了,也能帮助鸟语不好的人学习它
作者: 冰雪 时间: 2008-8-14 16:50
我的鸟语太差,无法参与,不过,我觉得国家应该有一个与Unicode的同步网站!
作者: zxq200407 时间: 2008-8-18 10:48
国家没有负起这个责,所以只能靠我们自己了
作者: zxq200407 时间: 2008-8-19 14:55
引用:
原帖由 zxq200407 于 2008-8-11 10:57 发表 
我到unicode.org上看了,确实在它的网站上有说Vista采用了5.0的版本.可以做个小小的实验,输入几个5.0新加的character就知道是不是5.0版本的了
今天又在MSDN的网站上发现说Vista采用了unicode 5.0的版本,参考: http://msdn.microsoft.com/zh-cn/magazine/cc163490.aspx#S1
它对应的字体是Arail unicode MS,不过这个字体只支持unicode2.1的所有字符
[ 本帖最后由 zxq200407 于 2008-8-19 15:03 编辑 ]
作者: zxq200407 时间: 2008-8-28 13:13 标题: 附件D,从先前版本的改变
D.1 Improvements to the Standard
改进标准
Version 5.0 of the Unicode Standard incorporates into the text the knowledge gained from
many years of worldwide industry implementation experience. It supersedes all previous
versions and offers round-trip compatibility with the Chinese standards GB18030 and
HKSCS, improved alignment of the Bidirectional Algorithm with norms of the industry,
improved guidance on the segmentation of text and processing Unicode strings, and
enhanced descriptions of rendering Indic scripts.
Unicode 标准5.0包含文本知识得益于世界范围的工业实施经验。它取代所有先前的版本和提供和中国GB18030标准和HKSCS标准兼容。用工业规范改进双向算法调整,改进指导在文本段和处理unicode字符串和增强印度脚本呈现的描素。
This latest version of the Unicode Standard is the basis for Unicode security mechanisms,
the Unicode collation algorithm, the locale data provided by the Common Locale Data
Repository, and support for Unicode in regular expressions. The significant improvements
to the standard since Versions 3.0 and 4.0 include the further development of the Unicode
encoding model, the introduction of the character property model, and the establishment
of casing and identifier stability.
这个最新的unicode标准是根据unicode安全机制,unicode调整算法,Common Locale Data
Repository提供的本地数据和支持unicode正则表达式。从3.0和4.0版本相当数量的改进包括unicode 编码模型的未来发展,字符属性模型的介绍和casing和表示符稳定的建立。
The text of the standard has been enhanced significantly:
• Two thirds of the definitions are new.
• One third of the conformance clauses are new.
• One half of the character repertoire is new.
• One fourth of the tables are new.
• Four fifths of the figures are new or updated.
• One half of the Unicode Standard Annexes are new.
• All Unicode Standard Annexes are included in the book for the first time.
• The form factor has been improved dramatically to make the book smaller and
lighter.
标准的文本有了较大的改进:
三分之二的定义是新的。
三分之一的一致性条款是新的。
一半的字汇是新的
四分之一的表是新的
五分之四的图片是新或更新的。
一半的Unicode标准的附件是新的。
首次把所有的unicode标准的附件被包括在书里。
波形因素被显著改进为了把书做的更小更轻。
作者: zxq200407 时间: 2008-8-28 16:05
D.2 Versions of the Unicode Standard
Unicode标准的版本
The Unicode Technical Committee updates the Unicode Standard to respond to the needs
of implementers and users while maintaining consistency with ISO/IEC 10646. The relationship
between these versions of Unicode and ISO/IEC 10646 is shown in Table D-1. For
more detail on the relationship of Unicode and ISO/IEC 10646, see Appendix C, Relationship
to ISO/IEC 10646.
Unicode 技术协会和ISO/IEC 10646维护一致性会更新unicode标准去响应设备和用户的需要
Table D-1. Versions of Unicode and ISO/IEC 10646-1
Year Version Published ISO/IEC 10646-1
1991 Unicode 1.0 Vol. 1, Addison-Wesley Basis for Committee Draft 2 of 10646-1
1992 Unicode 1.0.1 Vol. 1, 2, Addison-Wesley Interim merger version
1993 Unicode 1.1 Technical Report #4 Matches ISO 10646-1
1996 Unicode 2.0 Addison-Wesley Matches ISO 10646-1 plus amendments
1998 Unicode 2.1 Technical Report #8 Matches ISO 10646-1 plus amendments
2000 Unicode 3.0 Addison-Wesley Matches ISO 10646-1 second edition
2001 Unicode 3.1 Standard Annex #27 Matches ISO 10646-1 second edition plus
two characters, 10646-2 first edition
2002 Unicode 3.2 Standard Annex #28 Matches ISO 10646-1 second edition plus
amendment, 10646-2 first edition
2003 Unicode 4.0 Addison-Wesley Matches ISO 10646:2003, third version
2005 Unicode 4.1 Web publication Matches ISO 10646:2003, third version, plus
Amd. 1
2006 Unicode 5.0 Addison-Wesley (2007) Matches ISO 10646:2003, third version, plus
Amd. 1, Amd. 2, and four characters from Amd. 3
The Unicode Standard has grown from having 28,294 assigned graphic and format characters
in Version 1.0, to having 99,024 characters in Version 5.0. Table D-2 documents the
number of code points allocated in the different versions of the Unicode Standard. The row
in Table D-2 labeled “Graphic + Format” represents the traditional count of Unicode characters
and is the typical answer to the question, “How many characters are in the Unicode Standard?”
Unicode标准从有28294个指配的字型和格式字符的1.0版本到有99024的5.0版本。Table D-2记载在Unicode标准不同版本被分配码点的数量。在Table D-2中的行标记“字型+格式”表示传统的Unicode统计字符和是典型的问题的答案,“有多少字符在Unicode标准里?”
Some of the values in Table D-2 differ slightly from summary statistics published in earlier
versions of the standard, primarily due to a refined accounting of the allocations in Unicode
1.0. Also note that the numbers for Han Compatibility include the 12 unified ideographs encoded in the CJK Compatibility Ideographs block.
在Table D-2中有些值和标准早期发布的版本的概要统计稍微不同,主要由于unicode 1.0分配的一个完善的统计。也记录汉兼容汉字包括12个统一象形编码在CJK Compatibility Ideographs块。
Table D-2. Allocation of Code Points by Type
V1.0.0 V1.0.1 V1.1 V2.0 V2.1 V3.0 V3.1 V3.2 V4.0 V4.1 V5.0
Alphabetics, Symbols 4,734 4,728 6,290 6,491 6,493 10,210 11,798 12,753 13,973 15,117 16,486
Han (URO) 20,902 20,902 20,902 20,902 20,902 20,902 20,902 20,902 20,902 20,902
Han (URO Extension) 22 22
Han Extension A 6,582 6,582 6,582 6,582 6,582 6,582
Han Extension B 42,711 42,711 42,711 42,711 42,711
Han Compatibility 302 302 302 302 302 844 903 903 1,009 1,009
Subtotal Han 21,204 21,204 21,204 21,204 27,786 71,039 71,098 71,098 71,226 71,226
Hangul Syllables 2,350 2,350 6,656 11,172 11,172 11,172 11,172 11,172 11,172 11,172 11,172
Graphic Characters 7,084 28,282 34,150 38,867 38,869 49,168 94,009 95,023 96,243 97,515 98,884
Format Characters 12 12 18 18 18 26 131 133 139 140 140
Graphic + Format 7,096 28,294 34,168 38,885 38,887 49,194 94,140 95,156 96,382 97,655 99,024
Controls 65 65 65 65 65 65 65 65 65 65 65
Private Use 5,632 6,144 6,400 137,468 137,468 137,468 137,468 137,468 137,468 137,468 137,468
Total Assigned 12,793 34,503 40,633 176,418 176,420 186,727 231,673 232,689 233,915 235,188 236,557
Surrogate Code Points 2,048 2,048 2,048 2,048 2,048 2,048 2,048 2,048
Noncharacters 2 2 2 34 34 34 66 66 66 66 66
Total Designated 12,795 34,505 40,635 178,500 178,502 188,809 233,787 234,803 236,029 237,302 238,671
Reserved Code Points 52,741 31,031 24,901 935,612 935,610 925,303 880,325 879,309 878,083 876,810 875,441
D.2 Versions of the Unicode Standard 1101
| 欢迎光临 北大中文论坛 www.pkucn.com (http://www.pkucn.com/) |
Powered by Discuz! 6.0.0 |