33. 付録-文字コード漢字規格
文字コードや漢字の規格について、軽く説明します。
漢字の使用における目安などの基礎知識として使えます。
■ASCII(文字コード/規格名)
アスキー。アスキーコード。アメリカの文字コード。
いわゆるアルファベットなど、カタカナ以外の「半角文字」のことです。
Shift_JIS、Unicodeにも含まれています。
■Shift_JIS(文字コード)
シフトジス。日本工業規格=JIS X 0208を基にした文字コード。通称SJIS。
第1水準、第2水準の漢字と非漢字があります。
非漢字は記号、ひらがな、カタカナ、ギリシャ文字、キリル文字などです。
「∞♂♀♭♪☆★○●◎◇◆□■△▲▽▼※〒→←↑↓〓」などはShift_JISに含まれています。
Web上でShift_JISと書かれている場合は、実際にはCP932である場合も少なくないです。
■CP932(文字コード)
Shift_JISを拡張した文字コード。Windowsで使われています。
CPはコードページのことです。Windows95の前、Windows 3.1のときには使われていた古いものです。
日本語の小説で使う「〝〟」ミニュートはCP932の文字です。
はしご高「髙」や丸付き数字「①②」~「⑳」ローマ数字大文字「ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩ」およびローマ数字小文字「ⅰⅱ〜ⅸⅹ」、組文字の単位等「㍉㌔㌢ ㎜㎝㎞№」などもCP932独自文字でした。
フリーフォントを含む日本語フォントは、Shift_JISかCP932の範囲しか文字が含まれていないことがあるため、一般的な文章を書く場合は、CP932の文字で書くと互換性が高いとされます。
ガラケーなどではこの文字コードに絵文字を追加したものが使われていました。
そのためガラケーではUnicode固有文字などが文字化けします。
■JIS X 0213(規格名)
2000年に採用、2004年に改訂された新しい漢字、非漢字の文字コード。
JIS X 0208の第1水準、第2水準に加えて、新しく第3水準と第4水準が定義されて、記号の非漢字もいくつか追加されました。
一部CP932の「丸付き数字」「ローマ数字」「ミニュート」などはこのとき正式にJIS規格に取り込まれました。
CP932で拡張された漢字のいくぶんかは0213でも定義されています。定義されなかった文字もあります。
0213では新しく「㊿」まで定義が増えていて、黒丸「❶⓴」二重丸「⓵⓾」もあります。
web小説的には新たにトランプ記号として「♥♡」および「♦♢♠♤♣♧」や音符系(♪♮♯以外)「♫♬♩」疑問符系「‼⁇⁈⁉」が追加されたのが大きいです。CP932には含まれていないのでSJISファイルでは文字化けします。Unicode(UTF-8)などで保存しましょう。
新しめのフォントでは、Unicodeの文字ベースでJIS X 0213の範囲に対応しているものがあります。
0213の漢字の中にはUnicodeのサロゲートペアになる2面に収録されているものがあります。それは2004年に追加された1字を含めて303字あります。
専用の文字コードは「参考」として定義されていますが、事実上ほぼ使われていなくて、JIS X 0213で定義されている文字のみの範囲で、Unicodeの日本語用サブセットとして機能しています。
■第○水準漢字(規格の水準)
第1水準:よく使うとされた漢字。JIS X 0208/0213。2965字。
第2水準:ちょっと難しい漢字。JIS X 0208/0213。3390字。
第3水準:Shift_JISで表せない漢字。難しい漢字。JIS X 0213。1259字。
第4水準:Shift_JISで表せない漢字。レアな漢字。JIS X 0213。2436字。
合計で約1万字です。
いずれも新しいUnicode規格には含まれています。
JIS第1水準の漢字だったら常用人名漢字以外であっても、読者は読めるんじゃないかなという期待はあります。
■補助漢字(規格名)
JIS X 0212。JIS補助漢字。1990年制定。約6千字。流行らなくて一時期忘れられた漢字。
JIS X 0208の第1、第2水準を拡張する漢字、非漢字です。
これもちゃんと古くからUnicodeに採用されているので、一部の漢字フォントにはこれの文字も含まれています。
Shift_JISでは表すことができませんが、一部の文字はCP932の拡張文字に含まれているものもあります。JIS X 0213の第3、第4水準として採用された文字もあります。
JIS X 0213のみの漢字と、JIS X 0212のみの漢字、両方に含まれる漢字があります。
補助漢字の漢字はすべてUnicodeの0面に収録されています。
■Unicode(規格名)
ユニコード。国際規格。ほとんど同じものに「ISO-10646」日本語版の「JIS X 0221」があります。全世界の文字を含んだ文字コード。近年では絵文字などを追加しています。
Windows NT 2000 XP Vista 7 8 10、Mac OS X/iPhone、近代的なLinux、Androidなどで内部コードとして使われています。
近年のエディタもほとんどがUnicodeを採用しているので、これが基準になります。
小説家になろうやカクヨムもUTF-8というUnicode系の文字コードを使っています。
多くのフォントではUnicodeの全範囲の文字を定義していないため、特にPDFなどで文字化けしたり空白になることもあるようです。
漢字には同じ文字であってもフォントにより「中国語の見た目」「韓国の見た目」「日本語の見た目」などがあり、中華フォントなどといって簡体字に見えるものがあります。
どの漢字が日本語用フォントで正しく見れるかには、色々細かいことがあり、読めたり読めなかったりと問題があります。
エディタやブラウザで特定フォントにその文字がない場合は、他のフォントで代替表示することがあります。
■サロゲートペア(用語)
ユニコードの文字はU+0000から始まってU+10FFFF(十六進数)までありますが、このうちU+10000以上のコードポイントを持つ文字のことです。
サロゲートペアでない部分を「0面」「基本多言語面/BMP」と呼びます。
Windowsの内部コードUTF-16では、サロゲートペアの文字は2文字分4バイトが必要で、プログラムがそれに対応した書き方がされていないと正しく扱えません。
Unicode絵文字や、CJK統合漢字拡張B以降などがここに割り当てられています。
小説家になろうでは、このサロゲートペアは機種依存文字として未対応扱いされて、保存できません。
カクヨムではサロゲートペアの保存などは普通にできますが、PCやスマホ側まですべてのツールが対応しているかは若干怪しいです。またカクヨム上であっても、文字カウントがどのような扱いなのかはよく分かりません。(1サロゲート文字=2文字カウントだったりする場合があります)
■当用漢字
1946年に決まった、当分の間、使用する漢字制限の決まりのことです。のちに常用漢字により廃止されました。
当時はGHQの意向や漢字廃止論などもあり当用漢字以外の漢字は使用しないことみたいな決まりがありました。
■常用漢字
1981年に決まった官公庁などが使う一般文章において使用する漢字の一覧のめやすのことです。国語審議会が決めています。
当用漢字では制限されていましたが常用漢字になり「あくまで参考」みたいな立ち位置になって、小説などでは強制力的な感じがなくなりました。
それでも漢字を使う際の目安として一定の地位にあります。
近年改訂された新常用漢字ではJIS第3水準の漢字が4文字あり、そのうち1文字がUnicodeのサロゲートペアに配置されていて対応ソフトの問題が上がっています。
それ以外の文字はJIS第1第2水準漢字です。第4水準漢字にはありません。
常用漢字表には「読み仮名」が掲載されていて代表的なものが音読み、訓読みに分かれて掲載されています。これを「常用読み」などと言います。それ以外を「表外読み」などと言います。表外読みの場合、ひらがなにしたりルビを振ったりすることもあります。
■新常用漢字(俗称)
2010年の常用漢字の改定を通称で「新常用漢字」と呼んでいます。
ほぼ使わない5字を削除して、その字は人名漢字に降格になりました。
追加は196字で、都道府県名など使用頻度の高い文字が該当しています。
「俺」もそうで今までは常用漢字ではなかったのでカタカナ書きされたりしていました。
■人名漢字
常用漢字に加えて、子の名づけに使用可能な漢字の一覧です。
ある程度平凡な漢字である基準の一つとされます。
裁判等で平凡性が認められると人名漢字に追加されることがあります。
常用漢字の異体字なども多いです。
なお苗字は親の字を継承するので人名漢字の一覧に制限されません。
常用人名漢字とJIS系の第1第2漢字などの規格はバラバラのため、常用人名漢字ではない第1水準、第2水準漢字などもあります。
人名漢字は第1、第2、第3水準にばらけています。第4水準の文字はありません。
2018年12月時点では
常用漢字は2136字です。
常用漢字でJIS第1水準は2102字です。
常用漢字でJIS第2水準は30字です。
常用漢字でJIS第3水準は4字です。うち1字がサロゲートペアです。
人名漢字は863字です。
人名漢字でJIS第1水準は566字です。
人名漢字でJIS第2水準は192字です。
人名漢字でJIS第3水準は105字です。うち18字がCP932の拡張文字でもあります。
常用人名以外のJIS第1水準は残りの297字です。
常用人名以外のJIS第2水準は残りの3168字です。※
※の3168字と第3水準以上の漢字は、あまり読者が読めない可能性の高い文字になります。
これはコンピュータ上の都合と、難しい漢字で読み方を知らない可能性が高いという両方の意味です。
ルビを振るなり、ひらがなに置き換えるなどの対応をしてもいいと思います。もちろんよく目にするし、読めると判断した文字は普通に使っても問題ありません。
■新字体
新字体は、旧来使われていた略字などから、戦前の常用漢字表から始まり当用漢字、常用漢字などでも使用されている字体です。
そして古いほうを「旧字体」といいます。
こういう元は同じ字なのに見た目が違うものをおおざっぱに「異体字」といいます。
たとえば新字体の「国」と旧字体の「國」のようなものです。
固有名詞などでは旧字体はそのまま使われるため、漢字コードには「旧字体」と「新字体」が両方掲載されている状態になっています。
小説でもどちらでも使えますが、通常は新字体を使用することが多いはずです。
■拡張新字体
常用漢字における新しい見た目が「新字体」です。
これに対して、常用漢字外の同じように簡略化した見た目の字を「拡張新字体」といいます。
拡張新字体の一部はJIS漢字で採用されて、1978年、1983年以降、ワープロ、パソコンでこの拡張新字体を長らく使ってきました。
年長者以外のほとんどの人は、この拡張新字体に馴染みがあると思います。
2000年、印刷標準字体の「表外漢字字体表」が発表されます。
これは印刷における「標準の字体」の目安です。印刷標準字体はほとんどが拡張新字体ではなく、旧字体になっています。
それに従い、出版などでは常用外の文字は旧字体で印刷することが増えています。
2004年のJIS X 0213の改定で、この印刷標準字体に対応するために、漢字コードの例示字形の変更が行われました。
Windows Vista以降でXP以前より「なんか昔と字体が違う。複雑になっている」という文字があるのはだいたいこれです。
例えば「煉噌」食偏「蝕飢餅飢」2点しんにょう「辻迄謎」示す偏「祇祠禊祀」などです。該当する文字は半強制的に印刷標準字体になります。
webサイトやTVで旧字と新字を選択できる文字は、相変わらず拡張新字体を多く使っています。
今後、インターネットやスマホで、拡張新字体がそのまま使われるのか、それとも印刷標準字体のほうが優勢になるかは、不明です。
■同音による漢字の書きかえ
当用漢字や常用漢字のみを使うようにするために、難しい漢字を常用漢字に置き換えたものです。
これは別の漢字なので、新字体、旧字体の違いというのともまた違います。
■付録
CP932(Windows)とJIS X 0208等(Mac, iPhone, Android, Linux)とでUnicodeのマッピングの異なる文字の一覧です。
SJIS / Windows / Mac,スマホ等
815C U+2015 ― U+2014 — ホリゾンタルバー、ダッシュ(EM DASH)
8160 U+FF5E ~ U+301C 〜 全角チルダ、波ダッシュ
8161 U+2225 ∥ U+2016 ‖ 双柱、平行
817C U+FF0D - U+2212 − 全角マイナス
8191 U+FFE0 ¢ U+00A2 ¢ セント
8192 U+FFE1 £ U+00A3 £ ポンド
81CA U+FFE2 ¬ U+00AC ¬ 否定
JIS X 0213のうちJIS X 0208の文字で代替表記される文字
U+2022 • ビュレット
→U+30FB ・ 中点、中黒
U+30A0 ゠ ダブルハイフン
→U+FE1D = 全角イコール
新規登録で充実の読書を
- マイページ
- 読書の状況から作品を自動で分類して簡単に管理できる
- 小説の未読話数がひと目でわかり前回の続きから読める
- フォローしたユーザーの活動を追える
- 通知
- 小説の更新や作者の新作の情報を受け取れる
- 閲覧履歴
- 以前読んだ小説が一覧で見つけやすい
アカウントをお持ちの方はログイン
ビューワー設定
文字サイズ
背景色
フォント
組み方向
機能をオンにすると、画面の下部をタップする度に自動的にスクロールして読み進められます。
応援すると応援コメントも書けます