第2話 異字体セレクタ

UNICODEにはさらに恐ろしい仕様がある。

以下の文字について、左右の字体が微妙に違うのがお分かりだろうか。

祇 祇󠄀

屑 屑󠄀

榊 榊󠄀

錆 錆󠄀

辻 辻󠄀

杓 杓󠄀

灼 灼󠄀


標準字体が左側で、右側はUNICODEの異体字セレクタを指定したものだ。

『𠮟』と『叱』は別の文字としたのに『祇』と『祇󠄀』はなのだ。


この異体字セレクタを含めると、投降後の画面でも『表示される文字数』と『カウントされる文字数』が一致しない結果となる。

サロゲートペアは正しく数えていることから考えると、異体字セレクタそのものも1文字とカウントしているのだろう。


そのため、ワープロソフトで文字数の確認をしている場合にはズレが生じる可能性がある。字数制限があるコンテストに応募する際は、きちんと文字数を確認することをお勧めする。

※ 一太郎では確認していないが、MS-Wordは異体字セレクタは文字数にカウントされない



カクヨムがこれに対応するためには、ルビや空白を抜く処理のところに異体字セレクタも抜くようにすれば良いだけだ。

どうせ、ゴチャゴチャと加工しまくるのだから、オリジナルの改変とか気にすることもないだろう。

  • Xで共有
  • Facebookで共有
  • はてなブックマークでブックマーク

作者を応援しよう!

ハートをクリックで、簡単に応援の気持ちを伝えられます。(ログインが必要です)

応援したユーザー

応援すると応援コメントも書けます

新規登録で充実の読書を

マイページ
読書の状況から作品を自動で分類して簡単に管理できる
小説の未読話数がひと目でわかり前回の続きから読める
フォローしたユーザーの活動を追える
通知
小説の更新や作者の新作の情報を受け取れる
閲覧履歴
以前読んだ小説が一覧で見つけやすい
新規ユーザー登録無料

アカウントをお持ちの方はログイン

カクヨムで可能な読書体験をくわしく知る