努力したWiki

推敲の足りないメモ書き多数

ユーザ用ツール

サイト用ツール


documents:code:code-006

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン前のリビジョン
documents:code:code-006 [2024/04/14 10:56] – ↷ 移動操作に合わせてリンクを書き換えました。 176.193.71.212documents:code:code-006 [2026/05/12 23:18] (現在) – [漢字の対応表(Unicode to JISX0213)] k896951
行 1: 行 1:
 +====== 106.漢字の対応表(Unicode to JISX0213) ======
 +
 +2024-04-01 情報をPostgreSQLに移しそこからHTML生成させるようにした\\ 
 +2023-09-14 漢字の追加。読み情報追加。\\ 
 +2023-09-13 マッピングが怪しいので再設定した。\\ 
 +
 +~~NOCACHE~~
 +
 +===== これはなに? =====
 +
 +UnicodeからJIS規格へのマッピング。
 +
 +https://www.unicode.org/Public/15.1.0/ucd/Unihan.zip を取得し編集したもの。
 +  * Unihan_OtherMappings.txt から kJis0, kJis1, kJIS0213, のラベルの付いた行を抽出
 +  * Unihan_Readings.txt からkJapaneseKun, kJapaneseOn, のラベルの付いた行を抽出
 +
 +<WRAP round info>
 +2023-09-15\\ WikiPediaの[[https://ja.wikipedia.org/wiki/JIS_X_0213%E6%BC%A2%E5%AD%97%E4%B8%80%E8%A6%A7%E3%81%AE1%E9%9D%A2|JIS X 0213漢字一覧の1面]]、[[https://ja.wikipedia.org/wiki/JIS_X_0213%E6%BC%A2%E5%AD%97%E4%B8%80%E8%A6%A7%E3%81%AE2%E9%9D%A2|JIS X 0213漢字一覧の2面]]にあった水準情報をマージした
 +</WRAP>
 +
 +  * この表に区点、面区点の無い漢字文字は各JIS規格で定義されていない文字となる。
 +  * JISX0208,0212の時は 区-点、JISX0213の時は 面-区-点 を表示している。
 +  * JISX0212とJISX0213のどちらにも定義がある時は、各JIS規格で異なる区点(面区点)に漢字文字が定義されている(例外があるかもしれない)
 +
 +この表は漢字についての物なので、漢字以外でJIS規格にある文字(ひらがなカタカナ、記号、英数字、等)の情報は載っていない。[[documents:code:code-007]]を参照のこと。
 +
 +漢字の詳細を調べるときは[[https://moji.or.jp/mojikibansearch/basic|文字情報基盤検索システム]]を使うといい。
 +
 +以下のサイトでJISの文字定義を一覧で見ることができる。
 +  * https://www.asahi-net.or.jp/~ax2s-kmtn/ref/jisx0208.html
 +  * https://www.asahi-net.or.jp/~ax2s-kmtn/ref/jisx0212/index.html
 +  * https://www.asahi-net.or.jp/~ax2s-kmtn/ref/jisx0213/index.html
 +
 +その他情報はこちらのサイトが詳しい
 +  * https://www.ogis-ri.co.jp/otc/hiroba/technical/program_standards/part1.html
 +
 +JIS側は文字コードではなく、
 +  * 区点 or 面区点
 +
 +で漢字を定義している。16,05 とあれば16区5点の意。2,04,03 とあれば2面4区3点の意。
 +
 +以下の計算でJISコードへ変換できる。区、点、共に範囲は0~94。
 +  * JISコード上位 = 0x20 + 区
 +  * JISコード下位 = 0x20 + 点
 +
 +JISX0213の場合、1面の 0x2121 と2面の 0x2121 は別の漢字文字となる。\\ 
 +※2面の時に0x20を0xA0に変えたバージョンもあるようだけど一般的かどうかはわからない。この0xA0を足し込むのはEUC-JPエンコーディングだし…
 +
 +U+4EDD 仝 は、JISで非漢字扱い、Unicodeで漢字扱いされている。
 +
 +Unicodeと各JISでマッピングが異なる部分が多々ある。
 +^ JIS規格       ^ JISの文字の区点  ^ JISコード  ^ Unicode  ^ Unicodeの文字  ^
 +| JIS X 0213  | 1面14区75点   | 0x2E6B  | U+5300   | 匀           |
 +| JIS X 0212  | 19区91点     | 0x337B  | :::      | :::         |
 +| JIS X 0213  | 1面14区50点   | 0x2E55  | U+5157   | 兗           |
 +| JIS X 0212  | 18区74点     | 0x326A  | :::      | :::         |
 +| JIS X 0213  | 1面16区64点   | 0x3060  | U+840E   | 萎           |
 +| JIS X 0212  | 16区64点     | :::     | U+4F33   | 伳           |
 +| JIS X 0213  | 1面16区59点   | 0x305B  | U+7570   | 異           |
 +| JIS X 0212  | 16区59点     | :::     | U+4F17   | 众           |
 +
 +
 +===== UnicodeとJIS規格漢字対応表 =====
 +
 +<php>
 +echo file_get_contents("/usr/local/www/apache24/data/dist/unicode2jismap-kanji.html");
 +</php>
  
documents/code/code-006.txt · 最終更新: by k896951

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki