目次

非日本語判定の情報

2024/03/11
また質問がありそうな気がしたので資料にする

非日本語判定の手順

非日本語文字割合が75%設定(デフォルト)の場合。

(1)全体文字数を調査

以下の文字を除いてから文字数を調べます。

0123456789..+- 	

※空白(u+0020)、タブ(u+0009)を含む。全角空白(u+3000)は含まない

(2)カラ文字・連続文字判定

同じ文字が連続する場合(例えば Wwwwww)は判定しません。
※非日本語にならない

拍手の意の「8888」は(1)の条件により長さゼロとなり判定しません。
※非日本語にならない

(3)非日本語文字数を調査

以下の文字を非日本語文字として文字数を調べます。

abcdefghijklmnopqrstuvwxyz
ABCDEFGHIJKLMNOPQRSTUVWXYZ
!"#$%&'()-=^~|\`@{[]};+:*,./?
àÀèÈùÙéÉâÂêÊîÎûÛôÔäÄëËïÏüÜÿŸöÖñÑãÃõÕœŒçÇẞß
ءآأؤإئابةتثٹپجحخچدذڈڐرزژڑسشصضطظعغفقكکگلمنںهھۀہۂۃوىيیےۓ

※アンダーバー(u+005f)は対象外。表示の“\”(u+005c)は“¥”の事

(4)非日本語文字の割合判定

割合を計算し設定割合を越えているか否か判定します。
設定割合の75%を越えていれば非日本語判定となります。

 ( (3)の文字数 ÷ (1)の文字数 ) > 0.75