努力したWiki

推敲の足りないメモ書き多数

ユーザ用ツール

サイト用ツール


documents:tools:fakechan:fakechan22v:tools-209b

文書の過去の版を表示しています。


非日本語判定の情報

2024/03/11
また質問がありそうな気がしたので資料にする

非日本語判定の手順

非日本語文字割合が75%設定(デフォルト)の場合。

(1)全体文字数を調査

以下の文字を除いてから文字数を調べます。

0123456789..+- 	

※空白(u+0020)、タブ(u+0009)を含む。全角空白(u+3000)は含まない

(2)カラ文字・連続文字判定

同じ文字が連続する場合(例えば Wwwwww)は判定しません。
※非日本語にならない

拍手の意の「8888」は(1)の条件により長さゼロとなり判定しません。
※非日本語にならない

(3)非日本語文字数を調査

以下の文字を非日本語文字として文字数を調べます。

abcdefghijklmnopqrstuvwxyz
ABCDEFGHIJKLMNOPQRSTUVWXYZ
!"#$%&'()-=^~|\`@{[]};+:*,./?
àÀèÈùÙéÉâÂêÊîÎûÛôÔäÄëËïÏüÜÿŸöÖñÑãÃõÕœŒçÇẞß
ءآأؤإئابةتثٹپجحخچدذڈڐرزژڑسشصضطظعغفقكکگلمنںهھۀہۂۃوىيیےۓ

※アンダーバー(u+005f)は対象外。表示の“\”(u+005c)は“¥”の事

(4)非日本語文字の割合判定

割合を計算し設定割合を越えているか否か判定します。
設定割合の75%を越えていれば非日本語判定となります。

 ( (3)の文字数 ÷ (1)の文字数 ) > 0.75
documents/tools/fakechan/fakechan22v/tools-209b.1710100661.txt.gz · 最終更新: 2024/03/10 19:57 by k896951

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki