🔍 マークシート読み取りアルゴリズム比較

しきい値による古典的な分類と、K-means クラスタリング (v4.5 / 7次元) による現代的な分類を 実データ 69,750 領域で比較。同一生徒同一設問の全選択肢を並置して、アルゴリズムの差が何を捉えているかをインタラクティブに観察します。

📖 この実験について

💡 マークシート読み取り = 2クラス分類問題

各選択肢領域が「塗られているか否か」を判定する問題を機械学習では2クラス分類問題と呼びます。

  • しきい値法(古典的): 塗り面積率が一定を超えたらマーク 1次元の直線で分類
  • K-means法 v4.5(現代的): 7次元特徴量空間でデータの分布を見て自動的に2グループに分類

同一の答案紙 155 枚 450 領域 = 69,750 サンプルで両者を比較します。

特徴量(7次元)

#特徴量意味特記事項
filled_ratioOtsu二値化後のマーク面積率
mean_inv_brightness反転輝度の平均(明るさ)
dark_pixel_ratio暗画素(128)の割合
std_inv_brightness輝度のばらつき
center_edge_ratio中心濃さ 辺縁濃さ🆕 消しゴム跡は辺縁が残る傾向
normalized_filled生徒内の最大filled比🆕 筆圧の個人差を吸収
question_contrast設問内での濃さの差分🆕 消し残りと正マークを区別

📊 分析結果サマリー

手法別 認識結果の比較

しきい値法
(1次元 / 固定)
K-means法 v4.5
(7次元 / 適応的)

🤔 新アルゴリズムの変化

center_edge_ratio でマーク内部の濃度パターンを評価、のコンテキスト特徴量で「生徒ごとの筆圧差」と「設問内の相対的な濃さの差」を加味するため、消し残りや薄いマークの判定精度が向上しました。

📈 filled_ratio ヒストグラム比較

しきい値法

K-means法 v4.5

📌 境界の違い

しきい値法では filled_ratio = 0.4 の縦線が機械的な境界です。K-meansは分布の「谷」を7次元で自動発見するため、filled_ratio だけでは判断が難しいケースも適切に分類できます。

🌏 PCA散布図 7次元データを2次元で見る

7次元の特徴量を主成分分析(PCA)で2次元に投影。各点にホバーすると実際のマーク画像を確認できます。

💡 PCAとは?

7次元のデータを「情報をなるべく失わないように」2次元に圧縮します。X軸(PC1)〜Y軸(PC2)の割合が寄与率で、高いほど元のデータをよく説明しています。「不一致のみ」タブでは2つの手法で判定が割れた点だけがオレンジで強調されます。

🎜 インタラクティブ! しきい値を変えてみよう

-
マーク判定数
-
ダブルマーク
-
ノーマーク

📌 しきい値のジレンマ

しきい値を下げるとダブルマーク増、上げるとノーマーク増。K-means v4.5 は ダブルマーク - / ノーマーク - を同時に達成しています。コンテキスト特徴量が「この生徒の中で相対的に一番濃いのはどれか」を判断材料に加えるためです。

🎮 2次元しきい値シミュレータ

filled_ratio mean_inv の2次元平面で、しきい値の直線を動かして分類を体験。K-meansの境界(データ分布に沿う)との違いを感じてください。

K-meansマーク   K-means未マーク   しきい値「マーク」領域

🔎 同一生徒同一設問の全選択肢比較 なぜ判定が違う?

2つのアルゴリズムで判定が分かれた - 設問を、同一生徒同一設問の全選択肢を並べて表示します。
消しゴムで消した跡が残っていますか? この生徒の手書きの癖ですか? 実際の画像で確認してみましょう。

両方マーク しきい値のみマーク K-meansのみマーク 両方未マーク
1 / 1 1ページ5設問

📋 不一致領域 個別詳細

判定が異なった - 件の個別一覧。上の「全選択肢比較」と合わせてご確認ください。

1 / 1

📝 まとめ なぜ K-means v4.5 は優れているのか

🎯 3つのポイント

  1. 多次元空間での分類: しきい値法は1次元の直線、K-means v4.5は7次元の超平面で分類。「面積率は低いが、輝度パターンや設問内比較からマークと判断できる」という複合的な判断が可能。
  2. コンテキスト情報の活用: normalized_filled は生徒ごとの筆圧差を補正、question_contrast は「この答案のこの設問で、最も濃く塗られたのはどれか」という相対比較を加味。鉛筆のかすれや消し残りの判別に有効。
  3. 適応的な境界: しきい値は人手で固定、K-meansはデータを見て自動決定。スキャナーや用紙の違いに対してロバスト。
観点しきい値法K-means法 v4.5
特徴量の次元1次元7次元
境界の形軸に垂直な直線7次元の超平面(複合条件)
筆圧差への対応なし(固定)シート内正規化あり
消し残り検出面積率のみ中心/辺縁比設問内コントラスト
境界の決め方人手で固定データから自動決定(適応的)
計算コスト低いやや高い(反復最適化)