// step3 CLAFICで手書き数字認識

r=30; // 使用する直交基底の数 最大100

if exists('W')==0 // すでに計算済みか？

// 訓練データと未知データの読み込み
// D：次元数×訓練データ数の行列, trai_label  ：訓練データのラベル
// Q：次元数×テストデータ数の行列, test_label：未知データのラベル
D=fscanfMat('./USPS/trai_data.txt');, trai_label=fscanfMat('./USPS/trai_label.txt');
Q=fscanfMat('./USPS/test_data.txt');, test_label=fscanfMat('./USPS/test_label.txt');

// Dim：次元数，xx_num：データ数
[Dim,trai_num]=size(D);,[Dim,test_num]=size(Q);

// 各パターンのノルムを1に正規化
for i = 1 : trai_num, D(:,i)=D(:,i)./norm(D(:,i));, end
for i = 1 : test_num, Q(:,i)=Q(:,i)./norm(Q(:,i));, end

// 各クラスで部分空間を求める
W=zeros(Dim,100,10); // 各クラスの直交基底 次元数×基底数×クラス数
for j = 0 : 9
  X=D(:,find(trai_label==j)); // ラベルがjの訓練パターンをXに格納
  C=X*X';                     // 自己相関行列を計算
  [eig_vec, eig_val]=spec(C);  // 固有ベクトル，固有値を計算
  [value index]=sort(diag(eig_val)); // 固有値を降順に並べ替え
  W(:,:,j+1)=eig_vec(:,index(1:100)); // 固有値の大きい上位100本に対応する固有ベクトルをWに格納
  printf('class %d ... OK\n',j);  
end

end // if exists('W')==0

// CLAFICによる分類
S=zeros(10,1);
CONF=zeros(10,10);
tic();
for i = 1 : test_num
  for j = 0 : 9, S(j+1)=sum((W(:,1:r,j+1)'*Q(:,i)).^2);, end
  [value index]=max(S);
  CONF(test_label(i)+1,index)=CONF(test_label(i)+1,index)+1;
  printf('test data %d\n',i);
end
printf('computation time: %3.5f seconds.\n',toc());
accuracy=(sum(diag(CONF))./test_num).*100;
printf('accuracy=%3.2f\n',accuracy);