パターンマッチングをしてみよう　v1.0.5

○ パターンマッチングをしてみよう

注意→聞いた事を勝手に考えた理屈の上に作成しています、一般的に正しくない事が多いと思われます(とりあえず動けばヨシの精神です)
パターンマッチングとは特定のパターンにマッチするデータを探し出す処理です。
いわゆる機械学習とかディープラーニングとか言うものを作成してみます。

■ ニューロンモデル
生物のニューロンを模したモデルです。

入力一つ一つに重みが付けられており、入力に対して掛け算が行われます。
入力の合計が閾値を超えたら出力→発火(ON)します。

しかし、このモデルの場合には出力がONもしくはOFFであり、中間の値が無いため重みや閾値の調整ができません。
(重みや閾値をちょっと増やした結果が正しいのか間違っているのかわからない)
そこで、合計を閾値から引いた値(本来は発火を起こす値)をシグモイド関数に入れて1～0のなめらかな出力をするようにします(どのような値を入れても1～0の範囲になります)

このシグモイド関数の数式をエクセルの数式に置き換えると、= 1 / ( 1 + EXP( -x ) ) になります、シグモイド関数のグラフを作成してみました。

この数式をニューロンの出力に当てはめるとエクセルの数式では、= 1 / ( 1 + EXP( -( 入力 × 重み ) + 閾値)) となり、これをシグモイドニューロンと呼ぶらしいです。

このニューロンを複数配置し、答えに向けて収束させるようにしたのが次のようなニューラルネットワークです。

■ ニューラルネットワークの学習方法
答えがわかっているテストデータをたくさん用意して、それを使用して学習する教師あり学習をしたいと思います。
最適化とも言うのですが、どのように最適化していいのかよくわからないのでコンピュータのチカラワザで解決したいと思います。

まず、そのために必要なのが出力された結果がどれだけ答えからズレているのかが数値としてわかる必要がありますので、
そこで使用するのが、(データと平均値の差の2乗の合計の値)　平方和によりズレの統計量を計ります。
(出力 - 答え)^2 = ズレの量 (^2は2乗を意味します)

出力に対して答え0の場合にはズレが少なくなるほど0に近づきます

出力に対して答え1の場合でもズレが少なくなるほど0に近づきます

エクセルの関数だと、= SUMXMY2( 出力範囲 , 答え範囲 )　にて指定範囲のズレの合計(平方和)が計算できます。

▼ ニューラルネットワークの学習
結果が答えに対するズレの量が判断できるようになりました。
これで、沢山の学習データと答えのセットを使ってチカラワザで学習をさせる事ができます。

まず初期値として、全ての重みと閾値にランダムな数値を当てはめます。

(1) 一つ目の学習データを読み込ませて答えとのズレを求め、それを繰り返し、複数の学習データのズレの合計を計算します。
(2) 重みと閾値の値の一つを選択しわずかな数を足します。
(3) 再び、複数の学習データを読み込ませズレの合計を計算します。
(4) ズレの合計が目標とする値以下になったら終了します。
(5) ズレの合計が前回より悪くなったら、選択した値からわずかな数を引き算します。

(1)から(5)をひたすらに繰り返す事により、チカラワザでズレを目標値まで収束させることができます(初期値により収束しない事があります)
最適化が行き詰まる時は順番をランダムにして学習させます(なんかよくわからんがうまく動いたコレが回帰分析らしい)

▼ ここまでで思った事
ちょっと重みや閾値を変更するだけで、テストデータに対して結果が良くなったか悪くなったかがわかるようにするために、シグモイド関数や平方和を利用しています。
全ては最適化が行えるようにするための工夫のようです。
複雑な状態を受け入れられて最適化で答えに導けるのならニューロンモデルでなくても動作するという事じゃないでしょうか？

■ 学習後のテスト
ズレを目標値まで収束したら、学習完了です。
色々なデータを入れて学習されたニューラルネットワークがちゃんと動作するか確認します。

● 縦線、横線を判断するニューラルネットワーク
単純化するために5×5のマトリックス表内での縦線、横線を判断できるようにします。

5×5の信号を3個のニューロン(1、2、3)に渡し、その出力を2個のニューロン(4、5)で受け取り、その出力の比率で縦線、横線を判断します。
ニューロンおよび学習データをエクセルで作成し、VBAで学習し、テストも出来るようにしました。

エクセルファイル ptmatch_5_5h.xls

▼ エクセルシートを開くとこのような構成になっています。

▼ 学習データおよび、学習データ毎の計算がこの場所に配置されています。

▼ 5個のニューラルネットワークがこの場所に配置されています。

▼ 学習開始ボタンです。

最初から学習済みですが、再度学習をさせるにはボタンを押してVBAのマクロを走らせます。
マクロ内では、各ニューロンの重みと閾値を初期化の為にランダムな値を入れてから学習を開始します(パソコンの性能により時間がかかるかもしれません)
しばらくしても(7世代Corei5で1～2分程度で)学習が終わらない場合にはESCキーを2回押してVBAを止めて再挑戦する必要があります(そのままでは永遠に終わりません)
マクロはインターネットからダウンロードしたファイルそのままではセキュリティの問題で実行が出来ないようですが開発 → Visual Basic Editor を開くとコードを見る事は出来るようです。

▼ 学習後のテスト個所です、マトリックス表に1を入れたり消したりすると学習結果を元にリアルタイムに計算されて結果が出力されます。

縦線らしい配置や横線らしい配置を入力するとニューラルネットワークが判断してそれらしい答えが出力されます。
この結果は初期値のランダムな重み閾値や学習により、かしこい判断が出来る時もありますしダメな時もあります。
それなりに動作するのを確認できるはずです。

■ MNIST(エムニスト)データを読み込む
機械学習の画像認識の分野で広く使われる、手書き数字の画像データセットをプログラムから読み込んで見たいと思います。
まずは、データのダウンロード
train-images-idx3-ubyte.gz 学習用画像データ
train-labels-idx1-ubyte.gz 学習用正解ラベル
t10k-images-idx3-ubyte.gz テスト用画像データ
t10k-labels-idx1-ubyte.gz テスト用正解ラベル

4つのファイルをダウンロードして解凍(Linuxなら gzip -d *.gz )します。

学習画像データのファイルは先頭16バイトはヘッダーになっています。
ヘッダーの後に1byte(0 白～ 255 黒)が1ピクセルとして28×28形式のデータが連続しています。
学習正解ラベルのファイルは先頭8バイトはヘッダーになっています。
ヘッダーの後に1byteの正解の値が連続しています。

以上の事柄を踏まえてC言語でデータを読み出すプログラムを作成しました。

#include <stdio.h>

int main(){
	FILE * fp,* fp_label;
	int i;
	unsigned char buff;

	if((fp=fopen("../train-images-idx3-ubyte","rb"))==NULL
		|| (fp_label=fopen("../train-labels-idx1-ubyte","rb"))==NULL){
		//エラー処理
		printf("error\n");
	}else{
		for(i=0;i<16;i++){//ヘッダーを読み飛ばす
			fread(&buff,1,1,fp);
		}
		for(i=0;i<8;i++){//ヘッダーを読み飛ばす
			fread(&buff,1,1,fp_label);
		}
		while(!feof(fp)){
			fread(&buff,1,1,fp_label);
			printf("---------------------------- %d\n",buff);
			for(int x=0;x<28;x++){
				for(int y=0;y<28;y++){
					fread(&buff,1,1,fp);
					if(buff){
						printf("#");
					}else{
						printf(" ");
					}
				}
				printf("\n");
			}
			getchar();

		}
	    fclose(fp);
	}
	return 0;
}

上記プログラムを走らせると、学習に必要な画像と正解が表示されます。

● 畳み込みネットワーク
マトリックス表が大きくなっても、大きなニューラルネットワークを用意すれば理屈の上ではうまいこと動作するはずです。
しかし、データー量が物凄く増えて最適化の処理に時間がかかり現実的でありません。
そこで、データー量が少なくなるように工夫を凝らしたのが畳み込みネットワークのようです。

■ 畳み込み層
しかし、こんな画像の全体を見てもどうやって判定するのか考えられません。
そこで細かく刻んで特徴と位置を抽出し判定します。

一つの全体より小さなニューラルネットワークをXY軸1ピクセル毎に一つ一つずらして特徴と位置を抽出します。
この一つのニューラルネットワークは一つの特徴と位置を検出できるようになります→これをフィルタと呼ぶらしい。

▼ 複数の特徴と位置を検出

フィルタを複数用意して学習させます。
そうすると、特徴と位置が異なったフィルタが作成され、複数の特徴と位置が認識できるようになります。
このフィルタの集まりをチャネルと呼ぶそうです。

■ プーリング層
フィルタ毎に特徴と位置が判定できるようになりましたが、実際にその位置にあるとは限りません。
そこで、フィルタのある範囲の重みの最大値を取り(最大プーリング)まとめます。

これにより多少ズレた位置に特徴が現れても判定できるようになります。

■ 出力層
プーリング層を考えられる特徴の数ぐらい作成し、必要な答えの数のニューロンに接続して、出力値の一番高いニューロンにより答えを導き出します。

● 縦線、横線を判断する畳み込みネットワーク
単純化するために10×10のマトリックス表内での縦線、横線を判断できるようにしました。
エクセルシートの構造は上で作成したニューラルネットワークの時とほぼ同じです。

エクセルファイル ptmatch_10_10h.xls
学習完了済みですが、学習には思ったより時間がかかります(10分ぐらい)、収束しない場合には無限ループになってますので学習をもう一度やり直す必要があります。

● C++言語で作成する
Excel ＋ VBAだと理解しやすいのですが、遅いのでC言語で作成したいと思います。
▼EXP関数
まずは、Excelの関数であるEXPをC言語で実現します。
C言語でも exp(double) であり、Excelと同じような結果が出ます（桁の下のほうが違う)

#include <stdio.h>
#include <math.h>

int main(){
	for(double i=-10;i<=10;i++){
		printf("%.10f\n",exp(i));
	}
	return 0;
}

Excelの EXP関数の実行結果とC言語の exp(double) の実行結果を比較してもほぼ同様の結果が出ます。

▼MAX関数
ExcelのMAX関数は指定範囲の中から最大値を返します。
似たような物を作成するのですが、普通に作っては面白くないのでマクロで作成しました。

#include <stdio.h>

#define MAX(a, b) ((a) > (b) ? (a) : (b))
#define MAX2(a, b) MAX(a, b)
#define MAX3(a, b, c) MAX2(MAX2(a, b), c)
#define MAX4(a, b, c, d) MAX2(MAX3(a, b, c), d)
#define MAX5(a, b, c, d, e) MAX2(MAX4(a, b, c, d), e)
#define MAX6(a, b, c, d, e, f) MAX2(MAX5(a, b, c, d, e), f)
#define MAX7(a, b, c, d, e, f, g) MAX2(MAX6(a, b, c, d, e, f), g)
#define MAX8(a, b, c, d, e, f, g, h) MAX2(MAX7(a, b, c, d, e, f, g), h)
#define MAX9(a, b, c, d, e, f, g, h, i) MAX2(MAX8(a, b, c, d, e, f, g, h), i)

int main(){
	printf("%d\n",MAX9(10, 2, 3, 4, 5, 6, 7, 8, 9));
	printf("%d\n",MAX9( 9,10, 2, 3, 4, 5, 6, 7, 8));
	printf("%d\n",MAX9( 8, 9,10, 2, 3, 4, 5, 6, 7));
	printf("%d\n",MAX9( 7, 8, 9,10, 2, 3, 4, 5, 6));
	printf("%d\n",MAX9( 6, 7, 8, 9,10, 2, 3, 4, 5));
	printf("%d\n",MAX9( 5, 6, 7, 8, 9,10, 2, 3, 4));
	printf("%d\n",MAX9( 4, 5, 6, 7, 8, 9,10, 2, 3));
	printf("%d\n",MAX9( 3, 4, 5, 6, 7, 8, 9,10, 2));
	printf("%d\n",MAX9( 2, 3, 4, 5, 6, 7, 8, 9,10));
	return 0;
}

2個から9個までの引数を指定してその中の最大値を返すマクロです。
実行結果は総て最大値の10になります。

▽ マクロが展開された結果を見る
なんだかこのマクロ、展開後が凄そうですので実際に見る事にします。
gcc だと、$ gcc -save-temps test.c でコンパイルして作成されたtempファイルの一つ、拡張子が .i のファイルを開くと展開後のマクロが見れます。
ちなみに、 .s のファイルはアセンブラを見ることができます。

この1行が展開されると、
printf("%d\n",MAX5(0, 2, 3, 4, 5));

このように凄い事になります。
printf("%d\n",((((((((0) > (2) ? (0) : (2))) > (3) ? (((0) > (2) ? (0) : (2))) : (3))) > (4) ? (((((0) > (2) ? (0) : (2))) > (3) ? (((0) > (2) ? (0) : (2))) : (3))) : (4))) > (5) ? (((((((0) > (2) ? (0) : (2))) > (3) ? (((0) > (2) ? (0) : (2))) : (3))) > (4) ? (((((0) > (2) ? (0) : (2))) > (3) ? (((0) > (2) ? (0) : (2))) : (3))) : (4))) : (5)));
ちなみに MAX9 は展開後が凄すぎて載せるのをあきらめました。

▼ SUMXMY2関数 (配列要素の差の平方和の合計を返す関数)

要素ごとに引き算して2乗、その合計を出す関数です。
C言語で同様の関数を作成すると次のようになります。

#include <stdio.h>

double SUMXMY2(int index, double*a, double*b) {
  double ans = 0;
  for (int i = 0; i < index; i++) {
    ans += (a[i] - b[i]) * (a[i] - b[i]);
  }
  return ans;
}

int main() {
  double a[10];
  double b[10];
  a[0] = 0.1;
  a[1] = 0.2;
  a[2] = 0.3;
  b[0] = 0.4;
  b[1] = 0.5;
  b[2] = 0.6;
  printf("%.10f\n", SUMXMY2(3, a, b));
  return 0;
}

▼ SUMPRODUCT関数 (掛け算の合計をする関数)

要素ごとに掛け算して合計を出す関数です、C言語で書き直すとこのようになります。

#include <stdio.h>

double SUMPRODUCT(int index, double*a, double*b) {
  double ans = 0;
  for (int i = 0; i < index; i++) {
    ans += (a[i] * b[i]);
  }
  return ans;
}

int main() {
  double a[10];
  double b[10];
  a[0] = 1;
  a[1] = 2;
  a[2] = 3;
  b[0] = 10;
  b[1] = 10;
  b[2] = 10;
  printf("%.10f\n", SUMPRODUCT(3, a, b));
  return 0;
}

▼ RAND関数 (0以上1未満の小数の乱数を生成する)
多用しているVBAだとRnd関数でしょうか、同様の動作をするようです。
▽ Randomize (乱数の種の設定)
乱数生成の種をユニークな値で設定します、もし設定しないと毎度同じ値が生成される事になります。
VBAでは、Randomizeを呼ぶ事によりシステムタイマーに基づくシード値で乱数ジェネレーターを初期化するそうです。

▽ 特定の値の範囲の乱数を生成する
VBA の Rnd は0以上～1未満の範囲の少数値の乱数を発生させる仕様のようです。

★ 範囲1～5の整数の乱数を発生させる
Rnd は 0<1 の値の範囲のため出力に5を掛けると0以上5以下 0<x<5 の範囲の少数値が出力されます。
(0以上であるため決して0になる事は無いですし、5以下であるため決して5になる事は無いはずです)
Int関数で値の小数点以下を切り捨てる事により整数値が取得できます。

Int(Rnd * 5)    0から4の値の整数値を生成する

この結果に1を足すことにより、1～5の整数値を生成できるようになる。

Int(Rnd * 5) + 1    範囲 1 から 5 の値の整数値を生成する

★ 範囲 4 5 6 7 8 の整数を発生させる
Int(Rnd * 5) + 1 の式にオフセットを追加すれば望む結果になると考えられます。

Int(Rnd * 5) + 4    範囲 4 5 6 7 8 の整数を発生させる

つまり、  Int(Rnd * 発生する乱数の個数) + オフセット   となります。

▽ C言語で乱数を生成する
C言語では rand() を呼ぶと、0からRAND_MAX までの値 (0 <= x <= RAND_MAX) を出力します。
このため、乱数は 0 と RAND_MAX を含みます。

★ システムタイマーに基づくシード値で乱数ジェネレーターの初期化

#include <stdio.h>
#include <stdlib.h>
#include <time.h>

int main() {
	srand((unsigned int)time(NULL)); //システム タイマーに基づくシード値で乱数ジェネレーターを初期化
	printf("%d\n",RAND_MAX);
	printf("%d\n",rand());
	return 0;
}

srandにて時間を指定して乱数を初期化しています。

★ 0<1 の値の範囲を出力する
出力の値の範囲を 0～32767 までとし、0.1 と 1をそれぞれ足して値の下限と上限を計算してみます。

32767.1 / 32768 = 0.999972
    0.1 / 32768 = 0.000003

これなら 0<1 に収まりそうです。
1と0を含めても良い条件なら、 (double)rand() / RAND_MAX の方が簡単です。
ただ、0を割り算する可能性があります。

★ 範囲 4 5 6 7 8 の整数を発生させる
rand() % 発生する乱数の個数 + オフセット
この式により特定の範囲の整数値を生成することができます。

#include <stdio.h>
#include <stdlib.h>
#include <time.h>

int main() {
  srand((unsigned int)time(NULL));
  for (int i = 0; i < 100; i++) {
    printf("%d ", rand() % 5 + 4);
  }
  return 0;
}

▼ ファイル読み書き
浮動小数点型を変換してファイルに書き込むと、実際のメモリの中身と異なってしまいます。

#include <stdio.h>
#include <math.h>

int main() {
  FILE *fp;
  double value;
  value = exp(10);

  //ファイル書き込み
  fp = fopen("test.txt", "w");
  if (fp == NULL) {
    printf("ファイルをオープンできませんでした。\n");
    return 1;
  }
  fprintf(fp, "%lf\n", value);
  printf("書き込んだ値: %.10f\n", value);
  fclose(fp);

  //ファイル読み込み
  fp = fopen("test.txt", "r");
  if (fp == NULL) {
    printf("ファイルをオープンできませんでした。\n");
    return 1;
  }
  if (fscanf(fp, "%lf", &value) == 1) {
    printf("読み込んだ値: %.10f\n", value);
  } else {
    printf("値を読み込めませんでした。\n");
  }
  fclose(fp);
  return 0;
}

ファイルに浮動小数点数を書き込んで読み込んで表示しています。
ちょっと悪意のあるコードですが、見てわかる形に変換した浮動小数点数はメモリの中身とは違うものです。

作成中

▲トップページ