日常に小ネタをぽとり

知っているとちょっと得する小ネタを配信します

雑学

パターン認識とは?アナログ信号もデジタルに直せば認識可能!

2022/06/25

人間や動物が知覚できる実世界の画像、音、匂いなどの情報はパターンと呼ばれます。
パターン認識は、そのようなパターンの複数の事前定義された概念(クラス)です。
そのうちの1つに対応するプロセスです。

スポンサードリンク


たとえば、人間は目から画像情報を取得し、何を見ているのかを知っています。
また、知っている人なら誰でも自分が誰であるかを知ることができます。耳から音を聞いて、普段は
それがあなたが使用している言語であるならば、あなたはあなたが言っていることを見ることができます。玄関を開けた
すると、匂いがして、今日はカレーだと気づきました。この場合、
「キッチンの匂い」の「パターン」を「カレー」の「クラス」に特定する
です。この種の処理はパターン認識です。
一般的に言って、「パターン認識技術」と言えば、この識別の対象はコンピューターです。
人間は、人間に代わってコンピューターにパターン認識を実行させることで、物事を簡単にしようとします。
それが理由です。

スポンサードリンク

たとえば、昔(1970年頃)は、はがきに書かれた郵便番号を読んでいました。
目的地ごとに別々の棚に配布されました。手書きの数字をパターンとして認識する機械になりました
マシンは郵便番号を読み取り、自動的にソートします(図1.1)。
また、飛行機のチケットや電車のチケットを電話で予約できる音声対話システム。
ステムは実用化されています(図1.2)。録音された音声ガイダンスに従って電話の番号キー
で情報を入力するシステムがあります。ただし、携帯電話では、電話が聞こえます。
一度離れて入る必要があるとき、またはガイダンスが不明確なとき
ガイダンスが終わるまで、あなたがやりたいことに対応していると思う数字を覚えていない
やらなきゃいけないなどの問題があり、使い勝手が悪いです。

1.1パターン認識システムの構成3

あなたはそれを入力することができます。さらに、家電製品の電話サポートでは、製品コードが最初に音声認識されます。
知っていることで担当部署にすばやく割り当てることができるシステムがあります。
この第1章では、パターン認識システムがどのように作成されるかについて説明します。
そして、そこで使われている基本的な方法を説明します。

スポンサードリンク

1.1パターン認識システムの構成

パターン認識を行うプログラムが認識対象(音声、静止画、動画など)です。
とにかく、それは一般的に図1.3に示すモジュール構成によって実現されます。
認識される信号は、コンピュータに接続されたカメラまたはマイクから前処理ユニットに入力されます。
∗ 1「…は1と#、…は2と#、…は3と#、8と#はオペレーターと話したい場合などです。
終了する場合は、9と#を押します。 「私の目的に導かれた私
新規対応かどうかわからない場合は、これだと思う番号を覚えて指導してください。
私は終わりに耳を傾ける必要があります。 「これまでの49と#のすべてのオプションを聞きたい場合は、どうしますか?
「50と#に電話するか、電話するのを忘れたら...」という冗談さえあります。

4第1章パターン認識とは?

カメラやマイクなどの入力デバイスから入力される実際のアナログ信号
サウンドボードまたはキャプチャボードによってコンピュータ内で処理できる数字
Tal信号に変換されます。ここでは、そのようなデジタル化とその後の特徴抽出処理
これは前処理と呼ばれ、促進する処理を含みます。

スポンサードリンク

特徴抽出ユニットは、前処理ユニットとパターの出力であるデジタル化されたデータを入力します。
識別に役立つ情報を抽出します* 2。逆に、これはパターンの識別に役立ちます。
それは、立っていない情報を捨てることを意味します。文字の場合、文字の色とサイズは既知です。
これは無関係な情報です。フレームの中央でも端でも、それは大きいです
あなたがそれを小さいか小さいか、黒か赤で書くかどうか、ああ(これは画像信号です)
パターンは文字「A」(これは記号です)です。声の場合、誰が
話しているかどうかや声の大きさなど、話し声がどの文字に対応しているか
この情報は、かどうかの識別とは何の関係もありません。特徴抽出プロセスでは、このようなパターン
ベクトルの変動の影響を受けず、識別に役立つ情報、通常はベクトル
フォーマットで抽出します。これは特徴ベクトルと呼ばれます。
識別ユニットは、この特徴ベクトルを識別辞書の各クラスのモデルベクトルと比較します。
識別結果を決定します。識別辞書で、「A」に対応するモデルベクトルと「I」のペア
対応するモデルベクトルなどを格納するものと考えてください。通常は特別
症状ベクトルとモデルベクトルの両方が要素として実際の値を持っているので、それらは正確に1つです。
一致するものはあまりありません。いくつかの基準に基づいて、「近い」ものを選択します。この
選択したモデルベクトルが属するクラスが認識結果として出力されます。
各モジュールの役割については、以下でもう少し詳しく説明します。

 

1.2パターン前処理

パターン認識のターゲットは、実際の信号です。音は空気の密な波であり、イメージは二次的です。
これは、最初に広がった光の強度分布です。そのような信号は絶えず変化するので、当然アナ
ログ信号です。一方、コンピュータはデジタル信号を処理できます。フォローしました
パターン認識の最初のプロセスは、アナログ信号をデジタル信号に変換することです。
(図1.4)。

スポンサードリンク

アナログ信号は、コンピューターに接続された入力/出力デバイスを介してキャプチャされます。
音声の場合、マイクを使用して空気の密な波を電気信号に変換します。画像の
その場合、イメージセンサーが感知した光の強度は、カメラを使用して電気信号に変換されます。
オーディオは、キャプチャハードウェア(パーソナルコンピュータの場合はオーディオデバイス)のパフォーマンスです。
上限まで詳細な情報を取得できます。また、画像の場合は、カメラのピクセル数の上限まで
詳細情報を取得できます。当然、アナログ信号は可能な限り忠実にデジタル化されます。
そうすることが望ましいと考えられます。ただし、元の情報を忠実に再現しようとすると
表現にはより多くのデータが必要です。データ量が増えると、その後の特性
症状抽出プロセスの負担が大きくなり、認識速度が遅くなる場合があります。
後者を考慮すると、デジタル化された信号には認識に必要な情報が含まれていません。
この前提で、できるだけ小さくすることが望ましい。
パターンの前処理については、第2章で詳しく説明します。

1.3特徴抽出とは何ですか?

特徴抽出は、入力データからパターン認識に役立つ情報を抽出するプロセスです。
それが理由です。必然的に、このプロセスは入力パターン(画像または音声)です。
分類されるクラスの種類(顔、文字、単語など)によって異なります。

スポンサードリンク

具体的な例は第3章で説明しますので、ここに一般的な考え方を示します。
セクション1.1で説明したように、パターンを識別するための特性は、パターンのバリエーションです。

6第1章パターン認識とは?

情報は影響を受けないはずです。これは、クラスが識別するものです
場合によります。たとえば、音声認識では、あなたが話していることに関連する特徴を持っているのは誰ですか?
話しているかどうかに関係なく、それを取り出さなければなりません。しかし、話してください
人の認識については、その逆が当てはまります。誰が話しているのかという特徴は何ですか?
話しているかどうかに関係なく、それを取り出さなければなりません。同じ声で
ただし、取得する情報は完全に異なります。
また、すべてのクラスを1つの機能で分類することは困難です。
うーん。たとえば、目だけを切り取った情報からは誰なのかわかりにくい。
もの。人間でさえ、髪型、輪郭、肌の色などの複数の特性から人間の顔を区別することができます。
使用しているようです。パターン認識に使用される機能は、一般的に以下に示されています。
これは、特徴ベクトルの形式で表されます。

スポンサードリンク

x =(x1、x2、...、xd)
t(1.1)
これは、d個の特徴∗ 3を表すd次元ベクトルです。このd次元空間は、特徴空間と呼ばれます。
そして、xは特徴ベクトルと呼ばれます。この特徴ベクトルは、特徴空間の1点になります

この特徴ベクトルは、特徴抽出器の出力です。特徴抽出処理の第3章
で詳しく説明します。

 

1.4識別ユニットの役割

パターン認識システムの最終的な識別部分は、パターン認識プロセスの結果が出力される場所です。
非常に責任があります。この本の最初の部分でさえ、説明のほとんどはこの識別部分についてです。
1.4.1識別ユニットの構成
弁別器は、入力特徴ベクトルがどのクラスに属するかを決定します。その後
に使用される情報は識別辞書です。識別辞書に保存されている情報の種類については、
いろいろな方法があります。
最も簡単な方法は、各クラスのモデルとして機能するベクトルを格納することです。
有る。このモデルベクトルは、以降、プロトタイプと呼ばれます。ここで特定
実行したいクラスがc個あると仮定して、それらをそれぞれω1、ω2、...、ωcとして表します。そう
次に、クラスごとに1つのプロトタイプが準備され、それぞれが準備されます。
これらはp1、p2、...、pcです

スポンサードリンク

次に、xを識別したいデータに対応する特徴ベクトルとします。これは特徴抽出セクションです
の出力です。このxがどのクラスで識別されるかを決定する際に、xおよび各クラスのプログラム
宝くじの種類までの距離を測定し、最も近いプロトタイプpiが属するクラスωiを正解として設定します。
これを行うにはいくつかの方法があります(図1.7)。この方法は、最近傍決定ルール(Nearest Neighbor method、
略してNN法と呼ばれます。
この方法については、セクション4.1で詳しく説明します。

8第1章パターン認識とは?

図1.7最近傍決定ルール
1.4.2プロトタイプの決定方法
では、プロトタイプの位置をどのように決定しますか?
一般に、パターン認識は多くのサンプルからプロトタイプの位置を決定します。
この方法が使用されます。
例えば、手書きの数字認識の場合、何人かの人に数字を書いてもらい、それから
特徴ベクトルとそれが属するクラスに関する情報(通常はクラス番号)
これは正しいクラスラベルと呼ばれます)。このデータを使用した識別ユニット
このようなデータは、データをよりスマートにするため、トレーニングデータと呼ばれます。同じクラスに属する
書いた人の癖によって学習データに多少のばらつきがあっても(特徴抽出セクション)
特徴空間の塊である必要があります(特徴を抽出できる場合)

スポンサードリンク

スー。この質量から、各クラスの1つの代表的なプロトタイプ
一つ選びます。

ただし、マスの中央部分を適切に選択する必要があるわけではありません。
番号。
2クラスの識別問題を考えてみましょう。 NN法は、入力特徴ベクトルxを最近傍法として使用します。
プロトタイプの1つが属するクラスに分類されるため、特徴ベクトルxは次のようになります。
どちらの側が線または平面であるかを判断するには* 4プロトタイプから等距離
なる。したがって、プロトタイプの位置を決定することは、各クラスを意味します。
これは、スペース間の境界面を決定する問題と同等です。試作品の位置が悪い
たとえば、図1.8に示すように、間違った境界面(この場合は境界線)が描画される可能性があります。
そうではありません。
∗ 4一般に、d次元では、2点d −1次元超平面間の垂直二等分線です。

1.4識別ユニットの役割9

すべてのトレーニングデータがきちんとクラスに分割されるようにインターフェイスを決定する方法
私はそれをすべきですか?
実際、パターン認識で最も難しいのは、この境界面をどのように決定するかです。
です。境界面は平面ですか、それともスクイーズ非線形曲面ですか?
境界面が最初に決定されるかどうか(クラスが重複しないかどうか)など、さまざまな場合
あなたはそれについて考えなければなりません。トレーニングデータは、この境界面を決定するために使用されます。 1
一般に、トレーニングデータが多いほど、インターフェイスの信頼性は高くなります。いろいろ
たくさんのケースを教えれば、賢くなるのは当然です。しかし、識別します
特徴空間でクラスがどのように分散されているか、およびその分散に関する情報を使用する
自分に合った学習方法を選ばないと、どんなに多くのデータがあってもうまくいきません。
時々。

スポンサードリンク

これまでのパターン認識プロセスの概要を理解しましたか?かなり簡単なようです
だったかもしれません。ただし、ここでは、それが機能する場合にのみ簡略化して説明します。
スー。実際のデータのパターン認識プログラムを実際に作成する場合、
あなたは「それがうまくいかない場合」に出くわすでしょう。過去の偉大な研究者たちはどのようにしてその困難を知りましたか?
次の章で、どうやってそれを乗り越えたかを説明します。楽しみにしています。

-雑学