続いて行うのは、
予測に使うデータの準備です。
Prediction APIは、さまざまなデータ予測に使えますが、サンプルとして「
言語の予測」のデータを利用してみることにしましょう。
まず、以下のアドレスにアクセスしてください。ずらっとテキストが表示されます。これがサンプルデータです。
https://developers.google.com/prediction/docs/language_id.txtこれをそのまま「
language_id.txt」という名前で保存しておきましょう。これでデータの準備はOKです。ダウンロードしたテキストファイルを見てみると、こんな具合にテキストが書かれているのが分かります。
"English", "This version of the simple……略……"
"French", "M. de Troisvilles, comme ……略……"
……以下略……
最初に
"English"とか
"French"といった言語名があり、その後にコンマで区切ってその言語のテキストが用意されています。データの形式で想像がついたかも知れませんが、これは一般的な
CSVのデータ形式ですね。
このように、
Predictionでは、1つ目に
ラベル(そのデータがどういうものかを示す名前)、2つ目にその
ラベル用のデータ、という形でデータを蓄積していきます。こうして蓄積されたデータをもとにして、あるデータ(テキスト)から、そのテキストのラベルを類推するのです。つまりこのデータでいえば、テキストを渡すと、そのテキストがどの言語かを予測するわけですね。
■Google Cloud Storageにデータをアップロードする
では、用意したデータファイルをアップロードしましょう。アップロード先には、
Google Cloud Storageを利用します。まずは、
Google Cloud Storage Managerを開いてください。
https://storage.cloud.google.com/
Cloud Storageでは、「
バケット(Bucket)」と呼ばれる、ファイルの配置場所を用意して、その中にファイルを保管します。「
New Bucket」というボタンをクリックし、「
my_sample_data」というバケットを作成しましょう。
作成した
my_sample_dataを選択してその中を開き、「
Upload」ボタンを押して、先ほどの
language_id.txtをアップロードしてください。これでデータファイルの準備は完了です。