データ収集

データ収集とは

実際のところ、文字どおりのものです。データ収集は、無数の異なるソースから情報を収集して測定するプロセスです。現代社会では、かつてない速度でデータが生成されています(これについて詳しくは、「ビッグデータ」をご覧ください)。これらのデータは、数値(温度、融資額、顧客維持率など)やカテゴリ(性別、色、取得した最高学位など)の場合があり、フリーテキスト(医師のメモや世論調査など)の場合さえあります。いずれの場合も、データを使用して実用的な人工知能(AI)ソリューションや機械学習ソリューションを開発するには、解決したいビジネス上の問題に対して有意義な方法でデータを収集し、保存する必要があります。

データ収集が重要である理由

データを貯め込むのは、それ自体が目的ではありません。データを収集することで、過去のイベントのレコードを取得できるため、データ分析を使用して反復パターンを検出できるようになります。トレンドを探して将来の変化を予測する機械学習アルゴリズムを使用して、それらのパターンから予測モデルを構築できます。予測モデルの精度は構築に使用されたデータの質によって決まるため、高パフォーマンスのモデルを開発するには優れたデータ収集慣行が非常に重要です。データにエラーがなく(ガベージイン、ガベージアウト)、当該タスクに適した情報が含まれている必要があります。たとえば、債務不履行モデルではトラの個体数データは役に立たないでしょうが、ガソリン価格の経時データは有用な可能性があります。

データ収集 + DataRobot

DataRobot は、データの収集、保存、変換と予測モデリングに使用するための準備を支援する複数の企業と提携しています。ビジネス上の特定の問題に適したデータを収集して準備した後、その保存場所にかかわらず、DataRobot の自動機械学習プラットフォームに容易にインポートできます。その後、DataRobot によって新しい特徴量が作成され、数百の機械学習モデルが構築されて評価されます。これらは即座に本稼動にデプロイできます。