テキストマイニング

テキストマイニングとは

テキストマイニングには、未加工のテキストから有益なインサイトを引き出すことができるさまざまな機械学習アルゴリズムが含まれます。データセット内にメモ(医師/患者の診療内容など)または説明形式の非構造化情報がある場合に非常に便利です。従来、予測モデルを構築する場合、データサイエンティストは数値およびカテゴリデータを特徴量として使用していました。要求されるローン金額(ドル単位)、借り手の雇用種別(1 つの単語または 2 つの頭文字)などです。ローンの目的に関する情報を活用できると、モデルの予測精度は大幅に向上します。そこでテキストマイニングの出番です。テキストマイニングにより、未加工のテキスト内のどの単語または語句がどの結果と関連付けられているかを識別でき、解決しようとしているビジネス問題に関してより多くのインサイトが提供されます。一般的なテキストマイニングアルゴリズムには次のものがあります。

  1. 感情分析特定のトピックまたはイベントに対して書き手がどのように感じ、反応するかを判断します。新製品への消費者の反応を評価するためにマーケティングでよく使用されます。
  2. 固有表現抽出固有の人名、組織名、地名、日付を検索して分類します。たとえば、「DataRobot acquired Nutonian, another Boston-based company, in 2017」という文では、アルゴリズムは DataRobotNutonian を組織、Boston を地名、2017 を日付として認識します。
  3. トピックモデリング。未加工のテキストドキュメントのコレクションから隠れたセマンティック構造を見つけ出します。トピックの普及率を測定し、どの用語が各ドキュメントで最も代表的かを記述できます。
  4. 要約/キーフレーズ抽出。大規模なドキュメントを文または用語のセットへと抽出して、重要な情報を失うことなく要約します。

テキストマイニングが重要である理由

テキスト、画像、オーディオ、ビデオなど、データの大半は非構造化です。テキストデータはどのビジネスにも存在します。クレーム調査担当者のレポート、診療メモ、ソーシャルネットワークのコメント、ソフトウェアのログなどには、特定の将来のイベントを予測するための重要な情報が含まれています。テキストマイニングによって、このデータを最大限に活用でき、より適切な予測を行う実用的なモデルが構築されます。

テキストマイニング + DataRobot

DataRobot の自動機械学習プラットフォームのモデルの大半は、テキストデータをサポートしています。テキスト内の単語または文字の特定の組み合わせがターゲット変数の予測に役立つ場合、DataRobot は、パターンを自動的に取得し、生成する他のインサイトと共に表示します。DataRobot は多言語に対応: テキストデータの自動言語識別を使用し、検出された言語に基づいてさまざまなテキストマイニングアルゴリズムをサポートします。従来の方法でフリーテキストデータを特徴量エンジニアリングするプロセスは複雑で難しいことで有名で、多くの場合、データサイエンティストは手動で行うことを避けてきました。DataRobot は、データにとって最適なテキストマイニングアルゴリズムを自動的に見つけ、チューニングし、解釈できます。時間が節約され、悩みの種から解放されます。