ディープラーニング

ディープラーニングとは

「ディープラーニング」は、よくあるように大げさな宣伝文句とあいまいな定義の間に位置する用語ですので、率直に言います。ディープラーニングの基本的な考え方は、ツールキットに含めるべきもう 1 つの機械学習アルゴリズムというだけのことです。このツールキットというのは、ニューラルネットワークアルゴリズムの複数のレイヤーで構成される教師あり学習モデルです。出発点として、構造(表形式データ)を持つ従来のモデルを思い浮かべてください。変数、つまり特徴量のリストから始めて、ターゲットの特徴量の予測を試みます。たとえば、広告の顧客転換率を予測しようとするマーケティング担当者は、デモグラフィック、サイコグラフィック、および購買行動の変数を含むデータセットを使用する可能性があり、その場合は特徴量の数が 50 から数百の間になります。データの専門家は、特徴量エンジニアリング特徴量の選択などのテクニックによって、予測ターゲットに関して入力する特徴量を最適化してモデルのパフォーマンスを向上させるための作業を行います。ただし、画像などの非構造化データの場合は、入手できる情報の量が膨大なため、このプロセスが煩雑になります。800 × 1000 ピクセル(3D)の画像 1 枚が、2,400,000 もの特徴量に相当します。機械学習モデルに一般に存在する数百の特徴量と比較すると、こちらの方がはるかに複雑で測定が困難であることは明らかです。ディープラーニングは、アルゴリズムの適用時に特徴量を学習することで情報の本質を捉え、管理しやすいレベルまで情報を削減する多層型のニューラルネットワークアルゴリズムによって、大量の情報を処理する能力を提供します。これは少し魔法のように聞こえるかもしれませんし、率直に言ってコンピュータサイエンティストはディープラーニングの仕組みを完全に説明することにまだ苦労しています。しかしとりあえず、ディープラーニングが画像やサウンドや声などの非構造化データに有効であることは明らかです。

ディープラーニングが重要である理由

ビッグデータの時代には、大量の情報を効果的に処理できるディープラーニングのようなテクニックの重要性が高まる一方です。ディープラーニングに関しては、現代のコンピューティングインフラストラクチャはグラフィックプロセッシングユニット(GPU)の活用によって桁違いに向上しています。大手 GPU メーカーの NVIDIA 社の株価を一目見れば、ディープラーニングが現代の経済に大きな影響を与えていることは明らかです。また、コンピュータサイエンティストはアルゴリズムをよりすばやくコーディングする方法を発見しました。そのため、入手できる量のデータからより的確に学習できるようになっています。本質的に、経済情勢と技術的状況の組み合わせにより、ディープラーニングが盛んになる最高の条件が整っています。とはいえ、落とし穴もあります。特徴量を学習するディープラーニングの能力は、モデルを構築するための膨大なデータの存在に依存するのです。その結果、企業で一般に発生する顧客離れや詐欺などの問題に関しては、ディープラーニングモデルはブースティング決定木や線形モデルなどのほかのテクニックに比べてパフォーマンスが劣ります。

ディープラーニング + DataRobot

DataRobot の自動機械学習プラットフォームは、TensorFlow などのテクノロジが組み込まれているため、ディープラーニングとニューラルネットワークをある程度サポートしています。ただし、ディープラーニングを現実世界での最も一般的なビジネス上の問題に実践的に応用することには限度があるため、DataRobot は、数百万台の企業コンピュータにあり、データベース、Excel ファイルや Tableau ダッシュボードに閉じ込められている表形式の構造化データおよび半構造化データ(クレジットカードの取引明細書の自由形式テキストなど)での機械学習に重点を置いています。DataRobot の経験では、ビジネス上の最大の価値はこのタイプの構造化データと半構造化データの中で見つかるからです。これらのデータを重視することで、企業は「ディープラーニング」のようなバズワードに惑わされることなく、最新の機械学習テクノロジでビジネス上の本流の問題を解決できるようになります。また、DataRobot のベンチマークによると、ディープラーニングは必ずしも最善のソリューションではありません。企業は機械学習のイニシアチブから最大の価値を引き出すために、自社のデータでさまざまなアルゴリズムをテストすることをお勧めします。