特徴量

特徴量とは

データサイエンス機械学習での特徴量とは、分析しようとしているオブジェクトの測定可能なプロパティです。特徴量は、入院患者のデータセットにある「体重」フィールドのような、データセット内の列に相当します。次の例は、不運に見舞われたタイタニック号の処女航海の乗客情報を含むパブリックデータセットの一部です。各列は、分析に使用できる測定可能なデータである氏名、年齢、性別、料金などを表します。これらがデータセットの特徴量です。 特徴量の例 データセットに含める特徴量は、業種と、何の分析を試みるかに応じて大きく異なる場合があります。たとえば銀行の特徴量には、たいてい各顧客の信用格付けが含まれます。病院のデータセットに一般に含まれる特徴量には、患者別およびワクチンのタイプ別のワクチン接種データがあります。特徴量は「変数」または「属性」と呼ばれることもあります。

特徴量が重要である理由

特徴量はデータセットの基本要素です。データセットに含める特徴量の堅牢性が、機械学習ソリューションで得られるインサイトの質に大きく影響します。また、同じ業界の中でも、ビジネス上のさまざまな問題に必要な特徴量は必ずしも同じではありません。予測分析の根本にあるビジネス目標をよく理解することが非常に重要なのはそのためです。特徴量の選択特徴量エンジニアリングなどのプロセスによってデータセットの特徴量の品質を改善できますが、これらのプロセスは非常に困難で退屈なことが知られています。しかし、これらを適切に実行すれば、予測データ分析に影響する可能性がある重要な特徴量をすべて含む最適なデータセットになり、可能な限り最善の予測が得られます。

特徴量 + DataRobot

特徴量に関する作業は、従来のデータサイエンスで最も時間のかかる部分の 1 つです。DataRobot を使用すれば、特徴量を容易に理解できるようになります。データセット内の各特徴量のデータ型(カテゴリ、数値、日付、パーセンテージなど)が自動的に検出され、統計分析(平均、中央値、標準偏差など)が行われます。また、各特徴量のヒストグラム、頻出値チャート、出現回数表が自動的に生成されます。変数の型を変更することもできます。そのため、データをすばやく理解でき、予測分析の基礎を築くことができます。

特徴量の例 2

それだけでなく、DataRobot では特徴量の選択と特徴量エンジニアリングが自動的に実行され、データセットごとにさまざまな組み合わせがテストされて、生成される予測の精度が確保され、最も関連性の高いデータのみが含まれるようになります。そのため、従来のデータサイエンス手法の単調な作業をほんの少し行うだけで、非常に高精度な予測モデルを生成できます。