Orange Data Miningで1分で作って評価する機械学習モデル!初心者でも簡単操作でデータ分析を始めよう!

詳細情報

集会名 データサイエンティスト集会
日時 2023年05月18日 22:00 - 22:30
テーマ Orange Data Miningの紹介 1分で作って評価する機械学習モデル
発表者 ぶんちん
発表資料 リンク

発表のハイライト

  • Orange Data Miningはビジュアルプログラミングで機械学習モデルが簡単に作成・評価できるツールです。
  • Irisデータセットを用いた多クラス分類の機械学習モデルを1分で作成し、AUCやF1スコアなどの評価指標で性能を評価する方法を解説します。
  • GUIで直感的に操作できるため、初心者でも機械学習の基礎を学ぶのに最適です。
  • アルゴリズムの比較やGUIでのデータ抽出など、Orange Data Miningの便利な機能を紹介。

Orange Data Miningとは?

2023年5月18日にVRChatで開催された「データサイエンティスト集会」で、ぶんちんさんが「Orange Data Miningの紹介 1分で作って評価する機械学習モデル」というテーマで発表を行いました。

Orange Data Miningは、Pythonで開発されたオープンソースの機械学習ツールです。ビジュアルプログラミングを採用しており、コードを書かずにマウス操作だけでデータ分析や機械学習モデルの作成、評価を行うことができます。

Anacondaを使っている方なら、Anaconda Navigatorで見たことがあるかもしれませんね!公式HPから無料で入手できるので、企業でも気軽に利用できます。

ぶんちんさんは、普段は複合経営が特徴の企業でデータ分析を担当されています。しかし、同じ作業を繰り返すことに飽きてしまい、より効率的に成果を出す方法を模索した結果、Orange Data Miningに出会い、その使いやすさに感動したそうです。

1分で機械学習モデルを作成・評価

今回は、Orange Data Miningを使って、Irisデータセットを用いた多クラス分類の機械学習モデルを作成し、その性能を評価する手順を1分で行う方法を紹介していただきました。

Irisデータセットは、アヤメの品種を予測するデータセットで、機械学習の入門によく使われます。

ぶんちんさんが行った手順は以下の通りです。

  1. データの読み込み: Irisデータセットを読み込みます。
  2. 目的変数と説明変数の選択: 予測したい目的変数と、予測に使用する説明変数を指定します。
  3. アルゴリズムと評価方法の選択: Random Forestアルゴリズムと、交差検定(5-fold)を用いた評価方法を選択します。
  4. モデルの評価: AUC、F1スコアなどの評価指標でモデルの性能を評価します。

Orange Data Miningの便利な機能

Orange Data Miningには、機械学習モデルの作成・評価以外にも、便利な機能がいくつかあります。

アルゴリズムの比較

複数のアルゴリズムを試して、最も性能の良いものを選ぶことができます。Orange Data Miningでは、ウィジェットを並べるだけで簡単にアルゴリズムの比較ができるので、試行錯誤を繰り返しながら最適なモデルを見つけることができます。

GUIでのデータ抽出

機械学習モデルの評価結果から、特定の条件に合致するデータを簡単に抽出することができます。例えば、混同行列から誤分類されたデータだけを抽出したり、ROC曲線から特定の閾値以上のデータだけを抽出したりすることができます。

まとめ

Orange Data Miningは、ビジュアルプログラミングで誰でも簡単に機械学習モデルを作成・評価できるツールです。GUIで操作できるので、初心者でも機械学習の基礎を学ぶのに最適です。

今回の発表では、Irisデータセットを用いた多クラス分類の機械学習モデルを1分で作成し、評価する手順を紹介していただきました。また、アルゴリズムの比較やGUIでのデータ抽出など、Orange Data Miningの便利な機能も紹介されました。

機械学習を学びたいけど、プログラミングに自信がないという方は、ぜひOrange Data Miningを試してみて下さい!

スライド資料はこちら