Orange Data Miningで1分で作って評価する機械学習モデル!初心者でも簡単操作でデータ分析を始めよう!

詳細情報

日時 2023年05月18日 22:00 - 22:30
テーマ Orange Data Miningの紹介 1分で作って評価する機械学習モデル
発表者 ぶんちん
集会名 データサイエンティスト集会
発表資料 リンク

発表のハイライト

  • Orange Data Miningはビジュアルプログラミングで機械学習モデルが簡単に作成・評価できるツールです。
  • Irisデータセットを用いた多クラス分類の機械学習モデルを1分で作成し、AUCやF1スコアなどの評価指標で性能を評価する方法を解説します。
  • GUIで直感的に操作できるため、初心者でも機械学習の基礎を学ぶのに最適です。
  • アルゴリズムの比較やGUIでのデータ抽出など、Orange Data Miningの便利な機能を紹介。

Orange Data Miningとは?

2023年5月18日にVRChatで開催された「データサイエンティスト集会」で、ぶんちんさんが「Orange Data Miningの紹介 1分で作って評価する機械学習モデル」というテーマで発表を行いました。

Orange Data Miningは、Pythonで開発されたオープンソースの機械学習ツールです。ビジュアルプログラミングを採用しており、コードを書かずにマウス操作だけでデータ分析や機械学習モデルの作成、評価を行うことができます。

Anacondaを使っている方なら、Anaconda Navigatorで見たことがあるかもしれませんね!公式HPから無料で入手できるので、企業でも気軽に利用できます。

ぶんちんさんは、普段は複合経営が特徴の企業でデータ分析を担当されています。しかし、同じ作業を繰り返すことに飽きてしまい、より効率的に成果を出す方法を模索した結果、Orange Data Miningに出会い、その使いやすさに感動したそうです。

1分で機械学習モデルを作成・評価

今回は、Orange Data Miningを使って、Irisデータセットを用いた多クラス分類の機械学習モデルを作成し、その性能を評価する手順を1分で行う方法を紹介していただきました。

Irisデータセットは、アヤメの品種を予測するデータセットで、機械学習の入門によく使われます。

ぶんちんさんが行った手順は以下の通りです。

  1. データの読み込み: Irisデータセットを読み込みます。
  2. 目的変数と説明変数の選択: 予測したい目的変数と、予測に使用する説明変数を指定します。
  3. アルゴリズムと評価方法の選択: Random Forestアルゴリズムと、交差検定(5-fold)を用いた評価方法を選択します。
  4. モデルの評価: AUC、F1スコアなどの評価指標でモデルの性能を評価します。

Orange Data Miningの便利な機能

Orange Data Miningには、機械学習モデルの作成・評価以外にも、便利な機能がいくつかあります。

アルゴリズムの比較

複数のアルゴリズムを試して、最も性能の良いものを選ぶことができます。Orange Data Miningでは、ウィジェットを並べるだけで簡単にアルゴリズムの比較ができるので、試行錯誤を繰り返しながら最適なモデルを見つけることができます。

GUIでのデータ抽出

機械学習モデルの評価結果から、特定の条件に合致するデータを簡単に抽出することができます。例えば、混同行列から誤分類されたデータだけを抽出したり、ROC曲線から特定の閾値以上のデータだけを抽出したりすることができます。

まとめ

Orange Data Miningは、ビジュアルプログラミングで誰でも簡単に機械学習モデルを作成・評価できるツールです。GUIで操作できるので、初心者でも機械学習の基礎を学ぶのに最適です。

今回の発表では、Irisデータセットを用いた多クラス分類の機械学習モデルを1分で作成し、評価する手順を紹介していただきました。また、アルゴリズムの比較やGUIでのデータ抽出など、Orange Data Miningの便利な機能も紹介されました。

機械学習を学びたいけど、プログラミングに自信がないという方は、ぜひOrange Data Miningを試してみて下さい!

データサイエンティスト集会の他の発表もチェック!

```markdown

統計知識と実務のギャップ:データサイエンスの成果を具体的なアクションにつなげる方法

製造業における品質不良の要因分析:データ可視化ツールを賢く選ぼう!

VRChatデータサイエンティスト集会LT振り返り!人気の話題は?

製造業における品質不良の要因分析:必要な知識を手に入れるためのQC検定

製造業における品質不良の要因分析:分析着手順の考え方

データサイエンティスト集会の開催情報・参加方法

データサイエンティスト集会のポスター

データサイエンティスト集会

開催日: 2023年05月18日

開催時間: 21:00 - 22:30

開催曜日: 木曜日

開催周期: 隔週(グループB)

データサイエンティスト集会(以下DS集会)はVRChat内でデータサイエンティストやデータサイエンスに興味ある人、初心者が集まって交流する定期イベントです。隔週木曜21時から開催しており、時にはデータサイエンスにちなんだLT企画も行っています。 コロナウイルスの影響でリアルでのオフラインイベントが急減し、代わりにオンラインイベントが開催されるようになりました。しかしビデオ通話などでの交流会…

データサイエンティスト集会(以下DS集会)はVRChat内でデータサイエンティストやデータサイエンスに興味ある人、初心者が集まって交流する定期イベントです。隔週木曜21時から開催しており、時にはデータサイエンスにちなんだLT企画も行っています。 コロナウイルスの影響でリアルでのオフラインイベントが急減し、代わりにオンラインイベントが開催されるようになりました。しかしビデオ通話などでの交流会はやりとりがし辛く、それが理由に社外のDSとの交流が減ってはいないでしょうか? そうした不便さから、さながらオフラインイベントのような雰囲気で交流できる場を目指し、先代が22年4月からDS集会が始まりました。 今ではVRChat内で唯一のデータサイエンス系コミュニティとして、多くの知識交流の場となっています。最近ではデータサイエンスだけでなくデータエンジニアリングや統計などのテーマでも交流されるようになりました。 「身近にデータサイエンスについて相談できる知り合いがいない」、「社外のDSと交流してみたい」といった方は、もしご興味ありましたらご参加をお待ちしております。