Blog
ブログ

2020年04月08日

第11回社内勉強会

3月27日 2019年度の最後の勉強会が開催されました。
新入社員が担当していた、このブログも一年が経過しました。
4月には新たに4人の新入社員が加わり、このブログもより面白いものに進化すると思います!!

そんな2019年度の最後の勉強会のテーマは機械学習の評価指標の考察とPythonの基礎でした。
今回私は機械学習の評価指標の考察のテーマで発表しました。
ネットで調べればこのようなテーマの記事はたくさん出てきますが、なかなかしっくり来るものがなかったので、
まとめることにしました。

評価指標


モデルの性能の良さを評価する正解率、適合率、再現率。
三つの評価指標は計算方法は多くの記事に書いてありますが
具体的に何が違うのか、どの評価指標が重要なのか、などは調べても全くわかりませんでした。

書いていないのなら、計算式から、具体的な違いと重要な指標を自分で考えよう!と思い、
紙とペンを持ちましたので、本記事でも簡単に紹介しようと思います。

上記の表は、肺炎患者のレントゲンで機械学習させて、作った混合行列です。
TP、FP、FN、TNがどのような値なのか注意すれば、次のように考えることができます。

TP:肺炎と予測して、実際に肺炎だった→正解
FP:肺炎と予測したが、実際には肺炎ではなかった→健康な人を肺炎患者と誤診断→意味の無い治療
FN:健康と予測したが、実際には健康ではなかった→肺炎患者を健康な人と誤診断→肺炎患者を見逃す
TN:健康と予測して、実際に健康だった→正解

そして、上記の表現方法と計算方法から、三つの評価指標は次のように考えることができます。

正解率
実測値と予測値が一致した割合

適合率
適合率が大きい(100%に近い)=TPと比較して、FPが非常に小さい → 正解と比較して、意味の無い治療が非常に小さい

再現率
再現率が大きい(100%に近い)=TPと比較して、FNが小さい → 正解と比較して、肺炎患者を見逃すが非常に小さい

今回は、評価指標についての考察をまとめていたら、その他にもRP曲線や平均適合率、などのワードも出てきました。
時間がなく、そこまでの考察はできませんでしたが、近いうちにまとめたいと思いました。

では次に、Pythonについてです。
もう一人の発表者はPythonの基礎について発表をしてくれました。 以前は他の言語の入門の発表してくれていて、様々な言語を積極的に学んでいます。

Python

Pythonは機械学習でも利用される言語なので、私自身も少しづつ勉強していますが、
今回発表してくれた方のように、今まで内容をまとめたことはありませんでした。
なのでとても良い復習になりました。
また、今回の発表は入門ということもあり、4月からの新入社員にとっても、素晴らしい教材になっていると思います。


※発表スライドの一部抜粋

このようにまとまっていると自分で復習する際にも、見やすいのが良いですね。
私も真似してみようと思いました。

このページの先頭へ