博客
Blog

2020年04月08日

第11次公司内部学习会

3月27日,召开了2019年度的最后一次学习会。
由新入职的员工维护的这个博客有一年了。
4月又增加了4名新员工,我觉得这个博客一定会变得越来越有意思!!

2019年度的最后学习会的主题是机器学习的评价指标的考察和Python基础。
此次我以机器学习的评价指标的考察为主题进行发表。
在网上查了一下,虽然类似的题目有很多,但是说的都不是很清楚。
于是就做了以下总结。

评价指标


模型的性能的优劣性的评价指标为正确率,精度和重现率。
这三个指标评价指标在很多文章里都有提到,
但是具体他们之间有什么不同,什么样的指标是重要的等等,虽然查也没有太完全明白。

如果没有写的话,那我想就从计算式,比较一下具体的不同和重要的指标吧。
用纸和笔,在本本中简单介绍一下。

上面的表是通过机器学习用肺炎患者的X射线创建的表格。
如果注意TP、FP、FN、TN是怎样的值,则可以考虑如下。

TP:预测为患有肺炎,实际上也是肺炎→正确答案
FP:预测为患有肺炎,但实际上并非肺炎→将健康人误诊为肺炎患者→无意义的治疗
FN:预测为健康,但并非真正健康→将肺炎患者误诊为健康人→忽视肺炎患者
TN:预测为健康,实际上却很健康→正确答案

从上述表达方法和计算方法,这三个评价指标可以认为如下。

准确率
测量值和预测值之间的百分比

精度
高精度(接近100%)=与TP相比FP很小→从实际结果看都是有意义的治疗

重现率
高重现率(接近100%)= FN低→从实际结果看,漏检的肺炎患者非常小

这次,在总结评估指标的考虑时,出现了诸如RP曲线和平均准确率之类的词语。
由于没有时间,这些内容还尚未考虑在内,但是我还是想尽快总结一下。

接下来,是关于Python。
另一位分享人介绍了Python的基础知识。 在此之前,他也分享过其他语言的入门教程,并且正在积极地学习各种编程语言。

Python

Python是机器学习中使用的一种语言,我自己也在慢慢学习,
对于这次发表的内容,我还没有进行类似的总结。
因此,这次可以算是一个很好的复习机会。
此外,该演示文稿是介绍性的演示文稿,我认为这是给4月入职的新员工的很好的教材。


※摘录自演示幻灯片

如果自己像这样进行整理的话,就很容易看。
我想我也会试着做一下。

Page top