宝可梦与数码宝贝很类似。
明显数码宝贝的线条更加复杂,宝可梦更简单,可以从这个角度出发。
利用一些边缘检测工具(canny),e用来计算线条的复杂程度。
理想是获得所有的样本数据,但是在实际中并不可能获得所有的数据,因此需要用Dtrain来代替所有的数据。
为在所有样本中的采样数据,其代表了整个样本,用来检验样本模型对整个样本的泛化性能。
训练样本的损失函数和测试数据集的损失函数的错误率基本保持相同。表明当前的训练集可以很好的代表整个样本数据。
当训练样本并不能很好的代替这个样本的时候, 可能得到的模型在训练数据集上具有不错的表现,但是在实际的数据中有很糟糕的表现。
我们计算理想与现实之间的差距:在会获得最好的结构,因为这里已经完全可以看到所有的数据,需要让去尽可能的接近这一个值,以获得不错的效果。直观的解释就是当训练数据集与实际真是数据分布越接近,那么对任意一个模型在训练数据上的表现与模型在测试数据中的表现应该都相差不大。
直观解释:
严格数学证明:
提出问题:选择得到的数据训练集和完整数据集的差距很大的概率究竟有多大?
下面考虑很通用的情况下的问题,和模型结构、模型的损失函数和数据分布都没有关系。
图中的每个点代表一个训练样本集而不是指单个样本。
下面橙色代表Sample的比较差的样本集,蓝色代表比较好的样本集。
每个比较Bad的训练集都会至少存在一个h使得Loss与全部数据的Loss差值大于。
利用放缩直接求取所有的并集。
当的取值越来越小时候,训练数据得到的模型是坏的几率就会变小,但是与此同时就是导致h的可选空间急剧变小,因此很难选择得到一个有效的使得在上取得比较小的loss。通俗的理解就是现实的结果就会很差,这个时候继续让理想接近现实,即使完全接近后也会获得一个比较糟糕的结果。
出现了矛盾(N和的可调都是存在矛盾的)