https://huggingface.co/spaces/leonelhs/FBA-Mattinghttps://huggingface.co/spaces/leonelhs/FBA-Matting1.introduction
matte细节要比分割多很多,大多数几种在增加编码器-解码器架构的分辨能力上,本文的特点在于同时计算alpha,F,B三个输出。
2.proposed approach
2.1 network architecture
unet架构,主要区别是我们从这个单一的编码-解码器中预测F和B,联合估计alpha。Resnet50,输入通道从3增加到9以适应trimap,使用三个不同尺度的前景和背景掩码的高斯模糊来编码trimap,与现有的matting方法不同,通常将trimap编码为具有值为1的单通道前景,值为0.5的未知值和值为0的背景。其次,移除了resnet50的layer3和layer4,并将膨胀率增加到2和4,可以在最高尺度上进行处理,而不降低分辨率。输出层包含7个通道,对应alpha,F,B,将alpha的值归一化0-1之间,sigmoid函数,F和B也采用sigmoid函数,以保持在0-1之间。
2.2 Batch normalisation vs Group normalisation
小批量训练,resnet50采用组归一化,bs=1,批归一化就没有意义了。
2.3 F,B,alpha loss
2.4 Training details
640x640,480x480,320x320,trimap通过随机腐蚀和膨胀3-25个像素从alpha-matte的gt中生成。随机翻转,镜像,gamma和亮度增强。并且会随机合成一种新的前景对象,p=0.5。RAdam,初始学习率为10-5,40个epoch降低了10-6,并进行了5个epoch的finetune训练。训练是1080ti,耗时16天,推理输入图和trimap链接为4通道图。