劝退还是坚守?计算机视觉行业综述
1 从炙手可热到充满争议
计算机视觉(Computer Vision,简写为CV)是一门研究如何让计算机从图像或图像序列中获取信息并
理解其信息的学科,其主要目的在于从图像或图像序列中提取对世界的描述。从工程学的角度来看,它
研究如何使用算法模拟人类的视觉系统,从而完成人类的通过视觉可以完成的一系列工作,其中最广为
人知的应用就是“人脸识别”。
作为深度学习相关的、近二十年内落地发展最快的领域之一,计算机视觉让无数技术人魂牵梦绕又魂飞
魄散。人们追逐计算机视觉主要有两个原因:第一,这个领域非常有趣并且具有改变世界的潜力。人脑
所获取的信息有80%都依赖视觉形成,成功模拟人类视觉系统所带来的经济与社会效益是不可估量的。
从科学精神上来说,计算机视觉值得科研人员付出一生去研究,进入这个领域,你将有机会拥有自己的
事业(career),而不只是一份工作(job)。第二,在21世纪初,计算机视觉领域取得了飞速的发展、
并拥有了巨量实际落地场景,这意味着这个领域有产业需求、有学术潜力,并且最重要的是,有很高的
经济价值。这些因素让计算机视觉成为资本市场上的香饽饽,行业人才价格也水涨船高,计算机视觉成
为了许多人梦寐以求的事业发展方向。
但很快的,人们就对计算机视觉敬而远之了。且不说深度学习本身就是一门有一定门槛的学科,在2019
年秋季,算法岗招聘还出现了“诸神黄昏”之景,无数手握顶会论文的大佬们神仙打架,争夺有限的CV岗
位,几乎形成了完全的卖方市场。从那之后,人们相信计算机视觉领域内卷严重、学术研究停滞,工业
落地场景虽多但成本巨大,看似光明灿烂,其实性价比不高。一时之间,竟形成了从计算机视觉“大逃
亡”的景象,众多怀抱AI梦想的毕业生都转向开发岗,放弃了计算机视觉、甚至完全放弃了AI这条路。
从炙手可热到充满争议,计算机视觉只经历了短短几年的时间,这与全球AI风潮的兴衰、以及人们高度
看好计算机视觉领域有很大的关系,但更多还是视觉领域门槛低、上限高、学习曲线陡峭的学术特点导
致的。
2 门槛低,上限高,学习曲线陡峭
深度学习是一门有门槛的技术,只要稍有了解“算法”、“人工智能”这些概念的人,都不敢轻易说深度学
习、尤其是计算机视觉门槛低。但在视觉这个行业中,比起达到“熟悉”或“精通”的水平,视觉入门的确是
太容易了——首先,人人都知道计算机视觉的核心是卷积神经网络CNN,于是先学CNN就对了,通常一
个优秀的老师只需要30分钟的时间就能够让人们对卷积神经网络的工作流程产生个大概的印象,剩下的
就是在github甚至CSDN上找一段代码,百度一下、修补几天、把代码跑通,就算是完成了人生第一个
“视觉系神经网络”。对于更困难的模型,采用调包的方式,也能轻易获得结果。少数人会找几个图像识
别的例子来完成自己的学习,但大部分人都只停留在跑通(别人的)代码,就转向了下一个领域,不可
谓不容易。
但这样学习,距离成为“计算机视觉人才”还有天渊之隔。许多人在完成经典模型的学习之后,就傻了
眼,会发现“无从下手、不知该从哪里继续深入”,因为这个领域里的经典模型就那几个,似乎已经没有
需要学习的内容了(学算法,除了学模型,还能学什么呢?)。但望着招聘条件中赤裸裸的“顶会paper”
的要求,根本想象不出论文应该从哪里出来,只能从“哪个领域好发paper”这个角度去入手。此时,你就
是到了计算机视觉进阶的瓶颈处,大神在大气层,你在地下十八层,你却看不出你们之间的差异从何而
来。即便你千辛万苦找到了你们之间的差异,你会发现你根本无法直接从简单的CNN架构跨入“读文献、
写文献、看公式就能复现”的神之领域。90%以上的学习者都无法跨越这条陡峭的学习曲线继续向前,说
计算机视觉要求太高、内卷严重,也就不奇怪了。
为什么视觉领域会有这样的状况呢?有两个根本原因: