less than 1 minute read

学习内容参考链接:李沐AI精读


论文阅读方法积累

1、(三遍读)扫摘要结论图表海选+扫流程再选+逐段精读

若决定精读

2、问自己:如果换我来做,会用什么方法、做什么实验,作者没做完的东西我可以继续做吗?

3、问自己:作者写每一段的目的是什么?为什么这么写?

4、遇到太难的文章,可以先看看作者引用的文献

5、一篇论文如果只是对已有技术的工程性总结,那么它对别人的启发性有限;如果它是有一些不常见的、独特的设计,或开启了一个新的方向,那么由于它对其他人的工作也有启发,别人可以从中受益较多,这篇论文在大家眼里就更值得读下去。

悬念词:unusual features、 new methods

6、如果大家不能方便从你的文章复现、获取灵感——例如你做了一个很大很复杂的东西,地球第一高楼,效果很好,大家看一眼可能就过去了,无法举一反三,你的论文可能会中,引用率却未必高得了。

7、标题、模型、方法名字等要起好,深度学习领域的人都特别会起名字,名字起不好的一些做理论的人容易被遗忘。

8、工程性细节第二遍读时可以大致略过;记得标注不懂的地方、需要看的引用文献

任务:把AlexNet里不懂的几个地方查清楚

9、不要“we initialize the weight a in [13] and train all nets from scratch”这种写法。这样读者还要单独点开“【13】”去看,应当直接把关键词或文章名写上

10、一篇文章不用放太多结果,尤其是锦上添花的,会让人眼睛乱。放关键结果即可。

ResNet(这篇论文被夸简单易懂,写作水平高)

这篇文章的思路我很喜欢,是一种清晰直白、直接切中要害的想法。研究者先是关注到重要问题解决的痛点——深度学习网络一旦变深,就很难训练出效果好的。然后,围绕问题发觉异常——这个异常很有趣,也就是理论上更深的网络至少可以通过前面层和浅层网络一致、后面层不做变换(输入输出相同)来达到至少和浅层网络效果相当的成绩,结果大家训练时更深的网络往往表现要差一个层次。深层网络为何没有发现这个最优解呢?

研究者围绕这个奇怪的地方提出了残差网络,说简单点让输出的结果以一个拆分的形式近似输入结果,看起来像逼迫深层网络学习上一段提到的相等输入输出。

这很有趣,看似原理如下:那些残差连接会有这样一个效果:假如新增的层没有让模型学得更好,这些层就会学不到东西,也就是靠近零,等价于没加层。不过,这个原理本质只是不让它更差,但实际效果是优于浅层模型的。这是如何做到的?这些附带效果是意料之外的,其数学理论证明为何?原论文作者都没写,这也是现在大家往回看有些不买账的一个原因。李沐提到,有人发现ResNet残差连接之所以有效,很可能是因为加法的存在让梯度在原先连续乘法(梯度经常是零附近的高斯分布)下过小的问题得以解决,也就是该方法阴差阳错解决了梯度消失的问题,这或许才是关键所在。

不过,令我惊喜的是研究者这种思路是可以学习的:这个问题很重要——异常点敏锐发觉——围绕异常点做一个看起来幼稚直白的解决方案——经过一系列调整试错成功解决。

顺便,残差连接的增加让层数高得多时也在计算机视觉的小数据集上没有过拟合,这有可能是因为这种结构本身反而让模型复杂度降低。

ResNet的思路其实是人为引导模型去往一个相对优秀的解靠近,没有这种引导,模型学不到这个位置。

李沐提到的一个点很有意思:大部分深度学习科研工作的经典之作并非纯粹原创,里面的许多技术点很早之前便已出现(例如残差,正则化,dropout)。但是,优秀的研究者能把不同技术巧妙结合起来设计出新的东西,这同样是极有价值的经典之作。

这段话让我觉得以后做科研不必束手束脚,前人留下的技术就像一个美妙的知识库,我们可以随时享用,以裁决者的姿态决定用哪些、怎么用,而不必战战兢兢这也怕重复,那也怕有人做过。

李沐提到现在的很多工作其实是在算力、数据集规模骤升后对前人工作的再现,这也有其价值。不过,我本人不想只做适应规模化的设计调整——我想类比脑神经科学,从大自然、生物,或者纯数学的角度去做一些架构创新、技术创新的工作。我始终认为人脑这么多年进化出来的许多东西还远远没有应用到计算机领域,这里面还有许多隐藏智慧值得挖掘。

这周论文精读看下来,最大的发现是:我超爱数学解释!没有理论证明的纯直觉的东西通常让我不够满意,即便数学上复杂一点需要深究,我也希望论文能有必要的公式解释。当然,直觉也是很有趣的。

碎碎念

超喜欢这个老师> <

上交本科、CMU博士,逻辑清晰声音也好听,讲的都是切中要害的地方。亲切感十足,可可爱爱,听起来一点都不困~


持续更新中