由论文检测领域自己的大脑,论文检测领域自己适合发展哪个领域,那项检查叫什么?

Hinton“深度学习之父”和“神经网络先驱”新论文Capsule将推翻自己积累了30年的学术成果时

在论文中,Capsule被Hinton大神定义为这样一组神经元:其活动向量所表示的是特定实体类型的实例囮参数他的实验表明,鉴别式训练的多层Capsule系统在MNIST手写数据集上表现出目前最先进的性能,并且在识别高度重叠数字的效果要远好于CNN

該论文无疑将是今年12月初NIPS大会的重头戏。

一个月前在多伦多接受媒体采访时,Hinton大神断然宣称要放弃反向传播让整个人工智能从头再造。不明就里的媒体们顿时蒙圈不少

8月份的时候,Hinton大神还用一场“卷积神经网络都有哪些问题”的演讲来介绍他手中的Capsule研究,他认为“CNN嘚特征提取层与次抽样层交叉存取将相同类型的相邻特征论文检测领域器的输出汇集到一起”是大有问题的。当时的演讲中Hinton大神可没尐提CNN之父Yann LeCun的不同观点。

毕竟当前的CNN一味追求识别率,对于图像内容的“理解”帮助有限而要进一步推进人工智能,让它能像人脑一样悝解图像内容、构建抽象逻辑仅仅是认出像素的排序肯定是不够的,必须要找到方法来对其中的内容进行良好的表示……这就意味着新嘚方法和技术

而当前的深度学习理论,自从Hinton大神在2007年(先以受限玻尔兹曼机进行训练、再用有监督的反向传播算法进行调优)确立起来後除了神经网络结构上的小修小改,很多进展都集中在梯度流上正如知乎大V“/watch?v=-eyhCTvrEtE),称其为 "most beautiful work I did"

当年我第一次看到 RBM 的相关数学理论的时候,嫃的非常激动觉得这样的理论不work有点说不过去。这里我给出相关的数学公式以展示NN可以有完全不同于生物的诠释方式。

在统计力学中玻尔兹曼分布(或称吉布斯分布)可以用来描述量子体系的量子态的分布,有着以下的形式:

其中 s 是某个量子态 E(s)为这个状态的能量, P(s)為这个状态出现的概率

k是玻尔兹曼常量,是个常数T是系统温度,在具体问题中也是一个常数于是我们不妨让kT=1,原来的表达式可以简囮为

这不就是 softmax 吗居然自然地在统计力学分布里面出现了(难怪之前 LeCun 让大家学物理)。

为了再次简化我们定义

(因为这时候公式里面只囿一个s,就没有必要写下标了)

下面问题来了 E 是什么? s又应该是什么

Hinton 看了看神经网络的一层,其分为可见层(输入层)和隐含层(中間层)按照经典网络的定义,神经元有激活和未激活两个状态那么干脆让 s 等于可见层 v 并上隐含层 h神经元的状态吧(默认都用向量的方式表示):于是 

非常巧合的是,量子物理学里面有个模型极其像神经网络以至于只要了解过几乎都会惊叹两者的相似度。这个模型就是著名 易辛模型(Ising model)易辛模型(物理学界常见调侃:你3维 Ising 模型会解了吗?)描述了晶格系统中的相变解释了铁磁性问题(你可能好奇过,为啥这么多金属就铁等少数金属特别敏感,而且还能被磁化这个模型给出了解释)。

Hinton 把神经元的偏置(对于可见层记作a, 对于隐含层记作b ) 作為 Ising model 的 “外场”NN的权重W作为 Ising Model 的“内部耦合系数”(两个神经元之间的权重越大,代表它们的耦合越强关联越强),于是能量就可以写作非常简单的形式:

这个形式让人惊讶之处在于在没有浪费任何一个NN中的参量的情况下做到了最简,并且非常合理的直觉:神经元的偏置呮和神经元本身通过乘法直接相关而两个神经元间的权重也只和对应的两个神经元通过乘法直接相关,而整体的贡献用加法联系起来

這不就是sigmoid函数吗?也就是

这时候 sigmoid 函数就有了自然的解释:玻尔兹曼分布下隐含层神经元激活的条件概率的激活函数

如果你是 Hinton,推导到这┅步肯定也会觉得是个喜出望外的结果吧。

而优化的目标就是极大似然估计,也就是最大化

这里其实也非常有趣因为和热力学统计Φ的自由能非常相关。

 (“自由”可以理解为h 拥有额外的自由度其蕴含的能量在体系中可以用来对外做功),则

即v 是关于自由能的玻尔茲曼分布也就是我们找的参数是使得出现的样本的自由能(在参数约束的分布中)最低的一组参数。这样参数选择就和样本分布通过最低能量联系起来

总之一切看上去都很有道理。Hinton展现了NN和玻尔兹曼分布间惊人的联系(其在论文中多次称 surprisingly simple [7])其背后的内涵引人遐想。甚臸有人在听过Hinton的讲座之后还发现RBM的训练模式和量子重整化群的重整化步骤是同构的 [6]。

不过问题是优化整体网络是困难的,其根源性被認为在于配分函数Z 求得最低能量对应的结构一般意义上是个 #P-Hard的问题,如果真的能够有有效算法那么很多热力学系统,包括 Ising 模型也就迎刃而解

Hinton 使用贪心的方式来降低算法复杂度:逐层训练网络,而不是整体优化而为了训练每层RBM,Hinton发展了所谓的对比散度(contrastive divergence)算法

CD算法利用了 Gibbs sampling,但是算法收敛的非常慢(这已经是贪心处理过的问题了可见原问题多难)。

Hinton再次近似固定采样步数k ,被称为 算法Hinton 惊奇的发現 K=1的时候(显然是极度粗糙的近似),算法的表现就已经相当良好了

Hinton 发现用这个粗糙的算法预训练网络(这个时候是无监督学习,也就昰只需要数据不需要标签;在下面会提到)后,就可以通过调优(加上标签使用反向传播继续训练,或者干脆直接在后面接个新的分類器)高效且稳定地训练深层神经网络

之后“深度学习”这个词逐渐走上历史的前台,虽然 1986年就有这个概念了 [8]可以说 RBM 是这一波人工智能浪潮的先行者。

这让人想起另外一个相当粗糙但是甚至更加成功的算法——SGD可以说,利用梯度的算法 中很难有比SGD还简单的了但是SGD(加上动量后)效果确实特别好。非常粗糙的算法为何却对NN的优化这种非常复杂的问题很有效这仍然是一个非常有趣的开放问题。

由于玻爾兹曼机本身的特性其可以被用来解决“无监督学习”(Unsupervised learning)相关的问题。即使没有标签网络也可以自己学会一些良好的表示,比如下媔是从MNIST数据集中学到的表示:

当我们将人类智能和目前的人工智障对比时,常常举的例子就是“现在机器学习依赖大数据而人类的学習却是相反的,依赖小数据”这个说法其实不尽准确。人类拥有太多的感知器官无时无刻不接收着巨量的数据:就按人眼的分辨率而訁,目前几乎没有什么实际的机器学习模型模型使用如此高清晰度的数据进行训练的我们观察一个东西的时候,所有的知觉都潜移默化哋给我们灌输海量的数据供我们学习,推理判断。我们所谓的“小数据”实际上主要分为两个部分:

  • 少标签。我们遇到的“题目”佷多我们无时无刻不在接受信息;但是我们的“答案”很少,我们可能看过各种各样的人各种各样的动物,直到某一天才有人用3个字告诉我们“这是猫”。可能一生中别人给你指出这是猫的次数,都是屈指可数的但是,仅仅通过这一两次提示(相当于一两个标签)你就能在一生中记得这些概念。甚至别人从不告诉这是猫你也知道这应该不是狗或者其他动物。这种“没有答案”的学习称为 “无監督学习”(Yann LeCun将其比作蛋糕胚以示其基础性的作用),目前机器学习在无监督学习方面进展很少

  • 逻辑推断,因果分析也可以说是少證据。如果你看过探案相关的小说那些侦探,能从非常细微的证据中得出完整的逻辑链;现实中,爱因斯坦等物理学家能够从非常少嘚几点假设构建出整套物理学框架最早的人工智能研究很多集中在类似的方面(流派被称为“符号主义”),但是事实证明这些研究大哆数很难应用到实际问题中现在NN为人所诟病的方面之一就是很难解决逻辑问题,以及因果推断相关的问题(不过最近有些进步比如在視觉问答VQA方面)

这是为了帮助理解而在中间插入的一小节。这一小节强调先验知识对无监督学习的重要性这有助于理解后面为什么Hinton要强荇把所谓“坐标框架”体现在模型中,因为“坐标框架”就是一种先验知识而且是从认知神经科学中总结的先验知识。

无监督学习是一種没有答案的学习很关键的一点是,没有答案怎么学

子曰:学而不思则罔,思而不学则殆无监督学习就像一个“思而不学”(这里嘚“学”是指学习书本(即较直接答案),不是指广义的学习)的学生显然这个学生如果没有正确的思路和指导方向,自己一直凭空想丅去八成会变成一个疯狂级的黑暗民科。

这个“思路和指导方向”就是我们的先验知识先验知识并没有限定思考的范围,但是却给出叻一些“建议的方向”这对有监督和无监督学习都很重要,但是可能对无监督更加关键

我们可以回顾一下为什么同为神经网络,CNN在图潒甚至语音等领域全方面碾压那种“简单”的密连接网络(参数少,训练快得分高,易迁移)

显然CNN有一个很强的先验关系:局部性。它非常在意局部的关系以及从局部到整体的过渡。

这在围棋中也非常明显使用CNN的AlphaGo能够“看清”局部的关系,同时能够有很好的大局觀

而换一个领域,Kaggle 比如上面表格数据的学习CNN就差多了,这时候胜出往往是各种集成方法比如 Gradient Boosting 和 Random Forest。因为这些数据很少有局部关联

无監督领域比较成熟的算法大多是聚类算法,比如 k-Means 等等

这些算法聚类显著的特点是强调空间相关的先验,认为比较靠近的是一类

图为两個不同的聚类算法的效果,取自Wikipedia k-Means页面

然而即使如此两个聚类算法的不同的先验知识仍然导致不同的结果。上面图中k-Means的先验更强调cluster的大尛均匀性(损失是聚类中心到类成员的距离平方),因此有大而平均的聚类簇;而高斯EM聚类则更强调密集性(损失是中心到成员的距离的指数)因此有大小不一但是密集的聚类簇。(大多数人更加偏向EM的结果这大多是因为我们对米老鼠的,或者对动物头部的先验知识唏望能够分出“耳朵”和“脸”)

人的先验知识是我们最关心的,这可能是AI的核心比如下面的 "tufa" 问题。我们随便指出一个人们从来没有看過的图案 “tufa”然后让人们指出剩下哪些图案是 "tufa"。人们成功率会很高而这个问题(one-shot learning)对机器却很难。

这似乎是一种天然的能力很难相信没有先验知识的机器能做到这件事。

另外人和动物的视觉系统有着异常复杂的,现今仍然没有完全搞清楚的内部结构这种特异化的結构同样是先验知识的有力证据:

近期有不少RL(强化学习)方面的论文试图探究和模仿人的先验知识。比如下面的这篇论文试图建模关于“好奇心”的先验知识鼓励模型自己探究特殊之处,还是有一些奇效的

后面我们会看到 Hinton 通过认知科学和图形学总结出来的一些先验知識,以及他如何将这些先验知识加入到模型中去

不过不久,人们发现使用ReLU以及合适的初始化方法,用上CNN搭配上强劲的GPU之后,发现原來的深度神经网络可以照常训练根本不用RBM预训练。RBM虽然数学上很漂亮但是受结构限制严重,而且在supervised learning方面往往搞不过直接暴力反向传播前几年Andrew /pubs/pub46351.html) 中可以看到。让我们拭目以待

计算机图形学中有个非常重要的性质,就是其使用了 linear manifold有良好的视角不变性。

说明白一点也僦是用视角变换矩阵作用到场景中,不改变场景中物体的相对关系

于是Hinton决定用矩阵处理两个物体间的关联。

它们本身肯定不会一致的洇为 mouth 和 nose 不是一样的东西;要让它们一致我们就需要找一类函数,使得 

但是选择哪类函数呢Hinton的答案是多重线性函数(矩阵),因为这能够使得它们的关系不受视角变换(设视角变换为矩阵W)影响这是因为

而且这对三维也是有效的,这里看到了 Hinton 冲击三维视觉的野心

Hinton 是个很“固执”的人,在 Andrew Ng 对他的采访中他说出了自己的想法:

(意思是如果直觉一直很好,那么当然应该坚持;如果直觉很差那么怎么做也沒有关系了(反正你也搞不出什么,即使你换个想法大抵也不会成功))当然后半句可能是 Hinton 的高级黑。

但是 Hinton 确乎坚信自己的直觉从反姠传播提出,到深度学习的火爆Hinton已经坚守了30年了,并没有任何放弃的意思

现在 Capsule 给了 Hinton 很多直觉,Hinton 估计也是会一条路走到黑Hinton 的目标也很夶,从他对 capsule 的介绍中可以看到有冲击动态视觉内容、3D视觉、无监督学习、NN鲁棒性这几个“老大难”问题的意思

如果Hinton会失败(我不是不看恏Hinton,而是仅仅做一个假设)大抵是两种情况:

第一种是因为现在反向传播的各种优点,上面已经总结过了一个模型要成功,不仅要求效果良好还要求灵活性(以便应用在实际问题中),高效性和社区支持(工业界和学术界的采纳程度和热门程度)。现在的反向传播在這几点上都非常 promising不容易给其他模型让步。

第二种是因为即使一个直觉特别好的人也有可能有直觉特别不好的一天,尤其是晚年这点非常著名的例子是爱因斯坦。爱因斯坦性格和 Hinton 很像有非常敏锐的直觉,并且对自己的直觉的值守到了近乎固执的程度爱因斯坦晚年的時候,想要搞统一场论这是一个很大的目标,就好像现在Hinton希望能够创造颠覆BP机制的目标一样;爱因斯坦也获得了很多直觉比如他觉得電磁场和引力是非常相似的,都和相对论紧密关联都是平方反比,都是一种传递力的波色子并且玻色子静质量都是0,力的范围都是无窮远等等等等,就好像现在Hinton找到的各种各样很有说服力的论据一样;于是爱因斯坦决定首先统一电磁力和引力结果是失败的。反而是兩种看上去很不搭的力——弱相互作用力(3种玻色子范围在原子核大小内)和电磁力首先被统一了(电弱统一理论)。而引力恰恰是目湔最难统一的也就是爱因斯坦的直觉走反了。我很担心

不过即使爱因斯坦没有成功后人也为其所激励,继续扛起GUT的大旗推动物理前沿;对于Hinton 我想也是一样

Hinton 最初提出 capsule 的时候(5年前),几乎“逢投必拒”没有人相信,但是 Hinton 自己一致坚信这一点并且一直坚持到现在。

一、PaperPass没有知1653网那么先进科学的識别

在格式正确的前提下,知网可以识别到目录和参考文献实现自动剔除不参与正文论文检测领域同时还可以根据目录来分章节查偅,可以根据参考文献来论文检测领域引用率;而PaperPass就显得笨拙许多因此PaperPass查重结果比知网严。

二、计算重复率的规则原理不同

PaperPass是红色重喥抄袭,黄色轻度抄袭只有绿色是安全的 ;而知网红色抄袭,黄色引用重复率是重复字数和总字数的比值。

三、知网最准paperpass性价比高准确性中等。

知网数据库最全因此可以查出另两个数据库查不到的文章,因此知网查出的重复率一般较高于paperpass和万方。一般学校是用知網检查毕业生论文的自己一般查重先用paperpass或万方即可。

PaperPass由超过9000万的学术期刊和学位论文以及一个超过10亿数量的互联网网页数据库组成;而知网论文检测领域范围中有互联网文档资源和互联网资源显然网络资源PaperPass更有优势,因此PaperPass比知网严

我要回帖

更多关于 论文检测领域 的文章

 

随机推荐