新闻资讯
您应该阅读的3篇有趣的机械学习研究论文
发布时间:2023-04-29 23:13
  |  
阅读量:
字号:
A+ A- A
本文摘要:突破, 从15000多个精选的高质量研究论文中脱颖而出 Photo by Dan Dimmock on Unsplash 机械学习突然成为盘算机科学最重要的领域之一,险些与人工智能有关。每个公司都在应用和开发使用这一领域的产物,以更有效的方式解决他们的问题。每年,在诸如NeurIPS,ICML,ICLR,ACL和MLDS的盛行出书物中揭晓与机械学习相关的研究论文数千篇。

华体会体育

突破, 从15000多个精选的高质量研究论文中脱颖而出> Photo by Dan Dimmock on Unsplash 机械学习突然成为盘算机科学最重要的领域之一,险些与人工智能有关。每个公司都在应用和开发使用这一领域的产物,以更有效的方式解决他们的问题。每年,在诸如NeurIPS,ICML,ICLR,ACL和MLDS的盛行出书物中揭晓与机械学习相关的研究论文数千篇。每年都市揭晓有关自然语言处置惩罚,对话式AI,盘算机视觉,强化学习和AI伦理的重要研究论文险些所有论文都在机械学习领域提供了一定水平的发现。

可是,有3篇特别揭晓的论文在机械学习领域(尤其是在神经网络领域)提供了真正的突破。单头注意力RNN:停止用脑壳思考Arvix:https://arxiv.org/pdf/1911.11423.pdf作者:Steven Merity在本文中,哈佛大学的研究生史蒂芬·梅里蒂(Steven Merity)先容了一种最新的NLP模型,称为单头注意力RNN或SHA-RNN。

Stephen Merity,独立研究人员,主要研究NLP和深度学习。作者通过在SHA上使用简朴的LSTM模型来演示,从而在enwik8上获得了最新的字节级语言模型效果。作者的主要目的是讲明,如果我们相反地痴迷于略有差别的首字母缩写和略有差别的效果,那么整个领域可能会朝着差别的偏向生长。

Steven提出的模型体系结构的主要观点包罗一个LSTM体系结构,该体系结构具有一个基于SHA的网络,具有3个变量(Q,K和V)。> Source: Arvix (https://arxiv.org/pdf/1911.11423.pdf) 每个SHA-RNN层仅包罗一个关注点,通过消除更新和维护多个矩阵的需求,有助于将模型的内存消耗降至最低。Boom层与Transformers和其他体系结构中的大型前馈层密切相关。

与传统的向下投影层相比,此块通过使用高斯误差线性单元(GeLu)乘法剖析输入以最小化盘算,从而淘汰并删除了整个参数矩阵。让我们看看下面的实际比力。2016年,用于RNN的正则化方法Suprisal-Driven Zoneout在Hutter Prize数据集enwiki8上获得了1.313bpc的精彩压缩评分,该数据集基本上是Wikipedia页面的100 MB文件。

与2016年的模型相比,SHA-RNN的治理成本甚至更低(bpc)。这令人印象深刻。每个字符的位数是Alex Graves提出的一种模型,用于凭据给定的已往字符来预计下一个字符的概率漫衍。> Source: https://arxiv.org/pdf/1911.11423.pdf 此外,单头注意力RNN(SHA-RNN)可以在不举行超参数调整的情况下并使用单个Titan V GPU事情站来实现强大的最新技术结果。

而且,他的作品没有举行任何麋集的超参数调整,而是完全生活在商用台式机上,这使作者的小单间公寓有点不适应他的喜好。EfficientNet:卷积神经网络模型缩放的反思Arvix:https://arxiv.org/abs/1905.11946作者:Tan Mingxing,Quoc V.Le在本文中,作者系统地研究了模型缩放,并确定仔细平衡网络的深度,宽度和分辨率可以带来更好的性能。

本文先容了一种新的缩放方法,该方法使用简朴而有效的复合系数来匀称缩放深度,宽度和分辨率的所有维度。纳鲁鲁鲁纳/EfficientNet-PytorchPyTorch实现的" EfficientNet:对卷积神经网络的模型缩放的重新思考"。

…论文提出了一种简朴而有效的复合缩放方法,如下所述:> Source: Arvix (https://arxiv.org/abs/1905.11946) 通过尺寸缩放(宽度,深度或分辨率)的网络可提高准确性。可是需要注意的是,较大模型的模型精度会下降。

因此,在CNN缩放历程中平衡网络的所有三个维度(宽度,深度和分辨率)对于提高准确性和效率至关重要。与传统的缩放方法相比,如上所述的复合缩放方法始终如一地提高了模型的准确性和效率,从而可以扩展现有模型,例如MobileNet(+ 1.4%图像网络精度)和ResNet(+ 0.7%)扩展实际上并没有改变层的操作,而是通过神经结构搜索(NAS)获得了基础网络,该神经结构搜索针对精度和FLOPS举行了优化。

华体会体育

与现有的ConvNet(例如ResNet-50和DenseNet-169)相比,扩展的EfficientNet模型始终将参数和FLOPS淘汰一个数量级(参数淘汰多达8.4倍,FLOPS淘汰多达16倍)。EfficientNets还在8个数据集中的5个数据集中实现了最先进的精度,例如CIFAR-100(91.7%)和Flowers(98.8%),参数淘汰了一个数量级(参数淘汰多达21倍), 这讲明EfficientNets也可以很好地举行转移。深度双重下降:更大的模型和更多的数据损失Arvix:https://arxiv.org/abs/1912.02292作者:Preetum Nakkiran,Gal Kaplun,Yamini Bansal,Tristan Yang,Boaz Barak,Ilya Sutskever在本文中,OpenAI的作者将训练历程的有效模型庞大度(EMC)界说为可实现靠近零训练误差的最大样本数。

举行的实验讲明,插值阈值四周存在一个关键距离。插值阈值意味着模型会在多个模型参数,训练时间,漫衍中的标签噪声数量以及火车样本数量之间变化。

关键区域只是在低于和超出参数规模的风险域之间的一个小区域。> Source: https://www.lesswrong.com/posts/FRv7ryoqtvSuqBxuT/understanding-deep-double-descent 在大多数研究中,偏差-方差折衷是经典统计学习理论中的基本观点。

这个想法是,较高庞大度的模型具有较低的偏差但具有较高的方差。一旦模型庞大度凌驾了临界区间,模型的方差项就会过分拟合,从而主导测试误差,因此,从这一点开始,增加模型庞大度只会降低称为"双下降现象"的性能。本文界说了3种情况,其中随着以下这些情况变得越来越重要,模型的性能实际上降低了。(明智的)双重后裔—更大的模型损失> Model Regime (Source: https://arxiv.org/abs/1912.02292) 这些论文演示了在差别的体系结构,数据集,优化器和训练历程中在模型方面的两次下降。

该论文得出结论,在训练之前对数据集举行了通例修改(例如,添加标签噪声,使用数据增强和增加训练样本数量),测试误差的峰值会向更大的模型转移。同样,在上图中,当模型的巨细恰好不足以适合列车组时,测试误差的峰值泛起在插值阈值四周。

(明智的)非单调性—更多数据损失> Sample Regime (Source: https://arxiv.org/abs/1912.02292) 在本节中,该图显示了更改牢固模型的训练样本数量的效果。样本数量的增加使曲线向下移动,以降低测试误差,但峰值误差也向右移动。(明智的)双重血统-更高的迭代损失> Epoch Regime (Source: https://arxiv.org/abs/1912.02292) 对于给定数量的优化步骤(牢固y坐标),测试和训练误差体现出模型巨细的两次下降。

对于给定的模型尺寸,随着训练历程的举行,测试和训练误差将减小,增大并再次减小; 我们将此现象称为时代双重下降。训练时间的增加有效地增加了EMC,因此,在整个训练阶段的历程中,足够大的模型从欠参数转换为过参数。此外,具有更大宽度参数的较大模型(例如ResNet架构)可能会泛起显着的两次下降行为,其中测试误差首先减小(比其他尺寸模型更快),然后在插值阈值四周增大,然后再次减小,如下所示。

> Source: https://mltheory.org/deep.pdf 对于处于插值阈值的模型,实际上只有一个适合训练数据的全局模型-甚至纵然带有错误指定的小标签也被强制拟合会破坏其全局结构。然后,论文得出结论,没有很好的模型既可以插补训练集,又可以在测试集上体现良好。如上所述,这些关键制度的特征为从业者提供了一种有用的思维方式,希望在不久的未来能有所突破。总结随着机械学习社区的生长,每年将有越来越多的论文揭晓。

我们是认真阅读有趣且合理的论文的一部门,以为自己配备社区中最新的最新技术突破。继续阅读喜好者!如果我设法保持您对这一点的关注,那么如果您对本系列有任何建议,请揭晓评论,因为这将大大增加我的知识并改善我的写作方式。Prem Kumar是一位无私的学习者,对围绕我们的日常数据充满热情。

如果您想谈论这个话题以及未来的生长,请在LinkedIn上与我联系,并提及这个故事。(本文翻译自Prem Kumar的文章《3 Interesting Machine Learning Research Papers You Should Read》,参考:https://towardsdatascience.com/3-machine-learning-research-papers-you-should-read-in-2020-9b639bd0b8f0)。


本文关键词:您,应该,阅读,的,3篇,有趣,机械,华体会体育,学习,突破,从

本文来源:华体会体育-www.chengjimuye.com