首次公开!《阿里计算机视觉技术精选》揭秘前沿落地案例

  • 时间:
  • 浏览:0

Spotlight论文《基于语境对比內部和门控多尺度融合的场景分割》致力于场景分割中的两什么的问题:场景图片中像素形式的冗杂(你这个:显著由于不显著、前景由于背景)和场景图片中物体大小的多样性。文章针对你你这个个什么的问题分别提出了语境对比局部內部和门控多尺度融合方法 。本文提出的模型在Pascal Context, SUN-RGBD和COCO Stuff 一一4个场景分割数据集上验证了性能,取得了目前最高的场景分割性能。

大多数现有的零样本学习(Zero-Shot Learning,ZSL)方法 都地处强偏什么的问题。在论文《基于直推式无偏嵌入的零样本学习》中,作者提出了一一4个简单而有效的方法 ,称为准完整监督学习(QFSL),来缓解此什么的问题。假定标记的源图像和未标记的目标图像都可用于训练。在语义嵌入空间中,被标记的源图像被映射到由源类别指定的若干个嵌入点,为什让未标记的目标图像被强制映射到由目标类别指定的或多或少点。在AwA2,CUB和SUN数据集上进行的实验表明,文章的方法 在遵循广义ZSL设置的清况 下比现有技术的方法 优越。

论文《解决多种退化类型的卷积超分辨率》针对现有基于CNN的单图超分(SISR)算法必须扩展到用单一模型解决多种不同的图像退化类型的什么的问题,提出了你这个生活维度拉伸策略,使得单个卷积超分辨率网络并能将SISR退化过程的一一4个关键因素(即模糊核和噪声水平)作为网络输入来解决你这个生活什么的问题。实验结果表明提出的卷积超分辨率网络可不并能快速、有效的解决多种图像退化类型,为SISR实际应用提供了你这个生活高效、可扩展的解决方案。

当下计算机视觉技术无疑是AI浪潮中最火热的议题之一。视觉技术的渗透,既可不并能对传统商业进行改造使之看一遍新的商业由于,还可不并能创造全新的商业需求和市场。无论在电商、安防、娱乐,还是在工业、医疗、自动驾驶领域,计算机视觉技术都扮演着越发重要的角色。

原文发布时间为:2018-12-27

本文作者:元旦“充电包”

本文来自云栖社区公司合作 伙伴“阿里技术”,了解相关信息可不并能关注“阿里技术”。

Spotlight论文《基于时间尺度取舍的在线行为预测》讨论了视频中行为预测的一一4个非常重要的什么的问题:为什会 去取舍一一4个好的时间维度窗口?论文提出了富含 多个子网络的尺度取舍网,比如包括时间序列建模的一维卷积子网络、尺度回归子网络以及行为预测子网络。在一一4个公开数据集上,尺度取舍网的实验结果优于或多或少方法 ,为什让准确率也接近使用Ground Truth尺度的结果。

对于跨模态检索而言,如保学到大约的內部表达非常关键。Spotlight论文《所见所想所找-基于生成模型的跨模态检索》提出了你这个生活基于生成模型的跨模态检索方法 ,该方法 可不并能学习跨模态数据的高层次內部你这个性,以及目标模态上的局部你这个性。本文通过极少量的实验证明了所提出的方法 可不并能准确地匹配图像和文本,为什让在MSCOCO以及Flickr150K的数据集上都取得了state-of-the-art的效果。

在论文《整体还是局部?应用Localized GAN进行图像内容编辑、半监督训练和解决mode collapse什么的问题》中,作者建立了GAN和半监督机器学习中Laplace-Beltrami算子的联系,在用极少量标注样本训练深度学习模型上取得了优异的性能。一起论文还展示了用Localized GAN (LGAN)对给定图像在局部坐标系下进行编辑修改,从而获得具有不同深度、姿态和风格的新图像;以及如保从流型切向量独立性的深度来解释和解决GAN的mode collapse什么的问题。

好的视觉技术不仅前要好的方法 指引,还前要在实际的场景中形成数据闭环和不断打磨。未来的计算机视觉技术一定是理论探索和数据实践的一起推进。希望这本论文合集能抛砖引玉,给学术界和工业界带来或多或少输入,一起推进计算机视觉技术的发展。

下载地址:https://yq.aliyun.com/download/3237

在这本干货精选集中,亲们收录了多篇具有代表性的 CVPR 2018 论文。比如,拍立淘利用图像搜索和识别技术,帮助用户在移动端通过拍照就能找到你这个商品;线下新零售领域,阿里用空间定位、货架商品SKU识别技术推动“人货场”数字化,并做进一步的商业分析;城市大脑项目中,阿里研发了大规模视频高效解决技术,帮助城市交通事故识别、人流轨迹判断、交通数据样本汇总。

元旦假期即将来临,亲们精心准备了这本《阿里巴巴机器智能计算机视觉技术精选》,收录了顶级会议 CVPR 2018 阿里论文,送给计划在假期“充电”的同学们,也希望能和更多学术界、工业界同仁一起探讨交流。

论文《于尺度空间变换的本征图像分解》将把图像分解为其本征的反射图像和光照图像看作是一一4个图像到图像的转换什么的问题,为什让将输入和输出在尺度空间进行分解。通过将输出图像(反射图像和光照图像)扩展到它们的拉普拉斯金字塔的各个成分,论文提出了你这个生活多通道网络內部,可不并能在每个通道内并行地学习到一一4个图像到图像转换函数,你这个生活函数通过一一4个具有跳过连接的卷积神经网络来表示。在MPI-Sintel数据集和MIT Intrinsic Images数据集上结果表明,新提出的模型在比刚刚最先进的技术上有了明显的进步。

更为具体的实践信息,亲们可不并能通过此本电子书,进一步了解。