深度学习

深度学习入行有多难?

作者:王学宽

深度学习到底有多热,这里我就不再强调了,也因此有很多人关心这样的几个问题,“适不适合转行深度学习(机器学习)”,“怎么样转行深度学习(机器学习)”,“转行深度学习需要哪些入门材料?”等等。

而网上相应问题的回答也比较杂乱,存在不走心、不够基础等等问题。

考虑到太多的人没有一定的专业基础,又恰恰对转行、学习的问题比较关心,因此,本文希望从一个小白的角度出来,真正从零基础的角度来为大家提供一些专业的建议和指导.

避免大家看很多无用的信息,少走弯路。接下来,本文从以下几个方向出发,来展开叙述:
1. 什么样的人适合入行深度学习?
2. 怎样学习深度学习?
3. 有哪些入门深度学习的材料推荐?

哪些人适合入行深度学习

深度学习存在一定的门槛,这是必然的,并不是网上说的仅仅成为一个“调包狭”。你可能是结合一些实际的业务场景,需要复现一些模型,甚至自己设计一些模型,所以需要具备一定的数学、英语、编程等等能力。

1. 初中毕业、高中毕业是否适合学习深度学习?

如何基于深度学习实现图像的智能审核?

背景

美团每天有百万级的图片产生量,运营人员负责相关图片的内容审核,对涉及法律风险及不符合平台规定的图片进行删除操作。由于图片数量巨大,人工审核耗时耗力且审核能力有限。另外对于不同审核人员来讲,审核标准难以统一且实时变化。所以有必要借助机器实现智能审核。

图像智能审核一般是指利用图像处理与机器学习相关技术识别图像内容,进而甄别图像是否违规。图像智能审核旨在建立图片自动审核服务,由机器自动禁止不符合规定(负例)的图片类型,自动通过符合规定(正例)的图片类型,机器不确定的图片交由人工审核。因此,衡量智能审核系统性能的指标主要是准确率和自动化率。

深度学习cnn卷积神经网络原理(图文详解)

受Hubel和Wiesel对猫视觉皮层电生理研究启发,有人提出卷积神经网络(CNN),Yann Lecun 最早将CNN用于手写数字识别并一直保持了其在该问题的霸主地位。近年来卷积神经网络在多个方向持续发力,在语音识别、人脸识别、通用物体识别、运动分析、自然语言处理甚至脑电波分析方面均有突破。本文将会深度详解cnn卷积神经网络原理,对人工智能领域感兴趣的朋友请继续往下看。

深度学习cnn卷积神经网络原理(图文详解)

卷积神经网络

深度学习再现发展拐点,四大问题预示其已近终点?

深度学习的历史可以追溯到几十年前,但直到大约5年前才得到了较多的关注。其中2012年是关键的一年,几乎很多东西都发生了改变,包括大神大神Krizhevsky、Sutskever以及Hinton三人基于ImageNet做的识别图像的深度卷积神经网AlexNet的发布。而随着深度学习的发展,它曾一度占据了各大媒体的头版头条,还迅速成为了人工智能领域有名的技术术语。

如今,不管是在语音识别、图像识别,还是语言翻译等领域,深度学习的研究已经取得了很多最先进的结果,并在当前大量的人工智能应用程序中发挥作用。为了抓住这一发展机会,许多企业也开始投入大量资金,进行深度学习人才的培养。然而,遗憾的是,再好的发展也会进入瓶颈期,深度学习也是一样。在未来的发展中,深度学习不太可能会消失,也不应该消失,但在该技术复苏后的5年里,现在似乎到了对其进行批判性反思的好时机。

深度学习和相关的机器学习的进步,在人工智能最近所取得的成就中发挥了关键作用,二者使得计算机不再需要明确的编程,而是通过“吸收和分析”大量数据就能完成自我训练。在过去的两年里,谷歌以深度学习为基础的AlphaGo击败了世界顶级的围棋玩家,震惊了大多数人工智能专家,因为在他们的认知力,这一里程碑的实现至少还需要5到10年的时间。

深度学习入门必须理解这25个概念!

人工智能,深度学习,机器学习—无论你在做什么,如果你对它不是很了解的话—去学习它。否则的话不用三年你就跟不上时代的潮流了。 ——马克.库班

马克.库班的这个观点可能听起来很极端——但是它所传达的信息是完全正确的! 我们正处于一场革命的旋涡之中——一场由大数据和计算能力引起的革命。

只需要一分钟,我们来想象一下,在20世纪初,如果一个人不了解电力,他/她会觉得如何?你会习惯于以某种特定的方式来做事情,日复一日,年复一年,而你周围的一切事情都在发生变化,一件需要很多人才能完成的事情仅依靠一个人和电力就可以轻松搞定,而我们今天正以机器学习和深度学习的方式在经历一场相似的旅程。

所以,如果你还没有探索或理解深度学习的神奇力量——那你应该从今天就开始进入这一领域。

谁应该读这篇文章?

如果你是一个想学习或理解深度学习的人,这篇文章是为你量身定做的。在本文中,我将介绍深度学习中常用的各种术语。

[深度学习]不平衡样本的处理

机器学习中经典假设中往往假定训练样本各类别是同等数量即各类样本数目是均衡的,但是真实场景中遇到的实际问题却常常不符合这个假设。一般来说,不平衡样本会导致训练模型侧重样本数目较多的类别,而“轻视”样本数目较少类别,这样模型在测试数据上的泛化能力就会受到影响。一个例子,训练集中有99个正例样本,1个负例样本。在不考虑样本不平衡的很多情况下,学习算法会使分类器放弃负例预测,因为把所有样本都分为正便可获得高达99%的训练分类准确率。

下面将从“数据层面“和”算法层面“两个方面介绍不平衡样本问题。

数据层面处理办法

数据层面处理方法多借助数据采样法使整体训练集样本趋于平衡,即各类样本数基本一致。

数据重采样

恶意软件检测之Deep Learning分类器

0x00、概述

本文主要是和大家介绍一下:

1. 回顾Machine Learning分类器方法。

  •  特征码提取自动化
  •  数据集介绍
  •  n-gram N如何获取
  •  特征选择
  •  算法评估

2. Deep Learning分类器

  •  为什么有Machine Learning还需要Deep Learning。
  •  如何实现Deep Learning的方法。
  •  效果验证。

0x01、Machine Learning分类器回顾

深度学习在OCR中的应用

背景

计算机视觉是利用摄像机和电脑代替人眼,使得计算机拥有类似于人类的对目标进行检测、识别、理解、跟踪、判别决策的功能。以美团业务为例,在商家上单、团单展示、消费评价等多个环节都会涉及计算机视觉的应用,包括文字识别、图片分类、目标检测和图像质量评价等方向。本文将通过以OCR(光学字符识别)的场景来介绍深度学习在计算机视觉中的应用。

基于深度学习的OCR

文字是不可或缺的视觉信息来源。相对于图像/视频中的其他内容,文字往往包含更强的语义信息,因此对图像中的文字提取和识别具有重大意义。OCR在美团业务中主要起着两方面作用。一方面是辅助录入,比如在移动支付环节通过对银行卡卡号的拍照识别以实现自动绑卡,辅助运营录入菜单中菜品信息,在配送环节通过对商家小票的识别以实现调度核单,如图1所示。另一方面是审核校验,比如在商家资质审核环节对商家上传的身份证、营业执照和餐饮许可证等证件照片进行信息提取和核验以确保该商家的合法性,机器过滤商家上单和用户评价环节产生的包含违禁词的图片。

[深度学习] 网络正则化

网络正则化

机器学习的核心问题是如何使学习算法不仅在训练样本上表现良好,而且在新数据上或测试集上同时奏效,学习算法在新数据上的这样一种表现我们称之为模型的泛化能力。如果一个学习算法在训练集表现优异,同时在测试集依然工作良好,可以说该学习算法有较强的泛化能力。若某算法在训练集表现优异,但是测试集却非常糟糕,我们说这样的学习并没有泛化能力,这种现象也叫做过拟合(overfitting)。

如何避免过拟合?我们可以使用正则化的技术来防止过拟合的情况。正则化是机器学习中通过显示的控制模型复杂度来避免模型过拟合,确保泛化能力的一种有效方式。

许多浅层学习器(如支持向量机等)为了提高泛化能力往往都需要依赖模型的正则化,深度学习也应如此。深度网络模型相比浅层学习器巨大的多的模型复杂度时把更锋利的双刃剑:保证模型更强大的同时也蕴含着过拟合的风险。深度模型的正则化可以说是整个深度模型搭建的最后一步,更是不可或缺的一步。下面将介绍五种实践中常用的卷积神经网络的正则化方法。

正则化原理

对于目标函数:

深度学习中最常见的10个方法,你应该知道!

在过去十年中,人们对机器学习的兴趣激增。几乎每天,我们都可以在各种各样的计算机科学课程、行业会议、华尔街日报等等看到有关机器学习的讨论。在所有关于机器学习的讨论中,许多人把机器学习能做的事情和他们希望机器学习做的事情混为一谈。从根本上讲,机器学习是使用算法从原始数据中提取信息,并在某种类型的模型中表示这些信息。我们使用这个模型来推断还没有建模的其他数据。

神经网络是机器学习的一种模型,它们至少有50年历史了。神经网络的基本单元是节点(node),基本上是受哺乳动物大脑中的生物神经元启发。神经元之间的连接也以生物的大脑为模型,这些连接随着时间的推移而发展的方式是为“训练”。

在20世纪80年代中期和90年代初期,许多重要的模型架构进步都是在神经网络中进行的。然而,为了获得良好性能所需的时间和数据越来越多,这极大的降低了研究人员的兴趣。在21世纪初期,计算能力呈指数级增长,研究人员看到了计算机技术的“寒武纪爆发”。作为该领域的一个重要竞争者——深度学习,因为计算能力的爆炸式增长,赢得了许多重要的机器学习竞赛。截至目前,这种趋势仍然没有减退;今天,我们看到机器学习的每个角落都提到了深度学习。

最近,我开始阅读有关该深度学习的学术论文。根据我的研究,以下是一些对该领域的发展产生巨大影响的出版物:

同步内容
--电子创新网--
粤ICP备12070055号