joycha 的blog

理解神经网络中的Dropout

dropout是指在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃。注意是暂时,对于随机梯度下降来说,由于是随机丢弃,故而每一个mini-batch都在训练不同的网络。

过拟合是深度神经网(DNN)中的一个常见问题:模型只学会在训练集上分类,这些年提出的许多过拟合问题的解决方案,其中dropout具有简单性而且效果也非常良好。

算法概述

我们知道如果要训练一个大型的网络,而训练数据很少的话,那么很容易引起过拟合,一般情况我们会想到用正则化、或者减小网络规模。然而Hinton在2012年文献:《Improving neural networks by preventing co-adaptation of feature detectors》提出了,在每次训练的时候,随机让一半的特征检测器停过工作,这样可以提高网络的泛化能力,Hinton又把它称之为dropout。

无人机关键技术及发展趋势

无人机是无人驾驶飞机的简称(Unmanned Aerial Vehicle),是利用无线电遥控设备和自备的程序控制装置的不载人飞机,包括无人直升机、固定翼机、多旋翼飞行器、无人飞艇、无人伞翼机。广义地看也包括临近空间飞行器(20-100公里空域),如平流层飞艇、高空气球、太阳能无人机等。从某种角度来看,无人机可以在无人驾驶的条件下完成复杂空中飞行任务和各种负载任务,可以被看做是“空中机器人”。其中飞控系统、导航系统、动力系统、通链路均是无人机系统的核心技术,是现阶段无人机厂商获取核心竞争力的因素。

下面我们重点介绍下四大系统的作用和发展趋势。

1、飞控系统是无人机的“驾驶员”——更精确、更清晰

飞控子系统是无人机完成起飞、空中飞行、执行任务和返场回收等整个飞行过程的核心系统,飞控对于无人机相当于驾驶员对于有人机的作用,是无人机最核心的技术之一。飞控一般包括传感器、机载计算机和伺服作动设备三大部分,实现的功能主要有无人机姿态稳定和控制、无人机任务设备管理和应急控制三大类。

人工智能 :眼纹识别技术大显神通,一眼认出你

网络安全不仅需要打响“人民战争”,更是科学技术问题。不管是网络欺诈还是对应的安全措施,都随着科技的发展表现出越来越高的科技依赖性。这其中,生物识别技术在互联网安全、信息认证方面扮演起愈发重要的角色。

移动通信最先进的音频编解码器EVS及用好要做的工作

语音通信从最初的只有有线通信变成后来的有线通信与无线通信(移动通信)的竞争,当移动语音通信价格下来后有线语音通信明显处于逆势。如今移动语音通信的竞争对手是OTT(On The Top)语音,OTT语音是互联网厂商提供的服务,一般免费,如微信语音。目前语音通信技术上就分成了两大阵营:传统通信阵营和互联网阵营,互相竞争,推动着语音通信技术的发展。具体到编解码器上互联网阵营提出了涵盖语音和音乐的音频编解码器OPUS(OPUS是由非盈利的Xiph.org 基金会、Skype 和Mozilla 等共同主导开发的,全频段(8kHZ到48kHZ),支持语音和音乐(语音用SILK, 音乐用CELT),已被IETF接纳成为网络上的声音编解码标准(RFC6716)),绝大多数OTT语音的APP都支持,有一统互联网阵营的趋势。移动通信标准组织3GPP为了应对互联网阵营的竞争,也提出了涵盖语音和音乐的音频编解码器EVS(Enhanced Voice Service)。我曾经给我做的手机平台上成功的加上了EVS,并且通过了中国移动的实网环境下的测试。下面就讲讲这个codec以及用好要做的工作。

神经网络和深度学习之神经元和分类器

当今社会,计算机在我们的生活和工作中扮演着重要的角色,人类使用计算机帮助他们进行大量的计算,通过计算机让每个人相互通信等等。但时代的进步让我们对计算机的要求越来越高,人类希望它能够从事越来越复杂的工作。

Android智能手机上的音频浅析

手机可以说是现在人日常生活中最离不开的电子设备了。它自诞生以来,从模拟的发展到数字的,从1G发展到目前的4G以及不久将来的5G,从最初的只有唯一的功能(打电话)发展到目前的全功能,从功能机(feature phone)发展到智能机(smart phone),可谓变化巨大。对于手机上的音频来说,刚开始只有语音通信功能,现在不仅语音通信,还可以听音乐、录音、智能语音(语音输入/语音交互)等。智能手机中的音频场景众多,可以说是手机多媒体系统中最复杂的子系统了。今天我们就谈谈Android智能手机上的音频。

先从硬件谈起吧。下图是android智能手机中目前主流的跟音频相关的硬件框图。

Android智能手机上的音频浅析

基于深度学习的目标检测识别算法

目标检测与识别是指从一幅场景(图片)中找出目标,包括检测(where)和识别(what)两个过程。任务的难点在于待检测区域/候选的提取与识别,所以,任务的大框架为:
  •   首先建立从场景中提取候选区的模型
  •   然后识别候选区的分类模型
  •   最后精调分类模型的参数和有效候选框的位置精修

目标检测与识别在生活中多个领域中有着广泛的应用,它是将图像或者视频中的目标与不感兴趣的部分区分开,判断是否存在目标,若存在目标则确定目标的位置,识别目标是一种计算机视觉任务。目标检测与识别是计算机视觉领域中一个非常重要的研究方向,随着互联网,人工智能技术,智能硬件的迅猛发展,人类生活中存在着大量的图像和视频数据,这使得计算机视觉技术在人类生活中起到的作用越来越大,对计算机视觉的研究也越来月火热。目标检测与识别,作为计算机视觉领域的基石,也越来越受到重视。在实际生活中应用也越来越广泛,例如目标跟踪,视频监控,信息安全,自动驾驶,图像检索,医学图像分析,网络数据挖掘,无人机导航,遥感图像分析,国防系统等。

音频处理之回声消除及调试经验

本文讲的回声(Echo)是指语音通信时产生的回声,即打电话时自己讲的话又从对方传回来被自己听到。回声在固话和手机上都有,小时还可以忍受,大时严重影响沟通交流,它是影响语音质量的重要因素之一。可能有的朋友要问了,为什么我打电话时没有听见自己的回声,那是因为市面上的成熟产品回声都被消除掉了。回声分为线路回声(line echo)和声学回声(acoustic echo),线路回声主要存在于固话中,是由于2-4线转换引入的回声,声学回声是由于空间声学反射产生的回声 。回声消除(Echo canceller, EC)是语音前处理的重要环节,下面主要讲其基本原理和调试中的一些经验。

1、基本原理

1)自适应滤波器和自适应算法

一般滤波器的系数是固定的,而自适应滤波器的系数是变化的,是依据自适应算法来调整滤波器系数的。自适应滤波器的结构采用FIR或IIR均可,由于IIR存在稳定性问题,因此一般采用FIR。
下图是自适应滤波器的一般结构:

干货:无人机常用的可靠性测试有哪些?

由于无人器作业的环境条件往往多变且复杂,而且每一款机器对于内部功耗发热的控制能力有所区别,最终导致飞行器自身的硬件对于温度的适应能有所不同,所以为了满足更多或者特定条件下的作业需求,高低温条件下的飞行测试是必须的。

音频的编解码及其优化方法和经验

作者:davidtym

音频的编解码(codec)根据应用场景的不同主要由几大技术组织制定,分别是ITU-T、3GPP、MPEG。当然也有一些公司或者公司的联合体等制定,如微软的WMA。他们不仅制定了codec的规范,同时还提供软件实现的reference code,这样便于普及制定的codec的使用。本文先谈谈这些codec,然后讲怎么样根据reference code去优化codec(主要是减少CPU load)。

1、codec 规范

1)ITU-T

ITU-T制定的是有线语音的codec标准,即G系列,主要有G.711、G.722、G.726、G.728、G.729等。采样率窄带是8KHz,宽带是16KHz。码率从64kbps到8kbps不等。

下表列出了具体的采样率和码率。

音频的编解码及其优化方法和经验

2)3GPP

同步内容
--电子创新网--
粤ICP备12070055号