语音识别

语音识别现在发展到什么阶段了?

人工智能快速发展的今天,语音识别开始成为很多设备的标配,语音识别开始被越来越多的人关注,国外微软、谷歌、Facebook,国内的科大讯飞、思必驰等厂商都在研发语音识别新策略新算法,今天小编就将为你做语音识别技术的简单介绍,并谈谈它的发展历程和未来可能的发展方向。

在电影《钢铁侠》中,智能助理贾维斯的出色表现让大家充满了对智能语音助手的期待。语音识别技术就是为了让机器人听明白你在说什么,它就好比“机器的听觉系统”,该技术让机器通过识别和理解,把语音信号转变为相应的文本或命令。

语音识别现在发展到什么阶段了?

语音识别系统本质上是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单元,它的基本结构如下图所示:
语音识别现在发展到什么阶段了?

语音识别之初体验

一、概述

作为最自然的人机交互方式 ——语音,正在改变人们的生活,丰富多媒体技术的应用。语音识别技术是语音信号处理的一个重要分支,也是近年来很火的一个研究领域。随着科技的飞速发展,语音识别不仅在桌面PC和大型工作站得到了广泛应用,而且在嵌入式系统领域也占有一席之地,如智能家居、语音助手、车载语音识别系统等。相信在不久的将来,语音识别技术必定会渗透在人们生活的每个角落。

二、语音识别系统的分类

语音识别按照说话人的说话方式可以分为孤立词(IsolatedWord)识别、连接词(Connected Word)识别和连续语音(Continuous Speech)识别。孤立词识别是指说话人每次只说一个词或短语,每个词或短语在词汇表中都算作一个词条,一般用在语音电话拨号系统中;连接词语音识别支持一个小的语法网络,其内部形成一个状态机,可以实现简单的家用电器的控制,而复杂的连接词语音识别系统可以用于电话语音查询、航空订票等系统;连续语音识别是指对说话人以日常自然的方式发音,通常特指用于语音录入的听写机。

5分钟弄懂:语音识别技术原理

简要给大家介绍一下语音怎么变文字的吧。希望这个介绍能让所有同学看懂。

首先,我们知道声音实际上是一种波。常见的mp3、wmv等格式都是压缩格式,必须转成非压缩的纯波形文件来处理,比如Windows PCM文件,也就是俗称的wav文件。wav文件里存储的除了一个文件头以外,就是声音波形的一个个点了。下图是一个波形的示例。

5分钟弄懂:语音识别技术原理

在开始语音识别之前,有时需要把首尾端的静音切除,降低对后续步骤造成的干扰。这个静音切除的操作一般称为VAD,需要用到信号处理的一些技术。要对声音进行分析,需要对声音分帧,也就是把声音切开成一小段一小段,每小段称为一帧。分帧操作一般不是简单的切开,而是使用移动窗函数来实现,这里不详述。帧与帧之间一般是有交叠的,就像下图这样:

语音识别技术简介

在人际交往中,言语是最自然并且最直接的方式之一。随着技术的进步,越来越多的人们也期望计算机能够具备与人进行言语沟通的能力,因此,语音识别这一技术也越来越受到关注。尤其,随着深度学习技术应用在语音识别技术中,使得语音识别的性能得到了显著提升,也使得语音识别技术的普及成为了现实。

自动语音识别技术,简单来说其实就是利用计算机将语音信号自动转换为文本的一项技术。这项技术同时也是机器理解人类言语的第一个也是很重要的一个过程。

语音识别技术简介

为了进一步解释计算机如何实现语音到文字的转换这一过程,我先把目前比较主流的自动语音识别系统的整体框架贴出来,然后再一一简要地对各部分进行说明。
语音识别技术简介

语音的识别过程主要分哪几步,常用的识别方法是什么?

语音识别是完成语音到文字的转换。自然语言理解是完成文字到语义的转换。语音合成是用语音方式输出用户想要的信息,用语音实现人与计算机之间的交互,主要包括语音识别、自然语言理解和语音合成。

相对于机器翻译,语音识别是更加困难的问题。机器翻译系统的输入通常是印刷文本,计算机能清楚地区分单词和单词串。而语音识别系统的输入是语音,其复杂度要大得多,特别是口语有很多的不确定性。人与人交流时,往往是根据上下文提供的信息猜测对方所说的是哪一个单词,还可以根据对方使用的音调、面部表情和手势等来得到很多信息。特别是说话者会经常更正所说过的话,而且会使用不同的词来重复某些信息。显然,要使计算机像人一样识别语音是很困难的。

语音识别过程包括从一段连续声波中采样,将每个采样值量化,得到声波的压缩数字化表示。采样值位于重叠的帧中,对于每一帧,抽取出一个描述频谱内容的特征向量。然后,根据语音信号的特征识别语音所代表的单词,语音识别过程主要分为五步,如下:

1.语音信号采集

语音信号采集是语音信号处理的前提。语音通常通过话筒输入计算机。话筒将声波转换为电压信号,然后通过A/D装置(如声卡)进行采样,从而将连续的电压信号转换为计算机能够处理的数字信号。

深度解读丨语音识别类产品的分类及应用场景

媒体和AI巨头们乐于给大众描绘一幅幅精彩的未来生活蓝图:人工智能可以化身为你的爱车,在沙漠、森林或小巷中风驰电掣;可以是智慧公正的交警,控制红绿灯、缓解交通的拥挤;还可以是给人以贴心照顾的小助理,熟悉你生活中的每一处小怪癖。

在看到这些美妙的畅想之后,作为一个严谨认真的AI产品经理,我不禁想去探索上述美好未来的实现路径;今天,让我们从人工智能中的感知智能开始——聊聊“语音识别类产品”。

一、定义

语音识别是将人类的声音信号转化为文字的过程。

语音识别、人脸识别和OCR等都属于人工智能中的感知智能,其核心功能是将物理世界的信息转化成可供计算机处理的信息,为后续的认知智能提供基础。

二、语音识别能满足或支撑的需求层次

1、人与人之间的信息同步

转化成文字的语音信息,由于少了时间轴的约束,在同等量级的情况下,人类使用眼睛获取的速度远远快于耳朵。当然,确实也损失掉了一些信息,比如情绪。

2、检索&语义抽取

深度学习也解决不掉语音识别问题

作者:Awni Hannun

自从深度学习被引入语音识别后,误字率迅速下降。不过,虽然你可能读到过一些相关文章,但其实语言识别仍然还没有达到人类水准。语音识别已经有了很多失败的模式。而要将 ASR(自动语音识别)从仅在大部分时间适用于一部分人发展到在任何时候适用于任何人,唯一的方法就是承认这些失败并采取措施解决它们。

深度学习也解决不掉语音识别问题

在交换台通话(Switchboard conversational)语音识别标准测试中误字率方面的进展。这个数据集采集于 2000 年,它由四十个电话通话组成,这些通话分别属于随机的两个以英语为母语的人。

仅仅基于交换台通话的结果就声称已经达到人类水准的语音识别,就如同在某个天气晴朗、没有车流的小镇成功测试自动驾驶就声称已经达到人类驾驶水准一样。近期语音识别领域的发展确实非常震撼。但是,关于那些声称达到人类水准的说法就太宽泛了。下面是一些还有待提升的领域。

口音和噪声

语音识别的下一攀登高峰是“人文境界”?

自从深度学习大热,广泛应用于语音识别以来,字幕中的单词错误率急剧下降。尽管如此,语音识别并没有达到人文水平,它仍会出现一些故障。承认这些然后采取措施来解决这些问题对于语音识别的进步至关重要。这是唯一的从可以识别一些人的ASR到识别任何时间任何人的ASR的方式。

语音识别的下一攀登高峰是“人文境界”?

在近期的Switchboard语音识别基准测试中,单词的错误率得到改进。Switchboard集其实是在2000年收集的,它是由两个随机的以英语为母语的人之间的40个电话对话组成。

可以说目前我们已经在会话式语音识别上达到“人类”水平,但仅仅只是在Switchboard方面。这个结果就像是在一个阳光灿烂的日子里的某城市中,只有一个人驾驶着自动驾驶汽车进行测试。最近在这方面取得的进步令人惊讶,但是,关于达到“人类”水平的说法还是太过宽泛,以下是一些仍需要改进的几个方面。

口音和噪音

语音识别的前世今生 | 深度学习彻底改变对话式人工智能

“语音识别”的终极梦想,是真正能够理解人类语言甚至是方言环境的系统。但几十年来,人们并没有一个有效的策略来创建这样一个系统,直到人工智能技术的爆发。

在过去几年中,人们在人工智能和深度学习领域的突破,让语音识别的探索跨了一大步。市面上玲琅满目的产品也反映了这种飞跃式发展。本文将回顾语音识别技术领域的最新进展,研究促进其迅猛发展进程的元素,并探讨其未来以及我们距离可以完全解决这个问题还有多远。

背景:人机交互

多年来,理解人类一直都是人工智能的最重要任务之一。人们不仅希望机器能够理解他们在说些什么,还希望它们能够理解他们所要表达的意思,并基于这些信息采取特定的行动。而这一目标正是对话式人工智能(AI)的精髓。

对话式AI包含有两个主要类别:人机界面,以及人与人沟通的界面。在人机界面中,人类与机器往往通过语音或文本交互,届时机器会理解人类 ( 尽管这种理解方式是有限的 ) 并采取相应的一些措施。图1表明,这台机器可以是一个私人助理或某种聊天机器人。

随着人工智能的发展,之前越来越多不可思议的事情都会慢慢变成现实。提到芯片我们都会惊叹其强大的存储记忆功能,但是如果这种芯片未来可以像人类大脑一样来识别和应用于各种事物,那将智能科技的重大进步。本文通过分析中国、法国、美国以及日本的科学家关于非线性振荡的研究,来探讨纳米神经元如何赋予神经形态芯片语音识别功能。

不久前,IEEE Spectrum网站发布了一份关于“我们能复制人类大脑吗?”的报告。该报告对所有正在进行的,无论在硬件还是软件方面复制人类大脑的研究进行了彻底的盘查。

芯片或将复制人类大脑:纳米神经元赋予神经形态芯片语音识别功能

图中所覆盖的红色区域是模仿大脑神经元的神经形态芯片。据该领域的知名研究者介绍,神经形态系统确实存在,但仍远未达到超越传统计算程序的程度。

目前,来自法国、美国和日本的国际科学家团队已经把注意力集中在人类神经元的非线性振荡领域,他们相信该研究将使人造神经元的能力不断接近我们大脑中的神经元,而且使微型神经形态芯片能够学习和适用于各个领域。

同步内容
--电子创新网--
粤ICP备12070055号