科大迅飞的语音技术及车载导航解决方案

发布时间:2010-08-03
分享到
副标题#e#

  随着技术在导航设备、手机、MP3/MP4及金融、证券大型呼叫中心等领域的大量应用,语音技术最近几年在国内市场获得了较快发展。谈及这一现状,安徽科大迅飞信息科技股份有限公司(以下简称科大迅飞)嵌入式产品部市场总监张哲先生表示,国内语音市场真正发展也就在最近三、四年,2000年初国内市场还鲜见带有语音技术的相关产品。而科大迅飞自1999年成立后至2003年期间,其中一项很重要的工作就是进行市场培育工作,自2004年实现了每年营业额翻倍增长。目前已占有中文语音技术市场60%以上的市场份额。嵌入式语音技术产品是其未来十分看重的领域,而是其嵌入式语音产品的重要组成部分。

  所谓语音技术,就是让计算机等智能机器具备“会说能听”能力的技术,其中两项最关键的技术是(Text to Speech)和(Speech Recognition)。让机器说话,用的是语音合成技术;让机器听懂人说话,用的是语音识别技术。张哲先生表示,语音技术的重要价值在于提高了人机交互的效率,使人与机器的沟通变得如同人与人沟通一样简单。因而语音市场被认为前景极其广阔。这也正是包括Google、Microsoft等国际巨头投入巨资进行基于语音技术及相关产品研究的一个重要原因。专家也预测,未来5年,如果语音技术取得进一步突破,基于此项技术的平台厂商、硬件厂商、软件厂商及设计公司能够形成良好的合作,中国语音产业链市场容量将超过1000亿元。

  科大迅飞的语音技术和车载导航解决方案

  AirSound4.0是科大迅飞开发的轻量级语音合成软件,尺寸小、资源占用性低、效率高,主要应用于嵌入式领域的语音合成软件模块,适用于不同行业的语音播报和应用需求。

  AirSound4.0可配置特性:

资源尺寸可配置
—最小系统尺寸500K
运算效率可配置
—最低可到20MHz的32处理器
极低的内存需求
—Kernel最小仅需32K RAM空间
主要优势:
-支持多种开发平台
-支持所有汉字编码输入
-增强型语音合成功能
-丰富的文本控制标识
-强大的语音调节功能
-支持英文合成及多语种
-支持多种音效处理
-丰富多样的个性化音色
-全面完善的维护工具
-支持快速发音人定制服务

AirSound基本框架

图1  AirSound基本框架

TTS系统框架

图2  TTS系统框架

  其嵌入式语音识别产品AiTalk2.0是高性能的嵌入式非特定人中英文命令词语音识别引擎。

#p#副标题#e#

  主要功能:
-非特定人识别
-支持中英文识别
-支持动态命令增删
技术特点:
-优秀的平台普适性
-精确文本分析能力
-快速移植能力
-强大领域定制能力

识别系统架构图

图3 识别系统架构图

  行业解决方案

  科大迅飞车载导航解决方案分析了车载导航产品中原有的功能与合成技术和语音识别技术的各种可能结合点,总结出相应一些语音功能结合点,设计原则和功能结合点图表简列如下:

  设计原则

  在与原有车载导航功能相结合,增加语音功能时,尽量保持车载导航产品上原有的用户界面不变,减少开发工作量。采用附加应用层界面的方式添加语音合成和语音识别功能。

  对原有车载导航产品的硬件设计和模具做尽量少的修改要求,尽量不增加硬件成本。

  所有用户语音应用的内容都可以进行设置,让用户选择是打开还是关闭。

设计原则和功能结合点图表

  科大迅飞与飞思卡尔强强联手,谋求共赢

  从未来语音市场发展角度来看,虽然前景极为广阔,但整个市场目前还处于刚起步阶段,整个产业链上的厂商联手打造良好的生态环境,是整个语音市场获得发展的重要因素也是企业自身发展的关键。从语音技术和产品发展的角度来看,更多地体现以人为本,能带给消费者完美人机交互体验的产品将是未来语音技术和产品设计的趋势。目前科大迅飞正在与各个行业的领先者进行磋商合作,通过建立战略性合作伙伴关系促进各自发展。

  科大迅飞所看重的嵌入式语音技术产品中车载导航仪近年增速迅猛,2007年出货量达410万部,比2006年增长了68.2%。而在汽车电子领域,飞思卡尔作为全球性的领导厂商,其领先地位毋庸质疑。作为全球最大的汽车电子MCU的提供商,飞思卡尔拥有业界最完整的从8位S08到高端32位的Power Architecture MCU,涵盖了整车厂商对电子产品的所有需求。飞思卡尔i.MX35系列多媒体处理器的推出,使汽车OEM实现了导航功能和车内无线电的免提控制,将过去由豪华汽车所独享的免提信息娱乐控制功能扩展到所有汽车中。张哲表示,他们十分看重飞思卡尔在整个汽车电子行业的影响力,同时也十分看重飞思卡尔在应用型解决方案上的创新能力。

  科大迅飞嵌入式产品部市场总监张哲先生称,飞思卡尔的芯片设计致力于满足终端用户的完美体验需求,并将相应功能在其设计规格里完美体现。如飞思卡尔 i.MX35处理器可以 让驾驶员在驾驶过程中更安全、更轻松地控制娱乐和导航设备,只需一个简单的语音命令,驾驶员就可以从便携式媒体播放器音乐集中选择歌曲,或随时随地获取方向信息。科大迅飞作为我国最大的中文语音技术提供商,拥有领先的中文语音核心技术和中文语音资源优势。

#p#副标题#e#

  因此张哲先生认为,科大迅飞与飞思卡尔的强强联手,将产生1+1>2的效益。对于科大迅飞自身而言,将有助于他们开发设计出更具创新型应用的产品,飞思卡尔的资源优势有利于科大迅飞更好地与合作伙伴开展合作,其产品更易为合作伙伴和消费者认可、接受,并使其继续保持市场领先性。对飞思卡尔而言,如果能够在产品设计中将科大迅飞的相关中文技术元素考虑进去,可使其提供差异化的产品和解决方案,并有可能为中国市场带来更加智能的设备。当然这将为终端用户带来更加人性化的产品和更愉悦的使用体验。因此科大迅飞对与飞思卡尔的合作前景充满信心,并认为这种合作将不仅只限于在车载领域,在飞思卡尔同样具有优势的多媒体、自动化领域都将会展开合作。

  积极开发创新型应用产品,是下一步发展关键

  如何开发出更加符合市场需求、更能满足消费者人机交互体验的创新型语音技术产品,是科大迅飞未来发展所面临的重大挑战之一。张哲表示,科大迅飞目前已形成了两种方式,在外部主要依靠和各行业的合作伙伴密切沟通和合作,在内部则是在研发部门形成了一种机制,即把未来语音技术研发的方向与市场需求紧密结合。目前在实验室进行的两项前瞻性语音合成技术包括情感式语音合成和音色转换。最初的语音合成产品是力求实现语音的自然度和饱和度,而能够带有人类感情色彩的产品将更符合以人为本的需求。音色转换技术则能够提供极具个性化特点的产品。

  作为国内一家软件企业,张哲先生也表示了对中国软件企业未来发展的思考,他认为,拥有自主知识产权的核心技术是中国软件企业长久发展的保证,就科大迅飞自身而言,在与国际巨头进行面对面竞争时,中文语音核心技术使其在市场中处于不败的地位。他强调,作为企业自身,应该把更多精力放在提高技术创新上。从外部而言,他希望能够建立更完善的知识产权保护体系,为中国软件企业更好地发展提供良好的外部环境。

收藏
赞一下
0