世界上第一款语音定制产品。百度地图背后的语音技术有多强大?

文|李永华源|艾克斯伦地图应用程序的竞争越来越激烈,但经常是你来来去去,主要产品来来去去。 但是现在,一些基于人工智能技术的颠覆性创新功能正在出现。它们将成为比赛中的“杀戮策略”。一步棋可能会赢,形势也不会再冻结。 您可能经常使用XX明星的声音作为手机地图的提示音,但您可能没有想到有一天语音广播会以准确的发音和播音员水平,如“在前方路口左转”,通过“您的声音”来传递 最近,百度地图推出了“语音定制功能”。简而言之,用户可以通过手机录制和合成自己完整的语音包,同时应用于地图的全语音场景,如驾驶导航、语音交互、智能旅游等。 从技术角度来看,如果你理解每个人“语音定制”的技术难度,你就会知道百度先发制人的“语音定制功能”已经让行业竞争对手“束手无策” 这是百度大脑语音能力的强大祝福,也是深厚技术积累的产物。 毫无疑问,百度策划出这一招,没有人能在短时间内负担得起 从整个行业来看,语音定制的添加进一步进化和升级了“人工智能+地图”组合的“完整体”。 百度地图事业部总经理李颖盘点语音合成:百度地图人工智能的实力已经成为百度地图此次推出的语音定制功能的竞争对手。所依赖的技术是MEITRON模型,一种最初由百度语音创建的风格转换技术。 事实上,这项技术已经“露了脸”。一期大型公益节目《等我》讲述了91岁的老兵袁常林寻找老排长的故事。这位老排长于2004年去世。然而,技术团队收集了老排长的声音材料,并使用MEITRON独立编码和建模音色、情感、风格等。最后,老排长的声音合成了一句话,让老袁常林和观众感动得热泪盈眶。 智能相对论(Intelligent Relativity)认为,同样作为人工智能语音合成技术,MEITRON的价值和优势在于三个方面:材料要求低,一般只需要提供20句材料,在百度地图上,用户只需要跟随并记录20句每句约15个单词的句子就可以完成数据收集;训练时间很短。在百度地图上,完成训练通常只需要20分钟(实际测量通常需要15分钟),合成个性化的目标声音,用户不需要等待很长时间。“情感”是丰富的,也就是说,合成的语音可以注入不同的情感,效果变得更加生动丰富,好像有人真的在谈论它。 坦率地说,这些优势并不是每个人都能直接感受到的。当我们总结和回顾语音合成的历史时,我们会发现MEITRON的有效能力对整个语音合成领域的重要价值。 有了它的祝福,百度地图的语音定制场景应用程序直接拿起了“目标语音个性化”的皇冠宝石,迫使竞争对手放弃用手追逐。 1.总的来说,人工智能解决了语音合成中的几个基本问题。事实上,在MEITRON之前,人工智能就已经深入到语音合成中,解决了行业中的三个基本痛点:韵律问题:可以理解为满足正常人聊天语音的要求,比如句子的暂停和重读。过去,计算机通常是机械的,听起来不自然。例如,在过去,合成了四个“你看起来不错”的简单句子。它可能写着“你真的/漂亮”等。现在人工智能可以实现相对正确的短句和“你真/漂亮”的节奏,或者可以像普通人一样给“真”这个词加上重音。音色适配问题:不仅单调的女性声音,还可以适配其他所需类型的声音;情感人格化问题:也就是说,说话的词语有不同的“语气”,有强烈的个人风格,而不是冷漠、无感情的输出。 2.人工智能长期以来难以解决“目标语音个性化”的问题。美创试图解决语音合成的三个基本问题,但人工智能只能在“商业层面”解决,不能达到“民事层面” 视觉上理解过去几乎所有地图产品都可以针对特定的“目标声音”进行采集和训练,以达到节奏、音色和情感,百度地图的汤唯、杨洋、郭采洁、韩乔生和柳岩、高德地图的郭德纲和林志玲等也是如此。 这种“商业收藏”的早期特点是“目标声音”的提供者需要配合大量的收藏工作,等待十天、半个月甚至更长时间进行合成,以生成我们在map APP中熟悉的明星语音包。 如果是针对大量普通用户,这种成本平台负担不起,用户几乎谈不上任何体验。 因此,地图产品的语音包只能在早期一个接一个地出现,而不能只在商业层面上达到“民用”。 问题是在人工智能浪潮下,所有针对大众的产品都在谈论个性化,地图产品不能被排除在外。 只要个性化需求生根发芽,它就会成长。在人工智能语音合成的支持下,随着不同的星级语音包,越来越多的用户将潜在地有更个性化的语音需求。谁能刺激并实现这一需求,谁就能赢得无法追求的竞争优势。 随着成千上万的人和每个人定制他们想要的声音,“个性化”目标声音无疑已经成为语音合成皇冠上的明珠。 这时,MEITRON出来了,百度地图语音定制功能落到了地上,20句约15个单词的话接着是阅读材料的收集,测量合成速度约15分钟,驾驶导航,语音互动,智能旅游多样化的个人语音应用...当百度地图点击这个技术+体验卡时,这是一个彻底的杀戮 一旦地图应用(map APP)中用户最常接触的声音转化为用户想要的声音,这也意味着移动应用(mobile APP)用户的共同梦想——为每个用户创建自己的“独家应用”(exclusive APP)将有效落地,APP产品梦想的高用户粘性也将获得额外的支持。 坦率地说,如果百度地图应用有一个独特的用户个人声音或他想要的某种特殊声音,他使用其他产品的理由可能会更少。 百度语音总设计师雷佳语音定制的精髓,仍然是百度地图“人工智能+地图”战略的重要组成部分。语音定制是百度地图的竞争策略,但仍在百度地图“人工智能+地图”的整体移动中 这不是人工智能技术第一次应用于百度地图。 2018年,百度人工智能开发者大会(Baidu AI Developer Conference)展示了一个长达60多字的服务请求:“我将从三里屯团结湖地铁站出发,经过望京家乐福,然后去南锣鼓巷,最后到达我家。我想要最快的路线,没有红绿灯,也没有交通堵塞。请帮我规划路线。”百度地图语音助手顺利接受语音输入,自然流畅地提供导航服务。 在这个过程中,百度地图的语音技术已经突破了人工智能语音控制的三大障碍:听得清楚,在驾驶等嘈杂环境中听得清楚。理解和识别复合句的真实意图,特别是适应用户的非标准和随机要求;满意后,意图与后台操作相对应,满足了用户的真实需求。 只有这样,才能实现所谓的“全语音控制” 但这些也得益于百度的语音技术能力——从SMLTA模型(一种大大提高语音理解能力的技术),到小型全双工连续交互技术(连续多条指令,不需要重复大小等叫醒词,只要正常人与人交流),再到百度人工智能更加亮眼的语音技术,百度地图的全语音控制绝非偶然。 除了语音之外,百度地图还有许多与尖端技术相结合的互动技术来增强用户体验 例如,百度地图使用增强现实技术(AR reality enhancement technology),为用户提供身临其境的现实生活地图在各种场景中的使用体验 例如,增强现实双屏漫游功能可以同步显示常规地图和真实场景图片,用户只需遵循真实场景图片中的箭头图案即可到达目的地;AR外围探索功能可以显示当前场景中的兴趣点(POI points),如食物、娱乐、购物、美容、体育、银行、酒店、景点、建筑物等。单击导航;此外,在经常使用地图的旅游场景中,增强现实导航可以在屏幕上标记当前景点的景点 回顾过去,自百度地图于2018年3月并入美国国际集团以来,采用人工智能技术的百度地图呈现出新的活力。随着各种破坏性的用户体验创新,百度地图与竞争产品之间的差异化程度逐渐加深。 定制语音功能的推出进一步表明百度地图已经在竞争中获得了一席之地,并将作为拥抱未来的新一代产品参与竞争。 可以预期,在未来,在人工智能和其他尖端技术的帮助下,更多的细节将得到完善。绝对的技术领先将防止百度地图像过去一样在竞争中输赢。竞争中输赢的2.0时代可能已经开始了。 结论语音技术在百度地图上有最佳实践,这实际上是百度人工智能技术自身核心实力的表现。 除了百度地图,百度硬核的语音技术已经在百度内部启用了主要产品。例如,百度输入法(Baidu Input Method)在用户认知、语音输入的使用和准确性方面远远领先于其他行业,凭借语音输入获得了全新的差异化竞争优势。全新的语音搜索体验完全解放了用户的双手,“你说的就是你得到的”,可以用一个简单的手势探索世界,这为搜索注入了全新的动能。小型扬声器在中国是第一个,在出货量方面也是世界领先的,它们区分了竞争产品难以理解和无序回复的尴尬局面,并证明了智能扬声器的智能和经验...百度人工智能被公认为行业中最强的,语音定制功能体现了语音技术在行业中的领先地位。 从最深的技术能力到最肤浅的用户体验,百度语音技术正成为百度人工智能的亮点,依靠其内部产品和外部合作伙伴打开所有链接,做出全面的登陆布局。

发表评论