8月28日,搜狗在京举行了“全新「声」态AI未来”搜狗听写服务开放暨AI创新联盟成立发布会。会上,搜狗宣布将面向录音笔行业开放自身听写服务,并与爱国者、纽曼、索尼录音笔、万城集团四家数码科技头部企业成立AI创新联盟。

搜狗听写服务基于搜狗AI语音技术的领先成果,可向用户提供音频文件云存储、音频转写、多端同步编辑等一站式服务。用户可通过PC端、App端、Web端任一渠道接入该服务,实现录音文件实时文本转写。同时,已完成的录音可以进行非实时录音转写,支持1小时音频最快5分钟出稿。值得注意的是,音频直接转写准确率高达95%以上。

开放听写服务成立AI创新联盟

此前,搜狗推出的智能录音笔C1兼具高清晰度和轻便携性,满足了相关用户的使用需求,在市场上获得了一致好评。一直以来,传统录音行业的研发重点都在于人声保真和场景降噪,录音音频的后续生产力转化一直被行业所忽略。搜狗智能录音笔备受市场偏爱,除了其出色的收音效果,还在于搜狗听写服务的支持。基于搜狗听写服务,搜狗创新性地开拓出一个专业化的录音文件后期智能处理平台,帮助用户轻松实现录音音频向文字的转化,有效节省人力和时间成本。

发布会现场,搜狗还联合爱国者、纽曼、索尼录音笔、万城集团成立了AI创新联盟,这四大录音笔生产厂商的加盟,将在AI智能录音笔产业带起一场软件与硬件的碰撞。产品AI化,是5G互联网时代的大趋势,电子设备通过人工智能的加持,不再死板僵硬缺少变通性,而会越发智慧化、便捷化。本次发布会后,搜狗面向全行业开放听写服务,不仅为传统录音笔行业提供了AI技术后盾,使音频不仅“可听”而且“可看”,也推动着多年来进度滞缓的录音笔行业实现创新跃迁式发展。

对于技术行业来说,一些关键技术的突破点往往在于产品细节问题的处理上。搜狗通过对AI语音技术的自主研发,对录音实时转写进行技术优化,实现转写结果超过95%的精准度,搜狗公司AI交互技术中心总经理在发布会现场对搜狗听写服务进行了详细的技术解析。

目前搜狗输入法语音请求峰值已超7亿次,稳居全球最大的中文语音应用,依托于此,搜狗听写服务背后的转写技术已处于行业领先地位,其实时语音转写运用了搜狗自研的延迟可控的AdaptiveAttention-based端到端建模技术,非实时语音转写功能使用业界领先的深层Transformer-based端到端语音识别技术,语音转写准确率可达95%以上。在语音增强方面,搜狗自研的SmartVoice麦克风阵列算法能够对噪声和混响进行多重深度优化,确保人声的高保真还原。在智能辅助编辑方面,搜狗语音转写可以通过云端智能纠错编辑技术,基于词图搜索和输入纠错模型,针对置信度低的转写结果提供多个候选词,帮助用户对转写结果进行纠正,同时还具备了良好的自动区分说话人、智能文本顺滑和标点预测等能力,可以为用户提供更多便捷功能。

AI推进技术变革专业设备专业化

智能手机的出现,对具有重合功能的电子设备行业带来巨大冲击力。以传统录音笔行业为例,录音笔可实现的音频记录功能,移动智能手机也可实现,且在使用体验方面,两者并无显著差异。互联网时代,一个产品失去了差异化优势几乎等于走向消失。而搜狗开放听写服务,恰能以AI技术助力录音笔产品便捷实现智能化升级。基于前沿AI语音技术,搜狗听写服务率先在业内实现了录音文件后期的一键加工处理,补足了“音频转文字”方面用户使用场景链条的完整结构,真正提升录音笔的便捷性,拉开其与手机产品的专业化差距。

爱国者、纽曼、索尼录音笔、万城集团这四家数码科技品牌在互联网界拥有举足轻重的地位,旗下录音笔相关产品销量占据业界半壁江山,此次与搜狗联合成立AI创新联盟也发出了传统录音行业寻求突破转型的信号。三大巨头对搜狗开放听写服务给予高度评价和大力支持,预示着录音行业将迎来一场变革,智能录音笔及后期处理平台势将形成新的AI智能产业链,对有录音需求的相关行业也会带来颠覆性变革,引领录音行业实现智能升级。


参考资料