城市传媒 600229 ,喜马拉雅基本就是其旗下的
以下这篇新闻是2022年发布的
喜马拉雅近期推出的创意平台喜云音方,利用TTS技术帮助主播用AI创作音频节目。“CV千锁”用这项技术在喜马拉雅山创作了有声读物《史上最强捡漏王》。它已经存在了一个多月,播放量超过300万次。
工欲善其事,必先利其器。借助AI工具,开发人员可以提高创造力并增加收入。
但是,要做出好的装备并不容易。惜云音方去喜马拉雅山,和一样也是毁灭,只是声音制作有不同的技术问题。“TTS”是将输入文本转换为语音的技术的总称,并在许多上下文中使用。然而,在很多领域,比如电话客服、机器人等,往往会出现一种冰冷的“机器声音”,让人“欲罢不能”。
但是在语音节目中,我们需要的是一种有感情、有温度的声音:听童话故事,声音可爱迷人;讲军事故事,声音宏亮有力;听历史故事,要有深度、有张力。
“解读故事的TTS音色非常困难,需要学习故事中的韵律、情绪的表达、上下文的关系,区分旁白和对话,最后进行翻译做得好。”博士喜马拉雅智能语音实验室的卢恒说。
因此,如何让AI理解文本的上下文,进而选择合适的语音,甚至根据文本的意境随时变换语音,是TTS应用于特定场景时面临的最大问题。.
图片:解说员单天放
就拿单天放先生的声音还原喜马拉雅来说吧。评书常有很大的韵律变化,许多读音各有特点。如“this”中的“this”字,普通话读“zhè”,但在旁白中常读作“zhèi”。
在这种情况下,如果只使用目前标准的TTS系统模型进行提取和合成,合成叙事的总体感觉和最终感觉会很平淡,没有早期工作中的起伏。
为此,喜马拉雅智能语音实验室开发了单独的韵律提取模型,并将其集成到HiTTS技术系统中。
对于山老评书与标准普通话不同的发音,团队还开发了一个口音模块来标记这些特定的发音,让人工智能衍生的声音能够再现最初那里的味道。
由于技术革新,喜马拉雅制作的AIGC专辑TTS合成音几乎是假的。一直使用喜马拉雅TTS录制节目的的主播清月古筝说:“最后的效果还是不错的,有些人甚至都没有意识到这是AI做的,还有人问是谁的声音……男主角是。”
目前,多语音、多语言、多语种的TTS技术模型被广泛应用于旁白、新闻、历史、财经等各类AIGC内容的制作中。
除了HiTTS技术对语音节奏的提升,TTS中的跨语言合成也很重要。事实上,仅在中国就有129种语言和7种方言。
跨语言语音合成技术可以让同一个声音说出两种不同的语言(方言)。比如用迪丽热巴的声音说四川话,或者用李现的声音说山东话。这项技术的难点在于,李现和迪丽热巴的声音很多时候可能说的是普通话。在这一点上,我们需要让AI学会说方言(或其他语言)。然而,在传统的训练方法中,这个过程存在一些错误。比如方言不好或者没学好,原来的普通话也受到影响,就变成了“邯郸宝宝”。
为了解决这个问题,喜马拉雅开发了一种新的训练方法,让模型接受所有音色和语言组合的训练,即跨语言合成技术。集成处理会议(ICASSP)。
除了使用TTS实现文字转语音外,语音转文字ASR技术对音频也很有用。
过去很多音频节目都是不配合文字的,就像听一首歌没有歌词,不仔细听根本不知道在说什么。
为了解决这个问题,喜马拉雅发布了基于ASR等算法的AI手写功能,可以让高质量的声音适配文字。
它可以检测没有字幕的音频内容并自动生成,使音频内容更容易被观众理解。
对于已经有手写的音频内容,手写AI可以为音频和手写打上标签进行审核,同时在播放音频的同时高亮显示相应的文字,让用户边听边看更轻松。经验。
近日,喜马拉雅的ASR技术(AutomaticSpeechRecognitionTechnology)在Speec得到了国内电力行业的广泛好评。
hIOTIOBE在第三节评测中以2.16%的最低错误率获得冠军。
总之,随着AI技术对特定情况理解的不断扩展,喜马拉雅将为行业的生产方式、内容结构和经营业绩带来质的改变。
02再做音频
传统音响行业不是好生意。中国没有像播客那样的钱浪潮,所以所有的玩家都在寻找利润更高的“好生意”。
比如之前也做音频的荔枝FM,现在把重心转移到了更直接的直播业务上。今年第二季度,虚拟捐赠及相关收入占其收入的99%以上。此外,几乎所有在线音频播放器都尝试过Clubhouse的聊天室模式。甚至截至2017年,喜马拉雅已经建立了智能家居、智能音箱、汽车座舱等多种环境渠道,试图拓宽渠道打开更多市场。
对于音频行业来说,这些发现是好的,但在线音频在很大程度上仍然是一个内容行业,吸引用户使用、付费甚至吸引广告商的是基于体验的内容。
就像信息技术以图像、视频的新媒体改变了传播逻辑一样,字节跳动这样的新巨头诞生了,进而展现了他们在电商和本地生活中的强大实力。AIGC、TTS、ASR等AI技术在音频行业的进步,也将为行业带来新的助力。
在传统的在线音频行业,内容结构和由此产生的内容成本是阻碍行业盈利的主要因素。
经过多年的发展,在线音频行业现已拥有稳定的内容生产体系。以喜马拉雅为例,“PGC+PUGC+UGC”的内容结构呈金字塔状构建。UGC作为金字塔的底部,是使用最多的细分,2021年其收听时长将占整个板块收听时长的45.3%。
图片:招股书中PGC喜马拉雅、PUGC、UGC的部分内容
但与此同时,喜马拉雅与内容创作者之间采用的收益分成方式,也直接拉动了喜马拉雅这些年的内容成本。例如,2020年和2021年,喜马拉雅在内容创作者中的份额分别为13亿和16亿,占总收入的31.9%和27.3%。
不过,在内容创作中引入人工智能技术后,这种情况有望得到改变。
首先,通过AI技术,创作者将提高内容制作的效率,因此内容的层次也会大幅提升。
以音频传输为例。新京报、环球时报、时代周刊等数十家主流媒体通过TTS发布了40多条AIGC在喜马拉雅地区的录音。它们每天发出大约500种声音。.
据介绍,喜马拉雅新闻的TTS目前每分钟可翻译约3000个单词,这是人类主播无法企及的壮举。♬清月古筝主播表示,惜云吟芳为她节省了录音成本,让她这次把音量调大了很多。
图片:AI电子书《厉少的重生小甜》听力27.4W
其次,平台也会在AIGC上产生大量的内容。目前,“单天放之声复刻”等喜马拉雅账号下使用单天放AI合成语音制作的专辑已超过100张,总播放量超过1亿。此外,喜马拉雅还与近平台和出版社合作,出版了近6万本电子书,然后通过TTS技术为这些电子书实时制作TTS音频。
今年7月,百度创始人李彦宏认为,“未来十年,AIGC将颠覆现有的内容生产模式。
它可以用十分之一的时间创造出第一篇AI内容”的价格和生产速度一百次和一千次”。
招股书显示,年至2021年,喜马拉雅股价从44.5%涨至54%。
需要注意的是,随着AIGC内容层级的不断扩大,音频板块的平均内容价格将大幅下降。此外,技术整合也将提高音频内容的质量。
在音频行业,除了少数专业团队,大部分内容创作者都是“一人兵”,一个人,一个话筒。这也是他们在创作内容时选择做单播工作的原因,这确实限制了音频内容的表现。
喜马拉雅喜云音方基于TTS技术开发的AIGC组播功能上线后,主播可以与AI配合,轻松将不同的声音适配不同的角色和情绪,让一个主播也能发挥多种功能。
”现在,惜云音坊已经拥有了公子音、玉洁音、石府音、马马音等多种声音,并赋予了这些角色多种多样的情感,可以自由表达悲伤、愤怒、厌恶、赞美等不同的转化故事中的人物。”《我在仙界淘废品》的主播“DJ老赵”说:“有了这个功能,我们可以快速实现单播到组播的转变。”
以前听书的时候听的是一个人的声音,而今天听一本书的时候是有好几个人物不同的声音,这使得内容更加激烈,更能吸引听众,并且可以做到更多的。雇主愿意为此付出代价。
数据显示,2020年喜马拉雅移动端每位活跃用户日均在线音频收听时长为117.4分钟,2021年这一数据将增长至144分钟。同时,到2021年,喜马拉雅的每月活跃付费会员将达到1440万,同比增长52%。
总的来说,AI技术不仅在塑造音频行业的生产方式,也在改变行业的商业逻辑。