巨大发现！城市传媒旗下喜马拉雅全网最早运用chatgpt-韭研公社

登录注册

巨大发现！城市传媒旗下喜马拉雅全网最早运用chatgpt

孤独的老韭菜

2023-05-08 12:25:14

城市传媒 600229 ，喜马拉雅基本就是其旗下的

以下这篇新闻是2022年发布的

喜马拉雅近期推出的创意平台喜云音方，利用TTS技术帮助主播用AI创作音频节目。“CV千锁”用这项技术在喜马拉雅山创作了有声读物《史上最强捡漏王》。它已经存在了一个多月，播放量超过300万次。

工欲善其事，必先利其器。借助AI工具，开发人员可以提高创造力并增加收入。

但是，要做出好的装备并不容易。惜云音方去喜马拉雅山，和一样也是毁灭，只是声音制作有不同的技术问题。“TTS”是将输入文本转换为语音的技术的总称，并在许多上下文中使用。然而，在很多领域，比如电话客服、机器人等，往往会出现一种冰冷的“机器声音”，让人“欲罢不能”。

但是在语音节目中，我们需要的是一种有感情、有温度的声音：听童话故事，声音可爱迷人；讲军事故事，声音宏亮有力；听历史故事，要有深度、有张力。

“解读故事的TTS音色非常困难，需要学习故事中的韵律、情绪的表达、上下文的关系，区分旁白和对话，最后进行翻译做得好。”博士喜马拉雅智能语音实验室的卢恒说。

因此，如何让AI理解文本的上下文，进而选择合适的语音，甚至根据文本的意境随时变换语音，是TTS应用于特定场景时面临的最大问题。.

图片：解说员单天放

就拿单天放先生的声音还原喜马拉雅来说吧。评书常有很大的韵律变化，许多读音各有特点。如“this”中的“this”字，普通话读“zhè”，但在旁白中常读作“zhèi”。

在这种情况下，如果只使用目前标准的TTS系统模型进行提取和合成，合成叙事的总体感觉和最终感觉会很平淡，没有早期工作中的起伏。

为此，喜马拉雅智能语音实验室开发了单独的韵律提取模型，并将其集成到HiTTS技术系统中。

对于山老评书与标准普通话不同的发音，团队还开发了一个口音模块来标记这些特定的发音，让人工智能衍生的声音能够再现最初那里的味道。

由于技术革新，喜马拉雅制作的AIGC专辑TTS合成音几乎是假的。一直使用喜马拉雅TTS录制节目的的主播清月古筝说：“最后的效果还是不错的，有些人甚至都没有意识到这是AI做的，还有人问是谁的声音……男主角是。”

目前，多语音、多语言、多语种的TTS技术模型被广泛应用于旁白、新闻、历史、财经等各类AIGC内容的制作中。

除了HiTTS技术对语音节奏的提升，TTS中的跨语言合成也很重要。事实上，仅在中国就有129种语言和7种方言。

跨语言语音合成技术可以让同一个声音说出两种不同的语言（方言）。比如用迪丽热巴的声音说四川话，或者用李现的声音说山东话。这项技术的难点在于，李现和迪丽热巴的声音很多时候可能说的是普通话。在这一点上，我们需要让AI学会说方言（或其他语言）。然而，在传统的训练方法中，这个过程存在一些错误。比如方言不好或者没学好，原来的普通话也受到影响，就变成了“邯郸宝宝”。

为了解决这个问题，喜马拉雅开发了一种新的训练方法，让模型接受所有音色和语言组合的训练，即跨语言合成技术。集成处理会议(ICASSP)。

除了使用TTS实现文字转语音外，语音转文字ASR技术对音频也很有用。

过去很多音频节目都是不配合文字的，就像听一首歌没有歌词，不仔细听根本不知道在说什么。

为了解决这个问题，喜马拉雅发布了基于ASR等算法的AI手写功能，可以让高质量的声音适配文字。

它可以检测没有字幕的音频内容并自动生成，使音频内容更容易被观众理解。

对于已经有手写的音频内容，手写AI可以为音频和手写打上标签进行审核，同时在播放音频的同时高亮显示相应的文字，让用户边听边看更轻松。经验。

近日，喜马拉雅的ASR技术（AutomaticSpeechRecognitionTechnology）在Speec得到了国内电力行业的广泛好评。

hIOTIOBE在第三节评测中以2.16%的最低错误率获得冠军。

总之，随着AI技术对特定情况理解的不断扩展，喜马拉雅将为行业的生产方式、内容结构和经营业绩带来质的改变。

02再做音频

传统音响行业不是好生意。中国没有像播客那样的钱浪潮，所以所有的玩家都在寻找利润更高的“好生意”。

比如之前也做音频的荔枝FM，现在把重心转移到了更直接的直播业务上。今年第二季度，虚拟捐赠及相关收入占其收入的99%以上。此外，几乎所有在线音频播放器都尝试过Clubhouse的聊天室模式。甚至截至2017年，喜马拉雅已经建立了智能家居、智能音箱、汽车座舱等多种环境渠道，试图拓宽渠道打开更多市场。

对于音频行业来说，这些发现是好的，但在线音频在很大程度上仍然是一个内容行业，吸引用户使用、付费甚至吸引广告商的是基于体验的内容。

就像信息技术以图像、视频的新媒体改变了传播逻辑一样，字节跳动这样的新巨头诞生了，进而展现了他们在电商和本地生活中的强大实力。AIGC、TTS、ASR等AI技术在音频行业的进步，也将为行业带来新的助力。

在传统的在线音频行业，内容结构和由此产生的内容成本是阻碍行业盈利的主要因素。

经过多年的发展，在线音频行业现已拥有稳定的内容生产体系。以喜马拉雅为例，“PGC+PUGC+UGC”的内容结构呈金字塔状构建。UGC作为金字塔的底部，是使用最多的细分，2021年其收听时长将占整个板块收听时长的45.3%。

图片：招股书中PGC喜马拉雅、PUGC、UGC的部分内容

但与此同时，喜马拉雅与内容创作者之间采用的收益分成方式，也直接拉动了喜马拉雅这些年的内容成本。例如，2020年和2021年，喜马拉雅在内容创作者中的份额分别为13亿和16亿，占总收入的31.9%和27.3%。

不过，在内容创作中引入人工智能技术后，这种情况有望得到改变。

首先，通过AI技术，创作者将提高内容制作的效率，因此内容的层次也会大幅提升。

以音频传输为例。新京报、环球时报、时代周刊等数十家主流媒体通过TTS发布了40多条AIGC在喜马拉雅地区的录音。它们每天发出大约500种声音。.

据介绍，喜马拉雅新闻的TTS目前每分钟可翻译约3000个单词，这是人类主播无法企及的壮举。♬清月古筝主播表示，惜云吟芳为她节省了录音成本，让她这次把音量调大了很多。

图片：AI电子书《厉少的重生小甜》听力27.4W

其次，平台也会在AIGC上产生大量的内容。目前，“单天放之声复刻”等喜马拉雅账号下使用单天放AI合成语音制作的专辑已超过100张，总播放量超过1亿。此外，喜马拉雅还与近平台和出版社合作，出版了近6万本电子书，然后通过TTS技术为这些电子书实时制作TTS音频。

今年7月，百度创始人李彦宏认为，“未来十年，AIGC将颠覆现有的内容生产模式。

它可以用十分之一的时间创造出第一篇AI内容”的价格和生产速度一百次和一千次”。

招股书显示，年至2021年，喜马拉雅股价从44.5%涨至54%。

需要注意的是，随着AIGC内容层级的不断扩大，音频板块的平均内容价格将大幅下降。此外，技术整合也将提高音频内容的质量。

在音频行业，除了少数专业团队，大部分内容创作者都是“一人兵”，一个人，一个话筒。这也是他们在创作内容时选择做单播工作的原因，这确实限制了音频内容的表现。

喜马拉雅喜云音方基于TTS技术开发的AIGC组播功能上线后，主播可以与AI配合，轻松将不同的声音适配不同的角色和情绪，让一个主播也能发挥多种功能。

”现在，惜云音坊已经拥有了公子音、玉洁音、石府音、马马音等多种声音，并赋予了这些角色多种多样的情感，可以自由表达悲伤、愤怒、厌恶、赞美等不同的转化故事中的人物。”《我在仙界淘废品》的主播“DJ老赵”说：“有了这个功能，我们可以快速实现单播到组播的转变。”

以前听书的时候听的是一个人的声音，而今天听一本书的时候是有好几个人物不同的声音，这使得内容更加激烈，更能吸引听众，并且可以做到更多的。雇主愿意为此付出代价。

数据显示，2020年喜马拉雅移动端每位活跃用户日均在线音频收听时长为117.4分钟，2021年这一数据将增长至144分钟。同时，到2021年，喜马拉雅的每月活跃付费会员将达到1440万，同比增长52%。

总的来说，AI技术不仅在塑造音频行业的生产方式，也在改变行业的商业逻辑。

作者利益披露：原创，不作为证券推荐或投资建议，截至发文时，作者不持有相关标的。

声明：文章观点来自网友，仅为作者个人研究意见，不代表韭研公社观点及立场，站内所有文章均不构成投资建议，请投资者注意风险，独立审慎决策。

中国出版

南方传媒

中国科传

长江传媒

昆仑万维

工分

2.37

投诉

复制链接

分享到微信

有用 2

打赏作者

无用

真知无价，用钱说话

0个人打赏

同时转发

只看楼主

热度排序