登录注册
OpenAI将推出新的语音和图像功能,已接入chatgpt的标的受益
牛🐮🐮🐮
2023-09-26 10:51:33

OpenAI:将在ChatGPT推出新的语音和图像功能

OpenAI宣布,将在ChatGPT推出新的语音和图像功能,新功能将于未来两周内面向Plus和企业用户推出。据介绍,新功能允许用户进行语音对话或向ChatGPT展示其正在谈论的内容。语音功能将在iOS和Android平台推出,图像功能将覆盖所有平台。

语音输入功能类似于手机上的语音助手,用户只需按下一个按钮,说出自己的问题,ChatGPT 就会将其转换为文本,然后生成答案,再将答案转换为语音,播放给用户。

OpenAI 表示,这样的交互方式更加自然和便捷,而且由于 LLM 的技术优势,答案的质量也会更高。OpenAI 还开发了一种新的文本转语音模型,可以根据几秒钟的样本语音,生成与之相似的人声。用户可以从五种选项中选择 ChatGPT 的声音,而且这种模型还有更多的潜在用途。例如,OpenAI正在与Spotify合作,将播客翻译成其他语言,同时保留播客主持人的声音。

不过,这种模型也存在一些风险,比如可能被恶意利用来冒充公众人物或进行诈骗。因此,OpenAI 表示,这种模型不会被广泛开放,而是会受到严格的控制和限制。

图像输入功能则类似于 Google Lens,用户可以拍摄自己感兴趣的事物,并上传到 ChatGPT 中。ChatGPT会尝试识别用户想要询问的内容,并给出相应的回答。用户还可以用应用中的绘图工具来帮助表达自己的问题,或者配合语音或文本输入来进行交流。

ChatGPT 的优势在于它可以进行多轮对话,而不是一次性搜索。如果用户对答案不满意或想要更多信息,可以继续向 ChatGPT 提问,从而得到更准确和全面的答案。当然,图像搜索也有一些潜在问题。例如,在处理人物图片时,OpenAI 表示他们限制了 ChatGPT 对人物进行分析和直接评价的能力,既为了保证准确性,也为了保护隐私,这意味着上传一个人的照片就能知道他 / 她是谁还无法实现。

OpenAI还放出了一段视频,是和ChatGPT商量着修自行车,不断问 ChatGPT:这里是扳手吗?是调整这里吗?甚至还把说明书拍照发给ChatGPT求解释。

国盛证券分析称,Chatgpt即将开放图生文及语音对话功能,AI技术持续迭代再翻新一页

根据OpenAI官网信息,ChatGPT即将在两周内对plus用户与企业用户开放一系列新功能,包括图像读取与理解(即图生文),以及语音对话能力。其中,与Chatgpt语音对话的能力仅对ios及安卓客户端开放,而图生文能力对全平台开放。

语音对话能力使得用户可以更直接灵活地与ChatGPT互动,增强客户体验的便捷性。用户可以通过语音直接对Chatgpt对话,而chatgpt也可以直接以语音的方式回复用户,使用一种新的文生语音模型,其中可选的五种声音由chatgpt向配音演员特别定制而来。

图生文能力使得chatgpt可以读懂图片,拥有更广阔的应用方向。图像读取理解能力的背后,由gpt3.5或gpt4多模态模型支持。客户可以上传一张或者多张图片给系统,甚至可以用画笔标注重点内容,让系统读取理解,可以用于辅导学生作业、搜索日常食谱等各个方向。图生文能力的推出使得AI技术的应用领域更大拓展,有利于AI在千行百业快速落地。

作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
焦点科技
S
中文在线
S
万兴科技
工分
0.70
转发
收藏
投诉
复制链接
分享到微信
有用 2
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(1)
只看楼主
热度排序
最新发布
最新互动
  • 1
前往