OpenAI新上线chatGPT太强了,服务器瞬间挤爆,马斯克都来评论:你们太沉迷了!
OpenAI 的 ChatGPT 使用与 InstructGPT 相同的方法——用人类反馈强化学习 (RLHF) 训练模型,但数据收集设置略有不同。ChatGPT 使用监督微调训练了一个初始模型:人类 AI 训练员提供对话,他们在对话中扮演双方——用户和 AI 助手,AI 训练员可以访问模型编写的对话回复,以帮助 AI 调整回复内容。
为了创建强化学习的奖励模型,该研究需要收集比较数据,其中包含两个或多个按质量排序的模型回复。该研究收集了 AI 训练员与聊天机器人的对话,并随机选择一条模型编写的消息,抽取几个备选回复,让 AI 训练员对这些回复进行排名。此外,该研究还使用近端策略优化算法(PPO)微调模型,并对整个过程进行了几次迭代。
ChatGPT 对 GPT-3.5 系列中的某个模型进行了微调,该模型于 2022 年初完成训练。ChatGPT 和 GPT 3.5 在 Azure AI 超级计算基础设施上进行了训练。
总体的用户体验就是:能直接生成代码、会自动修复bug、在线问诊、模仿莎士比亚风格写作……各种话题都能hold住,它就是OpenAI刚刚推出的——ChatGPT。
总而言之,我自己的理解,OpenAI的ChatGPT 就是更高级的AI对话系统,超越以往营销,医疗,金融等单一应用方向,模型能力更强更鲁棒。
=================================================================
汉王科技 (SZ:002362): 公司是人工智能领域的先行者,是数字产业化的参与方,利用业内领先的文本图像识别、自然语言处理、生物特征识别、智能视频分析、智能人机交互核心底层技术为行业客户的数字化、智能化提供数据要素,我们也会积极关注人工智能、数字经济等领域内的新机会,以期更好的满足新生场景及领域的需求。
天源迪科 (SZ:300047):智能语音对话机器人分为开放领域对话系统和任务型对话系统两大类,我们目前研发的是智能任务型对话系统,面向特定任务,比如银行电话客服,属于特定任务的人机交互,还不满足开放域的人机对话需求,比如人形机器人对话。