登录注册
AI解决方案专家交流
修仙小锦鲤
航行五百年的公社达人
2023-04-21 06:15:15

ChatGPT引爆全世界:进一步应用,偏创意场景,例如图片场景生成等。100w用户耗时五天,到1亿用户耗时两个月,科技界认为ChatGPTAIiPhone时刻,模型发展较大后形成量变到质变,推理、逻辑能力有较高增长。ChatGPT发布后国内互联网、科技大公司开始建立自己的AI大模型。

ChatGPT引领第四次产业革命:OpenAI产品能很好实现人际交流,影响范围涵盖普通大众日常工作及生活

工作过程:以用户的输入及之前的对话作为context,向后续写文本,每次输出1token1token≈0.75word)。有人分析国内数据质量较差,无法反馈较好的数据,数据重要性固然较高,但发展到今天,数据依然重要但算法和技术能力是更重要的。ChatGPT工作原理为例,一开始有预训练阶段,此后经历有监督学习(人工生成高质量问题和答案)、评价模型(部分需要数据,不同人回答及打分)、强化学习(让模型学会大概如何评价,再有问题和答案时有网络进行自动评价)、上下文处理等。预训练阶段会输入很多数据,300 billion tokens,预测下一个token然后迭代学习。主要能力浓缩在transformer网络结构(12-16层),富含了海量参数,包含矩阵乘法、指数运算等。

GPT-3效果:在数据量合适及算法能力能使数据运用的情况下越大的模型效果越好。GPT-3对比版本有很多,训练过程及数据量一样,效果对比方面175B的模型问答表现明显高于其他。

 

推理成本:AWS 1000token/次,A100

推理成本=2*参数量FLOPS/token*token生产数量*$/flop(峰值性能下)/实际flop利用率

10000 V100 GPU耗时14.8天,inhouse训练一次74w美元(没考虑其他成本)

自建 $74w

AWS $12M

 

搜索推荐领域收益:

Bing已引入ChatGPT

Google每秒请求量很大,每年需要35B cost,当前不会启用

 

底层软硬件需求:

ChatGPT大概需要3640 PF days1750亿参数,占用45TB数据量,datacenter 1200w/次,此外需要多卡互联集群能力、通讯能力,智能革命最底层的支撑是大的算力系统,且算力为通用的,通用编程框架也很重要。

 

大模型还在持续迭代,每年参数的提升量在10-20倍。

在模型迭代情况下,目前英伟达领军发布的产品(V100-A100-H100)架构升级,H100引入了新的技术能力,此外,卡间互联能力也持续增长。

作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
景嘉微
工分
3.55
转发
收藏
投诉
复制链接
分享到微信
有用 0
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
暂无数据