揭秘Meta Llama3：技术与行业变革-韭研公社

登录注册

揭秘Meta Llama3：技术与行业变革

纪要专家

2024-04-24 10:16:04

1、Meta Llama3技术与行业变革

Meta Llama3模型在数据集、上下文长度和模型性能方面有显著提升。数据集从2PB提升至15TB，上下文长度从4K提升至8K，模型性能在多个测评机器测试中接近或超过其他先进模型。数据预处理中使用了多种过滤器，如底阀式过滤器、NSFW过滤器、重复数据删除过滤器和文本质量预测器，以提高数据质量。训练方法采用有监督学习、拒绝采样、PPO和GPO等先进技术，以及更大的token mizer和分组查询注意机制，提升了模型性能和计算效率。

模型架构上，尽管保持了传统的稠密型模型架构，但通过优化提升了训练和处理效率。对云计算厂商和开发者而言，Meta Llama3的开源将促进模型的升级迭代，加速技术的应用和行业赋能。数据集的质量和规模是提升模型性能的关键，未来可能存在数据穷尽问题，需要探索合成数据等解决方案。

2、投资与市场趋势

对于中小企业，选择使用开源模型或闭源商业模型将取决于成本、性能和适配需求。开源模型可能需要二次调优，而闭源模型可能提供更直接的解决方案。国内大模型的发展将关注超长上下文、外挂知识库（RAG）、多模态架构（MOE）等高级功能，以及基础功能的优化。Meta Llama3的算力消耗相对较低，主要得益于分组注意力机制和更高效的数据处理方法。

Q&A

Q：Meta Llama3模型在数据集和训练方法上有哪些优化？

A：Meta Llama3模型在数据集上从2PB提升至15TB，上下文从4K提升至8K，且数据集质量得到显著提升。在训练方法上，采用了有监督学习、拒绝采样、PPO（近端策略优化）和GPO（直接策略优化）等先进技术。此外，数据预处理过程中加入了数据过滤和过滤器优化，如底阀式过滤器、NSFW过滤器、重复数据删除过滤器和文本质量预测器，以确保数据的高质量。

Q：Meta Llama3模型在模型架构上有哪些创新？

A：Meta Llama3模型在模型架构上采用了更大的token mizer，提升至128K，以更精细地编码和理解外部信息。同时，引入了分组查询注意机制（DQAA group currier attention），类似于将学生分组，只批改组长作业的方式，显著降低了计算量。此外，尽管模型保持了传统的稠密型架构，但未来技术趋势可能会向MOE（混合专家模型）架构发展，尤其是对于大型模型。

Q：Meta Llama3模型的发布对云计算厂商和国内应用开发有何影响？

A：Meta Llama3模型的发布将推动云计算厂商快速部署该模型，如在阿里云、百度云等平台上，供开发者调用、训练和调优。同时，模型的开源将加速国内模型开发者的技术迭代，引入新的数据过滤器、训练方法等先进技术，提升模型性能。此外，模型的部署在特定芯片上显示出显著的性能提升，可能会对相关硬件厂商的股价产生影响。

Q：未来国产大模型的发展趋势是什么？是否会继续提升模型参数或转向提供更多优质数据集？

A：未来国产大模型的发展趋势可能会从单纯追求模型参数的增加转向提供更多优质数据集。Meta Llama3模型展示了即使在参数量不变的情况下，通过引入高质量数据集也能显著提升模型性能。因此，未来可能会更注重数据集的质量和先进的数据处理方法，同时，模型架构、训练方法和数据工程的创新也将是提升模型性能的关键。此外，对于不同规模的模型，可能会采取不同的技术架构，小模型可能继续使用传统的架构，而大模型可能会采用MOE架构。

Q：关于未来1到2年内优质数据集可能面临的数据穷尽问题，以及合成数据的需求，拉拉是否会遇到原始数据质量不高的问题？

A：拉拉在处理数据时运用了多种过滤器，因此对原始数据的质量要求并不高。随着互联网数据的增长受限，尤其是在国内，高质量数据的获取变得更加困难。目前，国内的数据获取能力相对较弱，无法使用海外数据进行训练。互联网上可获取的数据量和质量已接近瓶颈，特别是移动互联网中的数据，如微信公众号、百度百家等，这些数据通常不易获取。未来，高质量数据可能主要来自国家层面未开放的数据和企业内部数据。随着公共数据质量和数量达到瓶颈，国家层面的数据共享和移动互联网生态中的数据壁垒将成为关键因素，数据的价值和壁垒将随着模型发展而日益凸显。

Q：目前互联网数据的增长和质量状况如何，以及未来数据获取的挑战和潜在解决方案是什么？

A：目前，互联网上可获取的数据量和网页数量正变得越来越有限，数据质量也达到了瓶颈期。国内的数据获取能力相对较弱，无法使用海外数据进行训练。移动互联网中的数据，如微信公众号、百度百家等，通常不易获取，这些数据藏于移动互联网生态中，形成了数据壁垒。未来，高质量数据的获取将面临挑战，主要的潜在解决方案包括国家层面的数据共享和移动互联网生态中的数据开放。随着模型的发展，数据的价值和壁垒将变得尤为重要。

Q：国内企业在选择使用开源或闭源大模型时的偏好是什么？开源模型的能力与闭源商业模型相比如何？

A：国内企业在选择使用开源或闭源大模型时，需要考虑将海外模型适配到国内场景的复杂性，包括安全合规性、备案流程等。如果开源模型如400B参数模型开源，且在性能上接近或超越闭源模型，国内厂商可能会倾向于选择开源模型。但中文适配和调试工作仍需在国内产品中进行。成本和性价比是决定使用开源还是闭源模型的关键因素。大型企业可能会在线上部署时进行定价考量，而私有化部署可能需要对模型进行二次调优。

Q：中小企业在云平台上进行模型调优与直接购买成品相比，哪种方式更划算？

A：中小企业可以选择基于开源社区的衍生版本进行调优，这些版本可能针对特定领域进行了优化。社区将迅速推出多种中文版本，中小企业可以根据自己的领域选择合适的版本，并结合垂直数据进行调优。这种方式成本较低，且随着模型对算力要求的降低，部署成本也有所减少。如果企业没有部署环境，使用公有云也是一个可行的选择。

Q：国内大模型在未来的发展重点是什么？

A：国内大模型的发展重点将转向超长上下文处理能力，这将成为衡量模型先进性的一个重要指标。此外，外挂知识库（RAG）的集成将成为模型的新组件，有助于提高模型对新鲜知识和信息的处理能力。多模态架构（MO）将成为今年先进模型的主流方向，能够处理文本、音频、视频和图片等多种模态。国内头部公司的基础能力已经接近国际水平，但在高级功能如多模态处理上仍有差距，预计需要3到4个季度的时间来追赶。

Q：为什么Meta Llama3的算力消耗相对较低？

A：Meta Llama3的算力消耗较低主要是因为其采用了分组注意力机制，这种机制在计算过程中减少了75%的计算量。在训练过程中，传统模型需要计算整个序列，而Meta Llama3通过分组的方式，只计算组长的事件，从而大幅减少了计算量。此外，推理过程中，Meta Llama3也是通过捕捉有效的分组信息来进行推理，进一步减少了计算量。这种模型架构的引入，显著提升了训练效率。同时，MOE（Mixture of Experts）架构的使用，使得模型不是整体一起训练，而是分开训练，每个专家负责不同的内容，这也减少了对算力的需求。在数据预处理阶段，使用的是通用算力CPU或低端GPU，而不是大模型，因此对算力的消耗并不大。理论上，将分组注意力机制应用到MOE架构上，可以进一步提升推理效率。

Q：数据集的过滤对算力的消耗有多大？

A：数据集的过滤主要发生在数据预处理阶段，这一阶段并不会消耗大量的算力。数据预处理包括过渡数据过滤器、启发过滤器、遗存时数据删除方法和文本质量预测器等，这些操作使用的是通用算力CPU或加一些低端GPU，而不是大模型。因此，数据预处理对算力的需求并不像模型训练阶段那么多。

Q：如果将分组注意力机制结合到MOE架构中，是否会进一步提升推理效率？

A：理论上是的。Meta Llama3的分组注意力机制可以作为一种方法引用到MOE架构上，可能会产生一加一大于二的效果。模型架构的改变本身会提高处理效率，结合分组注意力机制可能会进一步提升模型性能。此外，如果将Meta Llama3的更大模型如128K tokenized作为组件引入到其他模型结构中，也有可能进一步提升性能。因此，分组注意力机制的引入为提升模型性能提供了一种新的方法，具体如何应用则取决于各个厂家的研究和实践。

$昆仑万维(SZ300418)$ $科大讯飞(SZ002230)$ $金山办公(SH688111)$

作者利益披露：原创，不作为证券推荐或投资建议，截至发文时，作者不持有相关标的。

声明：文章观点来自网友，仅为作者个人研究意见，不代表韭研公社观点及立场，站内所有文章均不构成投资建议，请投资者注意风险，独立审慎决策。

昆仑万维

科大讯飞

工分