OpenBMB:开源大模型工具链,降低AI开发门槛
OpenBMB (Open Lab for Big Model Base) is an open-source initiative aimed at building a comprehensive ecosystem for large-scale pre-trained language models. It provides a full suite of tools covering data processing, model training, fine-tuning, compression, and inference, significantly reducing the cost and technical barriers of working with billion-parameter models. The framework includes specialized tools like BMTrain for efficient training, BMCook for model compression, BMInf for low-cost inference, OpenPrompt for prompt learning, and OpenDelta for parameter-efficient fine-tuning. OpenBMB fosters a collaborative community to standardize and democratize large model development and application. (OpenBMB(大模型开源基础实验室)是一个旨在构建大规模预训练语言模型生态系统的开源项目。它提供了一套覆盖数据处理、模型训练、微调、压缩和推理全流程的工具链,显著降低了百亿参数模型的使用成本和技术门槛。该框架包含BMTrain(高效训练)、BMCook(模型压缩)、BMInf(低成本推理)、OpenPrompt(提示学习)和OpenDelta(参数高效微调)等专用工具。OpenBMB致力于通过开源社区协作,推动大模型的标准化、普及化和实用化。)
Introduction
The field of Artificial Intelligence is undergoing a paradigm shift driven by Large Language Models (LLMs). These models, with billions or even trillions of parameters, have demonstrated remarkable capabilities across a wide range of tasks. However, their development and deployment present significant challenges, including immense computational costs, complex training pipelines, and high barriers to entry for researchers and developers. In response to these challenges, the OpenBMB initiative was launched.
人工智能领域正在经历由大语言模型(LLMs)驱动的范式转变。这些拥有数十亿甚至数万亿参数的模型,在各种任务中展现出了卓越的能力。然而,它们的开发与部署也带来了巨大挑战,包括高昂的计算成本、复杂的训练流程以及研究人员和开发者面临的高门槛。为了应对这些挑战,OpenBMB 倡议应运而生。
OpenBMB, which stands for Open Lab for Big Model Base, is an ambitious open-source project dedicated to building a comprehensive ecosystem for large-scale pre-trained language models. Its core mission is to accelerate the training, fine-tuning, and inference of models with over ten billion parameters, thereby lowering the barrier to entry and fostering a collaborative global community. By providing standardized tools and protocols, OpenBMB aims to promote the standardization, popularization, and practical application of LLMs, ultimately making this powerful technology accessible to a broader audience.
OpenBMB,全称为 Open Lab for Big Model Base,是一个雄心勃勃的开源项目,致力于为大规模预训练语言模型构建一个全面的生态系统。其核心使命是加速百亿参数以上模型的训练、微调和推理,从而降低使用门槛并培育一个全球性的协作社区。通过提供标准化的工具和协议,OpenBMB 旨在推动大语言模型的标准化、普及化和实用化,最终使这项强大技术惠及更广泛的群体。
Official Resources:
- Website: https://www.openbmb.org
- GitHub: https://github.com/OpenBMB
官方资源:
- 官网: https://www.openbmb.org
- GitHub: https://github.com/OpenBMB
The OpenBMB Capability Framework
To achieve its goals in a structured manner, OpenBMB has designed a four-layer capability framework. This framework ensures a systematic approach to building an accessible, comprehensive, and standardized ecosystem for large-scale pre-trained models.
为了系统性地实现其目标,OpenBMB 设计了一个四层能力体系。该框架确保以系统化的方法,为大规模预训练模型构建一个易用、全面且标准化的生态系统。
1. Data Layer
This foundational layer focuses on constructing modules and tools for the automated collection, cleaning, and efficient storage of large-scale datasets. High-quality data is the fuel for training powerful LLMs, and this layer provides the necessary infrastructure to support model training.
这一基础层专注于构建用于大规模数据自动收集、自动清洗和高效存储的模块与工具。高质量的数据是训练强大语言模型的燃料,该层为支持模型训练提供了必要的基础设施。
2. Tool Layer
This is the core operational layer, targeting the four primary scenarios in the LLM lifecycle: model training, fine-tuning, inference, and application. OpenBMB develops and releases open-source toolkits for each stage, aiming to enhance efficiency and reduce both computational and human resource costs across the entire pipeline.
这是核心的操作层,针对大语言模型生命周期的四个主要场景:模型训练、微调、推理和应用。OpenBMB 为每个阶段开发和发布开源工具包,旨在提高全流程效率,降低计算和人力成本。
3. Model Layer
This layer involves building an open-source repository of large models that are compatible with OpenBMB tools. It includes both general-purpose models (e.g., BERT, GPT, T5) and specialized open-source models like CPM, EVA, and GLM from the "WuDao" project. The repository is continuously expanded to offer comprehensive model capabilities.
该层涉及构建与 OpenBMB 工具兼容的大模型开源仓库。它包括通用模型(如 BERT、GPT、T5)和来自“悟道”项目的专业开源模型(如 CPM、EVA、GLM)。该仓库不断扩展,以提供全面的模型能力。
4. Protocol Layer
To ensure proper governance and protection within the open-source community, this layer involves publishing a universal model license agreement. This protocol standardizes the rights and obligations of both publishers and users during the model release and usage process. A draft of this license has already been open-sourced.
为了确保开源社区内的合理治理和保护,该层涉及发布通用模型许可协议。该协议规范了模型发布和使用过程中发布者与使用者的权利和义务。该协议的初稿已经开源。
Core Toolchain: Powering the LLM Workflow
The tools within the OpenBMB framework are designed to work cohesively, covering the end-to-end process of developing and deploying LLMs. They form the practical backbone of the initiative.
OpenBMB 体系内的工具设计为协同工作,覆盖了开发和部署大语言模型的端到端流程。它们构成了该倡议的实践支柱。
Model Training Suite
BMData: The Data "Ingredient" Collector
BMData handles high-quality data cleaning, processing, and storage, providing comprehensive and integrated data support for large model training.BMData 负责高质量数据清洗、处理与存储,为大模型训练提供全面、综合的数据支持。
BMTrain大模型训练“发动机”。一个用于高效进行大模型预训练与微调的工具。其核心优势在于显著降低训练成本,据称相比DeepSpeed等框架可节省90%成本。: The Training "Engine"
BMTrain大模型训练“发动机”。一个用于高效进行大模型预训练与微调的工具。其核心优势在于显著降低训练成本,据称相比DeepSpeed等框架可节省90%成本。 enables efficient large-scale model pre-training and fine-tuning. Compared to frameworks like DeepSpeed, BMTrain大模型训练“发动机”。一个用于高效进行大模型预训练与微调的工具。其核心优势在于显著降低训练成本,据称相比DeepSpeed等框架可节省90%成本。 can reduce training costs by up to 90%.BMTrain大模型训练“发动机”。一个用于高效进行大模型预训练与微调的工具。其核心优势在于显著降低训练成本,据称相比DeepSpeed等框架可节省90%成本。 实现高效的大模型预训练与微调。与 DeepSpeed 等框架相比,BMTrain大模型训练“发动机”。一个用于高效进行大模型预训练与微调的工具。其核心优势在于显著降低训练成本,据称相比DeepSpeed等框架可节省90%成本。 训练模型成本可节省高达 90%。
BMCook大模型“瘦身”工具库。一个专注于大模型高效压缩的工具,通过整合量化、剪枝、知识蒸馏、专家化(MoE)等多种算法,在最大限度保持模型性能(如90%+)的同时,大幅提升推理速度(如加速10倍)。: The Model "Slimming" Toolkit
BMCook大模型“瘦身”工具库。一个专注于大模型高效压缩的工具,通过整合量化、剪枝、知识蒸馏、专家化(MoE)等多种算法,在最大限度保持模型性能(如90%+)的同时,大幅提升推理速度(如加速10倍)。 performs efficient model compression to improve operational efficiency. Through a combination of algorithms like quantization, pruning, distillation, and expertization, it can maintain over 90% of the original model's performance while accelerating inference by up to 10x.BMCook大模型“瘦身”工具库。一个专注于大模型高效压缩的工具,通过整合量化、剪枝、知识蒸馏、专家化(MoE)等多种算法,在最大限度保持模型性能(如90%+)的同时,大幅提升推理速度(如加速10倍)。 进行大模型高效压缩以提升运行效率。通过量化、剪枝、蒸馏、专家化等算法组合,可保持原模型 90% 以上的效果,同时实现高达 10 倍的推理加速。
Model Fine-tuning Suite
OpenPrompt大模型提示学习利器。一个提供统一接口的提示学习(Prompt Learning)模板语言的工具包。它具有高度的组合性和模块化设计,方便开发者快速部署和应用各种提示学习方法。: The Prompt Learning Powerhouse
OpenPrompt大模型提示学习利器。一个提供统一接口的提示学习(Prompt Learning)模板语言的工具包。它具有高度的组合性和模块化设计,方便开发者快速部署和应用各种提示学习方法。 provides a unified-interface template language for prompt learning. Since its release in 2021, it has garnered over 1.3k stars on GitHub and receives 10K+ weekly visits.OpenPrompt大模型提示学习利器。一个提供统一接口的提示学习(Prompt Learning)模板语言的工具包。它具有高度的组合性和模块化设计,方便开发者快速部署和应用各种提示学习方法。 提供统一接口的提示学习模板语言。自 2021 年发布以来,已在 GitHub 上获得超过 1.3k 星标,每周访问量超过 10K。
OpenDeltaOpenBMB工具库中的组件,支持研究者在各类预训练模型中实现增量微调方法。: Moving the "Big" Model with "Small" Parameters
OpenDeltaOpenBMB工具库中的组件,支持研究者在各类预训练模型中实现增量微调方法。 enables parameter-efficient fine-tuning of large models. It achieves performance comparable to full-parameter fine-tuning by updating only a minimal number of parameters (less than 5%).OpenDeltaOpenBMB工具库中的组件,支持研究者在各类预训练模型中实现增量微调方法。 实现参数高效的大模型微调。仅更新极少参数(小于 5%)即可达到全参数微调的效果。
Delta CenterDelta Object分享中心。OpenBMB社区内的一个平台,提供Delta Object(即通过OpenDelta等工具微调产生的参数增量)的上传、分享、检索和下载功能,鼓励开发者共享微调成果。: A Sharing Hub for Delta Objects
Delta CenterDelta Object分享中心。OpenBMB社区内的一个平台,提供Delta Object(即通过OpenDelta等工具微调产生的参数增量)的上传、分享、检索和下载功能,鼓励开发者共享微调成果。 provides functionalities for uploading, sharing, searching, and downloading Delta Objects, encouraging community developers to share and leverage fine-tuned model capabilities.Delta CenterDelta Object分享中心。OpenBMB社区内的一个平台,提供Delta Object(即通过OpenDelta等工具微调产生的参数增量)的上传、分享、检索和下载功能,鼓励开发者共享微调成果。 提供 Delta Object 的上传、分享、检索、下载功能,鼓励社区开发者共享微调后的模型能力。
Model Inference Suite
- BMInf大模型推理套件。一个实现大模型低成本、高效推理计算的工具。其突出特点是支持在消费级硬件(如单块GTX 1060显卡)上运行百亿参数级别的大模型进行推理。: Large Model Inference on Consumer-Grade GPUs
BMInf大模型推理套件。一个实现大模型低成本、高效推理计算的工具。其突出特点是支持在消费级硬件(如单块GTX 1060显卡)上运行百亿参数级别的大模型进行推理。 enables low-cost, high-efficiency inference computation for large models. It allows running inference on models with tens of billions of parameters using a single, affordable consumer-grade GPU (e.g., GTX 1060). It has received 200+ stars on GitHub since its 2021 release.BMInf大模型推理套件。一个实现大模型低成本、高效推理计算的工具。其突出特点是支持在消费级硬件(如单块GTX 1060显卡)上运行百亿参数级别的大模型进行推理。 实现大模型低成本高效推理计算。使用单块千元级消费显卡(如 GTX 1060)即可进行百亿参数大模型推理。自 2021 年发布以来,已在 GitHub 上获得 200+ 星标。
Tools like BMInf大模型推理套件。一个实现大模型低成本、高效推理计算的工具。其突出特点是支持在消费级硬件(如单块GTX 1060显卡)上运行百亿参数级别的大模型进行推理。, OpenPrompt大模型提示学习利器。一个提供统一接口的提示学习(Prompt Learning)模板语言的工具包。它具有高度的组合性和模块化设计,方便开发者快速部署和应用各种提示学习方法。, and OpenDeltaOpenBMB工具库中的组件,支持研究者在各类预训练模型中实现增量微调方法。 have already been released and gained significant traction within the open-source community. OpenBMB continues to develop and release additional tools like BMTrain大模型训练“发动机”。一个用于高效进行大模型预训练与微调的工具。其核心优势在于显著降低训练成本,据称相比DeepSpeed等框架可节省90%成本。, BMCook大模型“瘦身”工具库。一个专注于大模型高效压缩的工具,通过整合量化、剪枝、知识蒸馏、专家化(MoE)等多种算法,在最大限度保持模型性能(如90%+)的同时,大幅提升推理速度(如加速10倍)。, and the Model Center to complete the efficient computing toolchain.
BMInf大模型推理套件。一个实现大模型低成本、高效推理计算的工具。其突出特点是支持在消费级硬件(如单块GTX 1060显卡)上运行百亿参数级别的大模型进行推理。、OpenPrompt大模型提示学习利器。一个提供统一接口的提示学习(Prompt Learning)模板语言的工具包。它具有高度的组合性和模块化设计,方便开发者快速部署和应用各种提示学习方法。 和 OpenDeltaOpenBMB工具库中的组件,支持研究者在各类预训练模型中实现增量微调方法。 等工具已经发布,并在开源社区内获得了广泛关注和应用。OpenBMB 持续开发和发布 BMTrain大模型训练“发动机”。一个用于高效进行大模型预训练与微调的工具。其核心优势在于显著降低训练成本,据称相比DeepSpeed等框架可节省90%成本。、BMCook大模型“瘦身”工具库。一个专注于大模型高效压缩的工具,通过整合量化、剪枝、知识蒸馏、专家化(MoE)等多种算法,在最大限度保持模型性能(如90%+)的同时,大幅提升推理速度(如加速10倍)。 及 Model Center 等更多工具,以完善高效计算工具链。
The Driving Force: The OpenBMB Team
The OpenBMB open-source community is jointly initiated and supported by the Natural Language Processing Laboratory at Tsinghua University and the Language Model Acceleration Technology Innovation Center of the Beijing Academy of Artificial Intelligence (BAAI).
OpenBMB 开源社区由清华大学自然语言处理实验室和智源研究院语言大模型加速技术创新中心共同支持发起。
The founding team possesses deep expertise in Natural Language Processing and pre-trained model research. Their notable achievements include:
- Pioneering the knowledge-guided pre-trained model ERNIE知识增强的预训练语言模型。由OpenBMB发起团队最早提出,通过融入知识图谱等结构化知识来指导预训练,是融合知识的预训练语言模型的代表方法之一。 (presented at ACL 2019, cited over 600 times).
- Leading the development of the "WuDao · WenYuan" Chinese large-scale pre-trained models CPM-1 and CPM-2, with parameters scaling up to 198 billion.
- Publishing dozens of high-impact papers at top-tier conferences on model pre-training, prompt learning, and model compression.
- Having extensive open-source experience, having released influential toolkits like OpenKE and OpenNRE, collectively amassing over 58,000 GitHub stars.
发起团队在自然语言处理和预训练模型研究方面拥有深厚基础。其显著成就包括:
- 最早提出知识指导的预训练模型 ERNIE知识增强的预训练语言模型。由OpenBMB发起团队最早提出,通过融入知识图谱等结构化知识来指导预训练,是融合知识的预训练语言模型的代表方法之一。(发表于 ACL 2019,被引超过 600 次)。
- 主导研发“悟道·文源”中文大规模预训练语言模型 CPM-1 和 CPM-2,参数量最高达 1980 亿。
- 在模型预训练、提示学习、模型压缩等方向的顶级国际会议上发表数十篇高水平论文。
- 拥有丰富的自然语言处理技术开源经验,发布了 OpenKE、OpenNRE 等一系列有世界影响力的工具包,在 GitHub 上累计获得超过 5.8 万星标。
Key Initiators:
- Maosong Sun: Professor at Tsinghua University, Chief Scientist for NLP at BAAI.
- Zhiyuan Liu: Associate Professor at Tsinghua University, BAAI Young Scientist.
- Xu Han: Ph.D. candidate at Tsinghua University, core member of the WuDao team.
- Guoyang Zeng: Graduate of Tsinghua University, Deputy Director at BAAI's Language Model Acceleration Center.
- Ning Ding: Ph.D. candidate at Tsinghua University, core developer of OpenPrompt大模型提示学习利器。一个提供统一接口的提示学习(Prompt Learning)模板语言的工具包。它具有高度的组合性和模块化设计,方便开发者快速部署和应用各种提示学习方法。 & OpenDeltaOpenBMB工具库中的组件,支持研究者在各类预训练模型中实现增量微调方法。.
- Zhengyan Zhang: Ph.D. candidate at Tsinghua University, core member of the WuDao team.
主要发起人:
- 孙茂松: 清华大学教授,智源研究院自然语言处理方向首席科学家。
- 刘知远: 清华大学副教授,智源青年科学家。
- 韩旭: 清华大学博士生,悟道模型团队骨干成员。
- 曾国洋: 清华大学毕业生,智源研究院语言大模型加速技术创新中心副主任。
- 丁宁: 清华大学博士生,OpenPrompt大模型提示学习利器。一个提供统一接口的提示学习(Prompt Learning)模板语言的工具包。它具有高度的组合性和模块化设计,方便开发者快速部署和应用各种提示学习方法。 与 OpenDeltaOpenBMB工具库中的组件,支持研究者在各类预训练模型中实现增量微调方法。 核心开发者。
- 张正彦: 清华大学博士生,悟道模型团队骨干成员。
Conclusion and Call for Collaboration
Whether you are a researcher working on cutting-edge LLMs, a developer building applications, or simply an enthusiast fascinated by the technology, OpenBMB welcomes you to explore and utilize its open-source tools and model library. Every piece of feedback and contribution helps steer the project forward.
无论您是从事前沿大模型研究的研究人员、构建应用的开发者,还是单纯对此技术充满热情的爱好者,OpenBMB 都欢迎您探索和使用其开源工具与模型库。每一份反馈和贡献都将指引我们前进的方向。
The OpenBMB community values simplicity, pursues excellence, and believes in the power of data and models. We invite like-minded individuals to join us in contributing to the practical application and widespread adoption of large language models, working towards the day when this transformative technology truly becomes accessible to all.
OpenBMB 社区推崇简洁,追求极致,并相信数据与模型的力量。我们邀请志同道合者加入,共同为大模型的应用落地添砖加瓦,携手努力,让这项变革性技术早日飞入千家万户。
Article reproduced from: https://mp.weixin.qq.com/s/jRi4sodNZqgDWTaDYSEWZw
版权与免责声明:本文仅用于信息分享与交流,不构成任何形式的法律、投资、医疗或其他专业建议,也不构成对任何结果的承诺或保证。
文中提及的商标、品牌、Logo、产品名称及相关图片/素材,其权利归各自合法权利人所有。本站内容可能基于公开资料整理,亦可能使用 AI 辅助生成或润色;我们尽力确保准确与合规,但不保证完整性、时效性与适用性,请读者自行甄别并以官方信息为准。
若本文内容或素材涉嫌侵权、隐私不当或存在错误,请相关权利人/当事人联系本站,我们将及时核实并采取删除、修正或下架等处理措施。 也请勿在评论或联系信息中提交身份证号、手机号、住址等个人敏感信息。