核心技术简介
孟子 GPT 大模型是基于团队自研技术研发的大规模语言模型,经历预训练,SFT 和对齐等步骤。可处理多语言、多模态数据,同时支持多种文本理解和文本生成任务,能快速满足不同领域、不同应用场景的需求。孟子模型基于 Transformer 架构,拥有十亿、百亿到千亿参数量,基于数十万亿字符的数据训练而成,包括海量的互联网网页、社区、新闻、图书、电子商务网站、金融网站以及其他来源的高质量语料训练而成。孟子是国内著名的大模型品牌,多次在中文大模型基准评测,例如 C-EVAL、SUPERCLUE 等取得优胜成绩。孟子大模型已于 2023 年底通过网信办生成式人工智能备案,并已正式面向公众开放服务。
除了 GPT 架构,澜舟也开发了基于 BERT、T5 等架构的模型,适用于信息抽取和机器翻译等技术中。
核心技术简介
孟子 GPT 大模型是基于团队自研技术研发的大规模语言模型,经历预训练,SFT 和对齐等步骤。可处理多语言、多模态数据,同时支持多种文本理解和文本生成任务,能快速满足不同领域、不同应用场景的需求。孟子模型基于 Transformer 架构,拥有十亿、百亿到千亿参数量,基于数十万亿字符的数据训练而成,包括海量的互联网网页、社区、新闻、图书、电子商务网站、金融网站以及其他来源的高质量语料训练而成。孟子是国内著名的大模型品牌,多次在中文大模型基准评测,例如 C-EVAL、SUPERCLUE 等取得优胜成绩。孟子大模型已于 2023 年底通过网信办生成式人工智能备案,并已正式面向公众开放服务。
除了 GPT 架构,澜舟也开发了基于 BERT、T5 等架构的模型,适用于信息抽取和机器翻译等技术中。
支持多种模型架构
轻量模型性能强化
基于知识图谱增强
基于语言学知识增强
小样本/零样本学习
基于检索增强
在金融知识图谱搭建、研报脱水、公告抽取等多个任务上获得了超过常规模型的表现
支持 BERT、GPT、T5 等架构,能够覆盖文本理解、文本生成等不同场景
支持图文双模态输入,能够更好地处理图文相关任务
支持对垂直领域进行快速定向优化,支持从 10M 到 1B 不同规模
*排名截止2023年8月
# | 0 | 1 | 2 | 3 | 4 |
---|---|---|---|---|---|
模型名称 | Mengzi | ChatGLM2 | InternLM-123B | GPT-4* | AiLMe-100B v2 |
发布机构 | 澜舟科技 | Tsinghua & Zhipi.AI | Shanghai AI Lab & Sense Time | OpenAI | APUS |
提交时间 | 2023/8/25 | 2023/6/25 | 2023/8/22 | 2023/5/15 | 2023/7/25 |
平均 | 71.5 | 71.1 | 68.8 | 68.7 | 67.7 |
平均(Hard) | 48.8 | 50 | 50 | 54.9 | 55.3 |
STEM | 62.3 | 64.4 | 63.5 | 67.1 | 65.4 |
社科文学 | 87.2 | 81.6 | 81.4 | 77.6 | 72.3 |
人文科学 | 76.8 | 73.7 | 72.7 | 64.5 | 71.2 |
其他 | 68.6 | 71.3 | 63 | 67.8 | 64 |
# | 模型名称 | 发布机构 | 提交时间 | 平均 | 平均(Hard) | STEM | 社科文学 | 人文科学 | 其他 |
---|---|---|---|---|---|---|---|---|---|
0 | Mengzi | 澜舟科技 | 2023/8/25 | 71.5 | 48.8 | 62.3 | 87.2 | 76.8 | 68.6 |
1 | ChatGLM2 | Tsinghua & Zhipi.AI | 2023/6/25 | 71.1 | 50 | 64.4 | 81.6 | 73.7 | 71.3 |
2 | InternLM-123B | Shanghai AI Lab & Sense Time | 2023/8/22 | 68.8 | 50 | 63.5 | 81.4 | 72.7 | 63 |
3 | GPT-4* | OpenAI | 2023/5/15 | 68.7 | 54.9 | 67.1 | 77.6 | 64.5 | 67.8 |
4 | AiLMe-100B v2 | APUS | 2023/7/25 | 67.7 | 55.3 | 65.4 | 72.3 | 71.2 | 64 |
*排名截至2021年7月30日
排名 | 1 | 2 | 3 | |
---|---|---|---|---|
模型 | 孟子 | Motian | BETRTSG | 人类水平 |
规模 | 十亿 | 十亿 | 百亿 | |
总分 | 82.90 | 82.15 | 81.80 | 86.68 |
AFQMC | 79.82 | 78.30 | 79.85 | 81.00 |
TNEWS | 64.68 | 57.42 | 57.42 | 71.00 |
IFLYTEK | 65.08 | 65.46 | 64.54 | 80.30 |
OCNLI | 81.87 | 84.97 | 85.93 | 90.30 |
WSC2020 | 96.55 | 94.83 | 95.17 | 98.00 |
CSL | 89.87 | 90.17 | 89.00 | 84.00 |
CMRC2018 | 82.25 | 85.30 | 83.80 | 92.40 |
CHID | 96.00 | 94.43 | 93.06 | 87.10 |
C3 | 89.98 | 88.49 | 87.44 | 96.00 |
排名 | 模型 | 规模 | 总分 | AFQMC | TNEWS | IFLYTEK | OCNLI | WSC2020 | CSL | CMRC2018 | CHID | C3 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | 孟子 | 十亿 | 82.90 | 79.82 | 64.68 | 65.08 | 81.87 | 96.55 | 89.87 | 82.25 | 96.00 | 89.98 |
2 | Motian | 十亿 | 82.15 | 78.30 | 57.42 | 65.46 | 84.97 | 94.83 | 90.17 | 85.30 | 94.43 | 88.49 |
3 | BETRTSG | 百亿 | 81.80 | 79.85 | 57.42 | 64.54 | 85.93 | 95.17 | 89.00 | 83.80 | 93.06 | 87.44 |
人类水平 | 86.68 | 81.00 | 71.00 | 80.30 | 90.30 | 98.00 | 84.00 | 92.40 | 87.10 | 96.00 |