核心技术-孟子 GPT 大语言模型 | 澜舟科技-业界领先的认知智能公司

孟子 GPT 大语言模型

核心技术简介

孟子 GPT 大模型是基于团队自研技术研发的大规模语言模型，经历预训练，SFT 和对齐等步骤。可处理多语言、多模态数据，同时支持多种文本理解和文本生成任务，能快速满足不同领域、不同应用场景的需求。孟子模型基于 Transformer 架构，拥有十亿、百亿到千亿参数量，基于数十万亿字符的数据训练而成，包括海量的互联网网页、社区、新闻、图书、电子商务网站、金融网站以及其他来源的高质量语料训练而成。孟子是国内著名的大模型品牌，多次在中文大模型基准评测，例如 C-EVAL、SUPERCLUE 等取得优胜成绩。孟子大模型已于 2023 年底通过网信办生成式人工智能备案，并已正式面向公众开放服务。

除了 GPT 架构，澜舟也开发了基于 BERT、T5 等架构的模型，适用于信息抽取和机器翻译等技术中。

孟子 GPT 大语言模型

核心技术简介

除了 GPT 架构，澜舟也开发了基于 BERT、T5 等架构的模型，适用于信息抽取和机器翻译等技术中。

技术方案

支持多种模型架构

自回归模型：如 GPT
自编码模型：如 BERT
Encoder-Decoder 模型：T5

轻量模型性能强化

多预训练任务融合
SMART 对抗训练
知识蒸馏

基于知识图谱增强

基于实体抽取的增强
知识图谱增强（isa 关系）
知识图谱转文字

基于语言学知识增强

成分句法融合增强的 Mask 机制
语义角色 Embedding 融合增强
依存关系的注意力权重约束剪枝

小样本/零样本学习

Prompts 模板构造
多任务学习技术
覆盖常见信息抽取场景，开箱即用

基于检索增强

知识解耦
可解释性强
外部知识组件实时更新

技术优势

在金融知识图谱搭建、研报脱水、公告抽取等多个任务上获得了超过常规模型的表现

支持 BERT、GPT、T5 等架构，能够覆盖文本理解、文本生成等不同场景

支持图文双模态输入，能够更好地处理图文相关任务

支持对垂直领域进行快速定向优化，支持从 10M 到 1B 不同规模

C-Eval 排行榜

*排名截止2023年8月

#	0	1	2	3	4
模型名称	Mengzi	ChatGLM2	InternLM-123B	GPT-4*	AiLMe-100B v2
发布机构	澜舟科技	Tsinghua & Zhipi.AI	Shanghai AI Lab & Sense Time	OpenAI	APUS
提交时间	2023/8/25	2023/6/25	2023/8/22	2023/5/15	2023/7/25
平均	71.5	71.1	68.8	68.7	67.7
平均(Hard)	48.8	50	50	54.9	55.3
STEM	62.3	64.4	63.5	67.1	65.4
社科文学	87.2	81.6	81.4	77.6	72.3
人文科学	76.8	73.7	72.7	64.5	71.2
其他	68.6	71.3	63	67.8	64

#	模型名称	发布机构	提交时间	平均	平均(Hard)	STEM	社科文学	人文科学	其他
0	Mengzi	澜舟科技	2023/8/25	71.5	48.8	62.3	87.2	76.8	68.6
1	ChatGLM2	Tsinghua & Zhipi.AI	2023/6/25	71.1	50	64.4	81.6	73.7	71.3
2	InternLM-123B	Shanghai AI Lab & Sense Time	2023/8/22	68.8	50	63.5	81.4	72.7	63
3	GPT-4*	OpenAI	2023/5/15	68.7	54.9	67.1	77.6	64.5	67.8
4	AiLMe-100B v2	APUS	2023/7/25	67.7	55.3	65.4	72.3	71.2	64

CLUE 排行榜

*排名截至2021年7月30日

排名	1	2	3
模型	孟子	Motian	BETRTSG	人类水平
规模	十亿	十亿	百亿
总分	82.90	82.15	81.80	86.68
AFQMC	79.82	78.30	79.85	81.00
TNEWS	64.68	57.42	57.42	71.00
IFLYTEK	65.08	65.46	64.54	80.30
OCNLI	81.87	84.97	85.93	90.30
WSC2020	96.55	94.83	95.17	98.00
CSL	89.87	90.17	89.00	84.00
CMRC2018	82.25	85.30	83.80	92.40
CHID	96.00	94.43	93.06	87.10
C3	89.98	88.49	87.44	96.00

排名	模型	规模	总分	AFQMC	TNEWS	IFLYTEK	OCNLI	WSC2020	CSL	CMRC2018	CHID	C3
1	孟子	十亿	82.90	79.82	64.68	65.08	81.87	96.55	89.87	82.25	96.00	89.98
2	Motian	十亿	82.15	78.30	57.42	65.46	84.97	94.83	90.17	85.30	94.43	88.49
3	BETRTSG	百亿	81.80	79.85	57.42	64.54	85.93	95.17	89.00	83.80	93.06	87.44
	人类水平		86.68	81.00	71.00	80.30	90.30	98.00	84.00	92.40	87.10	96.00