澜舟科技为有兴趣入门 NLP 技术的开发者提供各种学习资源指引
10月24日,澜舟科技开源发布了轻量级中文预训练语言模型——孟子模型,共包含4个模型:BERT-style的语言理解模型、T5-style文本生成模型、金融分析模型和多模态预训练模型,分别适用于多种常见的应用场景。相比于市面上已有的中文预训练模型,孟子模型具有轻量化和易部署的特点,性能上超越同等规模甚至更大规模的模型。此外,孟子模型采用通用接口、功能齐全、覆盖任务广,不仅可用于常规的语言理解和生成任务,亦可应用于金融垂直领域和多模态场景中。本文将对孟子模型的研究架构和技术原理进行解读,力图让用户更好地了解和使用孟子模型,并期待共同参与到孟子模型的建设之中。
近年来,以ELMO和BERT为代表的大规模预训练技术快速推动了自然语言处理的发展,成为了自然语言处理的新范式。一系列预训练策略、模型结构改进、训练效率优化技术被提出,从而提升模型训练效率和性能。然而模型参数量与训练所需的数据量的爆炸性增长导致训练价格显著增长。在实际任务应用中,巨型模型面临与下游任务不能灵活适配、实施代价大等问题。此外,已有的研究通常关注英文,而中文相关的研究甚少。面向对文本理解,文本生成,以及垂直领域和多模态场景下的应用需求,如何在有限的时间和资源条件下,构建性能强劲的中文模型是一项重要挑战。
为更好地推动中文信息处理,促进自然语言处理技术在更广泛实际场景中的应用,澜舟科技致力于研发轻量化预训练模型,以及建立在其上的先进的机器翻译、文本生成和行业搜索引擎,覆盖文本理解(BERT-Style)、文本生成(T5-Style)、金融分析、多模态分析等常用领域,并通过开源、SaaS和订制等方式赋能行业客户,有利于快速、低成本地落地现实业务场景。
接下来,我们将分别解读四个模型所应用的核心技术。
孟子语言模型作为语言编码的核心组件,不仅可独立应用于语言理解,也是其他三个模型的基石—作为核心的语言编码模块。为确保通用性并方便应用于下游系统,孟子模型与BERT 保持一致的模型结构,侧重于预训练目标和训练策略上的改进,研究更精巧、更有效、更鲁棒的预训练模型[1]。相较于其他中文预训练模型,孟子模型使用针对中文优化的切分器,可包含更多的中文词汇,处理更长的文本,更少地使用显存,并具有更快的推理速度。数据上,精选高质量、书面风格的语料用于训练,可用于文本分类、实体识别、关系抽取、阅读理解等任务。在CLUE评测上,孟子语言理解模型相比开源的RoBERTa模型体现出了明显的优势。
当前各类中文开源模型多面向通用领域,在包含金融在内的垂直领域缺乏相应的开源模型。为应对相应的需求,我们基于孟子语言模型模型和参数,在金融语料上继续训练,语料覆盖金融新闻,公告和研报等,可用于金融新闻分类、研报情感分析等任务。在金融领域任务上,相比于开源的RoBERTa基准模型,孟子金融模型取得了明显的性能提升。
基于T5采用的Encoder-Decoder架构,在以孟子语言理解模型作为编码器以外,增加同等规模的解码器结构,训练方式上沿用T5的去噪策略,具备良好的训练效率。相比于BERT和GPT模型,孟子文本生成模型能更好地服务于可控文本生成需求,可应用于文案生成、新闻生成和研报生成等。
由于适用于中文的开源多模态模型稀缺,为应对多模态领域的现实应用需求,我们研发了孟子多模态模型。孟子多模态模型采用Oscar多模态架构,基于图文对齐数据训练,语言编码模块使用孟子语言理解模型和参数,可应用于图片描述、图文互检等任务。
澜舟科技拥抱开源文本,期待跟社区一起成长。首次发布的模型发布均为base的alpha版本,对于不完善的地方欢迎反馈!除本文提到的技术细节以外,还有许多正在深入研究的前沿技术。经严谨评测稳定版本后,我们将会进一步开源发布最新成果。
孟子模型发布后,我们收到了许多反馈。为更好地回馈社区,我们在GitHub整理了常见问题的FAQ,并将不断更新,欢迎保持持续关注和反馈建议!
参考文献:
[1] Zhuosheng Zhang, Hanqing Zhang, Keming Chen, Yuhang Guo, Jingyun Hua, Yulong Wang, Ming Zhou. 2021. Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese.
[2] Michael Polanyi. 1958. Personal Knowledge: Towards a Post-Critical Philosophy.
[3] Xiaodong Liu, Yelong Shen, Kevin Duh, Jianfeng Gao. 2018. Stochastic Answer Networks for Machine Reading Comprehension. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1694–1704.
[4] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, MikeLewis, Luke Zettlemoyer, and Veselin Stoyanov. 2019. RoBERTa: A robustly optimized BERT pre-training approach. arXiv preprint arXiv:1907.11692.
[5] Anna Rogers, Olga Kovaleva, and Anna Rumshisky. 2020. A primer in bertology: What we know about how BERT works. Transactions of the Association for Computational Linguistics, 8:842–866.
[6] Zhuosheng Zhang, Yuwei Wu, Hai Zhao, Zuchao Li, Shuailiang Zhang, Xi Zhou, and Xiang Zhou. 2020. Semantics-aware BERT for language understanding. In The Thirty-Fourth AAAI Conference on Artificial Intelligence, AAAI 2020, pages 9628–9635.
[7] Siru Ouyang, Zhuosheng Zhang, and Hai Zhao. 2021. Fact-driven Logical Reasoning arXiv preprint arXiv:2105.10334.
[8] Ruize Wang, Duyu Tang, Nan Duan, Zhongyu Wei, Xuanjing Huang, Jianshu ji, Guihong Cao, Daxin Jiang, Ming Zhou. 2021. K-adapter: Infusing knowledge into pre-trained models with adapters. In Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021, pages 1405-1418.
[9] Junru Zhou, Zhuosheng Zhang, Hai Zhao, Shuailiang Zhang.2020. LIMIT-BERT: Linguistics Informed Multi-Task BERT. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings, pp. 4450-4461.
[10] Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut. 2020. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations. In International Conference on Learning Representations.