Knowledge Inheritance for Pre-trained Language Models

Jul 01, 2021 1 min read

Knowledge-Inheritance

Source code paper: Knowledge Inheritance for Pre-trained Language Models (preprint). The trained model parameters (in Fairseq format) can be downloaded from Tsinghua Cloud. You can use convert_fairseq_to_huggingface.py to convert the Fairseq format into Huggingface's transformers format easily.

We refer the downstream performance evaluation to the implementation of Fairseq (GLUE tasks) and Don't Stop Pre-training (ACL-ARC / CHEMPROT).

If you have any question, feel free to contact us ([email protected]).

1. Available Pretrained Models

WB domain: Wikipedia + BookCorpus; CS domain: computer science papers; BIO domain: biomedical papers;

Models trained by self-learning

RoBERTa_WB_H_4
RoBERTa_WB_H_6
RoBERTa_WB_H_8
RoBERTa_WB_H_10
RoBERTa_WB_D_288
RoBERTa_WB_D_384
RoBERTa_WB_D_480
RoBERTa_WB_D_576
RoBERTa_WB_D_672
RoBERTa_WB_BASE
RoBERTa_WB_MEDIUM
RoBERTa_WB_BASE_PLUS
RoBERTa_WB_LARGE
GPT_WB_MEDIUM
GPT_WB_BASE
GPT_WB_BASE_PLUS
RoBERTa_CS_MEDIUM
RoBERTa_CS_BASE
RoBERTa_BIO_MEDIUM
RoBERTa_BIO_BASE

Models trained by Knowledge Inheritance

RoBERTa_WB_BASE -> RoBERTa_WB_BASE_PLUS
RoBERTa_WB_BASE -> RoBERTa_WB_LARGE
RoBERTa_WB_BASE_PLUS -> RoBERTa_WB_LARGE
RoBERTa_WB_BASE -> RoBERTa_WB_BASE_PLUS -> RoBERTa_WB_LARGE

GitHub

https://github.com/thunlp/Knowledge-Inheritance

Language Models Transformer

John was the first writer to have joined pythonawesome.com. He has since then inculcated very effective writing and reviewing culture at pythonawesome which rivals have found impossible to imitate.

Language Models

Effective initialization of subword embeddings for cross-lingual transfer of monolingual language models

14 December 2021

Transformer

A flexible and efficient library for sequential and session-based recommendation

Transformers4Rec is a flexible and efficient library for sequential and session-based recommendation, available for both PyTorch and Tensorflow

23 September 2021

Transformer

Recursive Transformer based on Differentiable Tree for Interpretable Hierarchical Language Modeling

R2D2: Recursive Transformer based on Differentiable Tree for Interpretable Hierarchical Language Modeling

19 August 2021

Transformer

Ongoing research training transformer language models at scale

Ongoing research training transformer language models at scale, including: BERT & GPT-2

14 August 2021

Deep Learning

Ongoing research training transformer language models at scale

Megatron (1 and 2) is a large, powerful transformer developed by the Applied Deep Learning Research team at NVIDIA.

06 August 2021

Natural Language Processing

Learning Transferable Visual Models From Natural Language Supervision

CLIP: Connecting Text and Image (Learning Transferable Visual Models From Natural Language Supervision)

30 June 2021

Tokens

Adaptive Token Sampling for Efficient Vision Transformers (ECCV 2022 Oral Presentation)

17 January 2023

Transformer

TOIST: Task Oriented Instance Segmentation Transformer with Noun-Pronoun Distillation

TOIST: Task Oriented Instance Segmentation Transformer with Noun-Pronoun Distillation This repository is an official implementation of TOIST: TOIST: Task Oriented Instance Segmentation Transformer with Noun-Pronoun Distillation Pengfei Li, Beiwen Tian, Yongliang Shi, Xiaoxue

17 January 2023

Knowledge Inheritance for Pre-trained Language Models