NLP Core Library and Model Zoo based on PaddlePaddle 2.0

简体中文 | English

简介

PaddleNLP 2.0拥有丰富的模型库、简洁易用的API与高性能的分布式训练的能力，旨在为飞桨开发者提升文本建模效率，并提供基于PaddlePaddle 2.0的NLP领域最佳实践。

特性

丰富的模型库
- 涵盖了NLP主流应用相关的前沿模型，包括中文词向量、预训练模型、词法分析、文本分类、文本匹配、文本生成、机器翻译、通用对话、问答系统等，更多详细介绍请查看PaddleNLP模型库。
简洁易用的API
- 深度兼容飞桨2.0的高层API体系，提供可复用的文本建模模块，可大幅度减少数据处理、组网、训练环节的代码开发量，提升文本建模开发效率。
高性能分布式训练
- 通过深度优化的混合精度训练策略与Fleet分布式训练API，可充分利用GPU集群资源，高效完成大规模预训练模型的分布式训练。

安装

环境依赖

python >= 3.6
paddlepaddle >= 2.0.0

pip install paddlenlp==2.0.0rc

快速开始

数据集快速加载

from paddlenlp.datasets import ChnSentiCorp

train_ds, dev_ds, test_ds = ChnSentiCorp.get_datasets(['train', 'dev', 'test'])

可参考Dataset文档查看更多数据集。

一键加载中文词向量

from paddlenlp.embeddings import TokenEmbedding

wordemb = TokenEmbedding("w2v.baidu_encyclopedia.target.word-word.dim300")
print(wordemb.cosine_sim("国王", "王后"))
>>> 0.63395125
wordemb.cosine_sim("艺术", "火车")
>>> 0.14792643

内置50+中文词向量，更多使用方法请参考 Embedding文档。

一键加载高质量中文预训练模型

from paddlenlp.transformers import ErnieModel, BertModel, RobertaModel, ElectraModel, GPT2ForPretraining

ernie = ErnieModel.from_pretrained('ernie-1.0')
bert = BertModel.from_pretrained('bert-wwm-chinese')
roberta = RobertaModel.from_pretrained('roberta-wwm-ext')
electra = ElectraModel.from_pretrained('chinese-electra-small')
gpt2 = GPT2ForPretraining.from_pretrained('gpt2-base-cn')

请参考 Pretrained-Models查看目前支持的预训练模型。

模型库及其应用

PaddleNLP模型库整体介绍请参考文档PaddleNLP Model Zoo. 模型应用场景介绍请参考PaddleNLP Examples。

进阶应用

模型压缩

API 使用文档

Transformer API
- 基于Transformer结构相关的预训练模型API，包含ERNIE, BERT, RoBERTa, Electra等主流经典结构和下游任务。
Data API
- 文本数据处理Pipeline的相关API说明。
Dataset API
- 数据集相关API，包含自定义数据集，数据集贡献与数据集快速加载等功能说明。
Embedding API
- 词向量相关API，支持一键快速加载包预训练的中文词向量，VisualDL高维可视化等功能说明。
Metrics API
- 针对NLP场景的评估指标说明，与飞桨2.0框架高层API兼容。

交互式Notebook教程

更多教程参见PaddleNLP on AI Studio。

社区贡献与技术交流

欢迎您加入PaddleNLP的SIG社区，贡献优秀的模型实现、公开数据集、教程与案例、外围小工具。
现在就加入PaddleNLP的QQ技术交流群，一起交流NLP技术吧！
⬇️

License

PaddleNLP遵循Apache-2.0开源协议。

NLP Core Library and Model Zoo based on PaddlePaddle 2.0

简介

特性

安装

环境依赖

快速开始

数据集快速加载

一键加载中文词向量

一键加载高质量中文预训练模型

模型库及其应用

进阶应用

API 使用文档

交互式Notebook教程

社区贡献与技术交流

License

GitHub

John

Implementation of Feedback Transformer in Pytorch

A caching extension for Flask

简介

特性

安装

环境依赖

快速开始

数据集快速加载

一键加载中文词向量

一键加载高质量中文预训练模型

模型库及其应用

进阶应用

API 使用文档

交互式Notebook教程

社区贡献与技术交流

License

GitHub

Implementation of Feedback Transformer in Pytorch

A caching extension for Flask

You might also like...