Get our free extension to see links to code for papers anywhere online!Free add-on: code for papers everywhere!Free add-on: See code for papers anywhere!

Add to Chrome

Add to Firefox

Add to Edge

Title:STEP: Sequence-to-Sequence Transformer Pre-training for Document Summarization

Apr 04, 2020

Yanyan Zou, Xingxing Zhang, Wei Lu, Furu Wei, Ming Zhou

Figure 1 for STEP: Sequence-to-Sequence Transformer Pre-training for Document Summarization

Figure 2 for STEP: Sequence-to-Sequence Transformer Pre-training for Document Summarization

Figure 3 for STEP: Sequence-to-Sequence Transformer Pre-training for Document Summarization

Figure 4 for STEP: Sequence-to-Sequence Transformer Pre-training for Document Summarization

Share this with someone who'll enjoy it:

Abstract:Abstractive summarization aims to rewrite a long document to its shorter form, which is usually modeled as a sequence-to-sequence (Seq2Seq) learning problem. Seq2Seq Transformers are powerful models for this problem. Unfortunately, training large Seq2Seq Transformers on limited supervised summarization data is challenging. We, therefore, propose STEP (as shorthand for Sequence-to-Sequence Transformer Pre-training), which can be trained on large scale unlabeled documents. Specifically, STEP is pre-trained using three different tasks, namely sentence reordering, next sentence generation, and masked document generation. Experiments on two summarization datasets show that all three tasks can improve performance upon a heavily tuned large Seq2Seq Transformer which already includes a strong pre-trained encoder by a large margin. By using our best task to pre-train STEP, we outperform the best published abstractive model on CNN/DailyMail by 0.8 ROUGE-2 and New York Times by 2.4 ROUGE-2.

View paper on

Share this with someone who'll enjoy it:

Title:STEP: Sequence-to-Sequence Transformer Pre-training for Document Summarization

Paper and Code