rishav2416

EE Student at IIT Bombay with interests in NLP and Software Development

jiahao87 / pegasus_fine_tune.py

Last active May 29, 2024 18:00

Pytorch script for fine-tuning Pegasus Large model

	"""Script for fine-tuning Pegasus
	Example usage:
	# use XSum dataset as example, with first 1000 docs as training data
	from datasets import load_dataset
	dataset = load_dataset("xsum")
	train_texts, train_labels = dataset['train']['document'][:1000], dataset['train']['summary'][:1000]

	# use Pegasus Large model as base for fine-tuning
	model_name = 'google/pegasus-large'
	train_dataset, _, _, tokenizer = prepare_data(model_name, train_texts, train_labels)