O PyTorch inclui um pacote chamado torchvision que é usado para carregar e preparar o conjunto de dados. Inclui duas funções básicas: Dataset e DataLoader, que ajudam na transformação e carregamento do dataset.
Conjunto de dados
O conjunto de dados é usado para ler e transformar um ponto de dados do conjunto de dados fornecido. A sintaxe básica a ser implementada é mencionada abaixo -
trainset = torchvision.datasets.CIFAR10(root = './data', train = True,
download = True, transform = transform)
DataLoader é usado para embaralhar e agrupar dados. Ele pode ser usado para carregar os dados em paralelo com trabalhadores de multiprocessamento.
trainloader = torch.utils.data.DataLoader(trainset, batch_size = 4,
shuffle = True, num_workers = 2)
Exemplo: Carregando arquivo CSV
Usamos o pacote Python Panda para carregar o arquivo csv. O arquivo original tem o seguinte formato: (nome da imagem, 68 pontos de referência - cada ponto de referência tem ax, coordenadas y).
landmarks_frame = pd.read_csv('faces/face_landmarks.csv')
n = 65
img_name = landmarks_frame.iloc[n, 0]
landmarks = landmarks_frame.iloc[n, 1:].as_matrix()
landmarks = landmarks.astype('float').reshape(-1, 2)