Skip to content

Diretórios

PastaConteúdoEstruturaExemplo
pdfarquivos PDF de todos os artigospdf/ano/nome_arquivopdf/2003/2003-v.2-n.2-02.pdf
xmlxml gerados, via grobid, a partir dos pdfsxml/ano/nome_arquivoxml/2003/2003-v.2-n.2-02.tei.xml
metadadoscada linha contem metadados de um artigo da ediçãometadados/nome_arquivometadados/2013v01n01.csv
csvcada arquivo csv contem dados das referências citadas em cada artigo das revistascsv/ano/nome_arquivocsv/2003/2003-v.2-n.2-02.csv
logsinfo de controle da coleta dos pdfslogs/.logs.csv, logs/acervo.csv, info_data
logs_metadatainfo de controle de coleta dos metadadoslogs_metadata/.logs.csv, acervo.csv

nomefunçãovariáveis
.logs.csvarmanezar histórico da coletadate, houve_coleta(TRUE), coleta
acervo.csvrefere-se cada ediçãourl de determinada edição, editions, vol, n, ano, revista
info_datatamanho e localização de cada pdfloc_arquivo local do pdf, pdf_url localização web, size tamanho

Importante: O info_data contém informações que possibilitam vincular os arquivos pdf, csv (com referencias) , csv (com metadados)

loc_arquivo (de logs/info_data.csv) e `path_pdf“ (de csv/ano/nome_arquivo.csv ) vinculam os arquivos pdf ao csv das referencias

pdf_url (de logs/info_data.csv) e PDFURL (de metadados/nome_arquivo.csv) vinculam o metadados com os arquivos pdf