d) Ciclo de Dados de Investigação: RCAAP

a)    Ciclo de Dados de Investigação: RCAAP

 

O ciclo de dados seguinte procura não só resumir os previamente apresentados, como também combinar três fases distintas, no processo de gestão de dados de investigação: Fases de Planeamento, Produção e Disseminação.

 

Fase de Planeamento

Na Fase de Planeamento dever-se-ão fazer as primeiras reflexões quanto à produção, preservação e partilha de dados de investigação, idealmente formalizadas num documento para o efeito, denominado de Plano de Gestão de Dados (PGD). Frequentemente, a submissão de um PGD constitui um requisito de financiadores de ciência, aquando da submissão de projeto e concurso a financiamento.

 

Fase de Produção

Após o início do Projeto e dos trabalhos de investigação são criados os primeiros dados no âmbito desse mesmo projeto. Nesta fase ocorrem todos os procedimentos e transformações aos dados, para que possam ser posteriormente publicados, passando deste modo do domínio restrito ao domínio público.

 

Fase de Disseminação

É após publicação dos dados que estes podem finalmente ser acedidos e reutilizados, gerando eventualmente, novos dados de investigação, e dando novamente reinício ao ciclo de dados.

A reutilização de dados é o objetivo final e central da implementação de estratégias de gestão e preservação de dados, constituindo o colmatar do ciclo e do processo que gera em si, o valor acrescentado aos dados de investigação produzidos (no domínio restrito).

É importante notar que podem existir casos, em que os dados produzidos são imediatamente publicados, ou seja, de modo em que o momento da produção seja coincidente com o momento da disseminação. No entanto, tal só deverá acontecer, após a reflexão cuidada dos passos apresentados nas fases distintas, pelo que não é considerada boa prática a disseminação sem que tenham existido previamente medidas concretas de curadoria e gestão. Tal não exclui no entanto, a hipótese de estabelecer um automatismo no processo; Tipicamente, estes correspondem a casos de produção de dados estruturados, homogéneos, devidamente descritos e em grande escala, o que corresponde a dados big-data.

Diagrama do ciclo de gestão de dados de investigação RCAAP

A figura seguinte procura ilustrar em detalhe as três fases acima referidas e a interligação dos diferentes conceitos-chave. Esta ilustração representa um workflow genérico e, por isso, deve notar-se que diferentes projetos de curadoria ou repositórios de dados poderão ter workflows específicos e por isso diferentes do abaixo ilustrado.

Fase de Planeamento

 

  1. Preparação de Projeto

No contexto da gestão de dados de investigação, a preparação do projeto requer uma reflexão cuidada acerca dos tipos de dados, da infraestrutura e de workflows para a partilha dos mesmos. Idealmente, estas considerações serão idealmente formalizadas num PGD[1].

Poderá ser necessária uma estimativa do volume de a serem criados, bem como soluções concretas para o armazenamento e preservação dos mesmos, bem como estimativas dos custos associados; Para tal refere-se aqui o projeto 4C (Collaboration to Clarify the Cost of Curation),[2] que fornece informação nesta tarefa.

Em caso de submissão de candidatura para financiamento do projeto, o financiador pode requerer dados de investigação de projetos anteriores, nomeadamente, indicando onde estes se encontram depositados ou até mesmo requisitar o acesso aos mesmos.

É nesta fase que deverá ser formalizado o plano de gestão de dados, frequentemente, um requisito de financiadores. Da mesma forma, é frequente que o financiador exija alterações durante o decorrer dos trabalhos (Fase de Produção) e no Fim do Projeto (ver abaixo). No caso de projetos financiados pela Comissão Europeia (ver Piloto de Dados Abertos H2020),16 é necessária a submissão de um plano de gestão de dados durante os primeiros 6 meses de projeto. É este é o tema da secção seguinte, onde é fornecido material para a criação de um PGD.

 

  1. Início do Projeto

Mediante o começo do projeto dá-se início ao processo e às tarefas relacionadas com a investigação científica propriamente dita, entrando-se no ciclo de dados de investigação onde serão gerados os primeiros dados digitais, em domínio restrito.

 

  1. Fim do Projeto

O final do projeto consiste não só em documentar e publicar os resultados obtidos durante o mesmo como também em preparar os próximos trabalhos de investigação e, possivelmente, a submissão de candidaturas para financiamento. Como já referido na fase de Preparação do Projeto, a requisição de dados de projetos anteriores ou a indicação de onde estes se encontram depositados é uma exigência cada vez mais frequente por parte das agências financiadoras, por isso é fundamental ter em conta o próximo projeto, na fase de conclusão. Também por esta razão, torna-se fundamental arquivar digitalmente os dados que não foram publicados e assim garantir a preservação a longo prazo dos mesmos.

 

 

Fase de Produção

 

  1. Criação de Dados

Como referido na Introdução, consideram-se dados de investigação todos e quaisquer dados digitais que sejam produto direto ou indireto do processo de investigação científica. Exemplarmente destacam-se observações, registos numéricos, textuais, imagens ou vídeos, nos mais variados formatos digitais, enquanto exemplos de dados de investigação.

Deste modo, esta fase do ciclo de dados inicia-se com a produção, criação ou recolha de dados de investigação. Os passos subsequentes são necessários para garantir a (re)utilização sustentável dos dados produzidos.

 

  1. Processamento de Dados

De modo a extrair a informação dos dados produzidos (primários) é frequente a edição, alteração ou seleção dos dados produzidos. São assim criados dados secundários que podem ser posteriormente usados como base para publicações científicas. No entanto, para serem publicados por si só, são necessários vários passos subsequentes, começando pela descrição dos dados obtidos.

 

  1. Criação de Metadados

De um modo geral, os dados produzidos são descritos de forma mais ou menos completa, no momento da sua criação. No entanto, de modo a que os dados produzidos (e processados) possam ser reutilizados pela comunidade científica mas também por cidadãos fora do contexto institucional, é fundamental que a informação descritiva seja tão exaustiva quanto possível. Adicionalmente, é de extrema importância que esta informação seja fornecida da forma mais estandardizada possível, de modo permitir a indexação em bases e portais de dados, procedimentos de “harvesting” ou “data-mining” ou simplesmente de modo a poder ser encontrada por motores de busca.

O cumprimento destas duas premissas – o mais exaustivo e, simultaneamente, o mais estandardizado quanto possível – constituem um dos desafios na descrição dos dados, por parte da comunidade científica. Aconselha-se por isso a adoção antecipada de um esquema de metadados – idealmente, aquando da elaboração do Plano de Gestão de Dados – e que a descrição dos dados produzidos comece tão cedo quanto possível após a sua produção.

Existem variadas diretrizes, normas e esquemas de metadados, específicos de determinadas disciplinas, ou de determinados repositórios de dados. O esquema de metadados DataCite[3] é um bom ponto de partida, uma vez que foi concebido especificamente e de forma interdisciplinar para dados de investigação. Alguns exemplos dignos de nota são referidos na secção de Identificação de Recursos (ver Metadados).

Mediante a descrição dos dados de investigação, através da criação de metadados é possível a sua agregação, descoberta, acesso, e reutilização; sem descrição os dados criados são impossíveis de ser utilizados por outros que não o seu criador.

           

  1. Depósito e Preservação

O depósito num repositório digital tem a função particularmente importante de assegurar a integridade digital dos pacotes de dados a longo prazo, através de variadas medidas de preservação digital. É portanto um passo essencial para o acesso livre e sustentável a longo prazo. Para além disso, a escolha do repositório está relacionada com o esquema de metadados adotado, de forma a garantir que a descrição dos dados corresponda às diretrizes usadas pelo repositório escolhido ou que seja interoperável com o mesmo.

No que diz respeito à escolha de um repositório de dados, o projeto re3data.org poderá servir como um bom ponto de partida na procura de um repositório adequado à área disciplinar pretendida. Recomenda-se explicitamente a preferência por repositórios de dados certificados, atendendo às diretrizes do respetivo selo de certificação. Existem diferentes agências que certificam repositórios e, por isso, diferentes critérios para a certificação.

No campo da certificação de repositórios, é ainda importante mencionar o grupo de trabalho da Research Data Alliance[4] e as atividades desenvolvidas.

 

 

  1. Atribuição de Licença

A atribuição de uma licença é um passo fundamental para a partilha de dados que regula o acesso aos mesmos e, por isso mesmo, deve anteceder a sua publicação. Deverá proteger a propriedade intelectual por parte dos detentores - autor(es) e/ou instituição), sem no entanto limitar desnecessariamente a sua reutilização por terceiros.

Apesar de se tratar de um assunto de elevada complexidade, nomeadamente no que respeita a dados de investigação, existem alguns modelos de licenças amplamente utilizados, o que facilita muito a sua escolha por parte dos investigadores. Desta forma destacam-se aqui as licenças Creative Commons.[5]

É fundamental que a escolha da licença seja efetuada pelo investigador e/ou detentor dos direitos de autor, em concordância com outros detentores desses direitos. O gestor de dados da instituição pertencente deverá acompanhar este processo e fornecer esclarecimento sempre que necessário.

Mais informação é fornecida neste Kit, na secção “Direitos de Autor e Licenciamento de Dados”.

 

Fase de Disseminação

 

  1. Publicação (DOI/Handle)

Cumprido o ciclo descrito na fase de produção, ou seja, uma vez que os dados tenham sido criados, processados, descritos, preservados e devidamente licenciados, estar-se-á, à partida, em condições de proceder à sua publicação.

Com a publicação dos dados dá-se início à disseminação dos mesmos, ou seja, os respetivos metadados serão passiveis de serem agregados e por isso encontrados e acedidos. Dependendo do tipo, condições de publicação e eventual existência de períodos de embargo, os próprios dados poderão estar também imediatamente acessíveis. A publicação constitui portanto uma condição necessária para a reutilização dos dados, por parte de elementos exteriores ao grupo de trabalho onde estes foram criados.

Particularmente relevante no momento da publicação é a atribuição de um identificador único e persistente ao pacote de dados, de forma a garantir a citação dos mesmos, dos respetivos autores, metadados e outros recursos a ele associados.

Existem variados identificadores persistentes,[6] sendo o Handle e DOI os mais comuns no contexto da gestão de dados.[7]

 

  1. Descoberta de dados de investigação

É importante considerar os aspetos que condicionem ou potenciem a visibilidade de dados publicados, de forma a maximizar a sua descoberta. Em termos gerais, a visibilidade dos dados dependerá do repositório escolhido para o depósito, em particular, dos portais de dados que agregam metadados do mesmo. Adicionalmente, é importante sublinhar novamente, que quanto mais completo for o esquema e preenchimento de metadados maior será a visibilidade dos dados. Os resultados de uma pesquisa serão certamente também dependentes da ferramenta escolhida para procurar dados de investigação, da qual irá resultar mais ou melhores resultados, dependendo da eficiência do portal agregador ou do motor de busca.

 

Nota adicional: Acesso, interpretação e descodificação (digital) dos dados

Como descrito até agora, a reutilização de dados de investigação pressupõe a sua descoberta (uma vez no domínio público), o seu acesso (aberto ou não) e condições favoráveis à sua reutilização (regulada pela licença em vigor).

No entanto, para aceder à informação propriamente dita e contida nos pacotes de dados, é fundamental que estes possam ser digitalmente interpretados e descodificados. Para tal, é necessário o uso de software e hardware apropriados. A escolha do formato digital é portanto de grande relevância, devendo-se optar sempre que possível por formatos de ficheiros e dados abertos e não por tipos de ficheiro que pressuponham software proprietário (ao invés de software open-source), de modo a não condicionar a descodificação digital dos mesmos.

 

  1. Reutilização de Dados

Após a descodificação dos ficheiros contidos nos pacotes de dados poder-se-á, à partida, proceder à sua (re)utilização. Desta forma, cumpre-se o objetivo principal da gestão e preservação de dados de investigação.

Existem várias formas em como dados de investigação podem ser reutilizados:

- os dados (primários) podem ser usados para gerar novos dados (secundários): neste caso, mediante a aplicação de um processamento alternativo, seleção e combinação com outros dados, são criados novos dados de investigação, dando-se o reinício do ciclo de dados em domínio restrito.

- os dados podem ser diretamente citados para suportar literatura ou estudos científicos, nomeadamente teses ou artigos: neste caso, não há criação de novos dados, sendo no entanto necessária a citação dos mesmos, para suporte de literatura científica.

Algumas editoras, suportam ainda a possibilidade de integrar os dados na publicação científica em si, de forma interativa (“enhanced-publication”),[8] sendo esta uma forma relativamente recente de publicar trabalho científico.

Em qualquer dos casos, a reutilização pressupõe a citação do conjunto original dos dados, fazendo uso do respetivo identificador persistente. É importante ter em conta convenções para a citação de dados, porventura existentes para o contexto em que os dados são reutilizados ou citados. Mais informação na secção de Identificação de Recursos (xi.)



[2] http://4cproject.eu/

[3] Datacite metadata: https://schema.datacite.org/meta/kernel-4.0/doc/DataCite-MetadataKernel_v4.0.pdf

[4] https://www.rd-alliance.org/groups/repository-audit-and-certification-dsa–wds-partnership-wg.html

[5] http://creativecommons.pt/

[8] https://en.wikipedia.org/wiki/Enhanced_publication

Última alteração: Terça, 2 Maio 2017, 16:23