Page 1

RELATÓRIO DE VISITA AO HERBÁRIO DA UNIVERSIDADE ESTADUAL DE CAMPINAS (UEC) Campinas – São Paulo Data: 26/03/2013 Participantes: Washington Marcondes-Ferreira (UEC), Flávia Pezzini (CRIA/INCT HVFF)

OBJETIVO O objetivo da visita foi realizar uma análise conjunta do relatório dataCleaning disponível no site do CRIA, discutir a qualidade dos dados da UEC e conhecer os principais avanços e as principais dificuldades do herbário. Essa visita faz parte da primeira etapa das atividades para melhoria da qualidade dos dados das coleções participantes do INCT-HVFF e irá auxiliar a traçar a estratégia para os próximos treinamentos.

STATUS DOS DADOS DA UEC Na data da visita 26/03/2013, a UEC possuía 108.410 registros indexados na rede speciesLink (64% do acervo), sendo 31.069 georreferenciados (28,6% do total online). A última atualização dos dados na rede speciesLink havia sido feita em 14/02/2013. A UEC utiliza o software Brahms 6.8 para armazenar seus dados. Em 23/04/2013, ~30 dias após a visita, a UEC possui 115.604 registros indexados (68%), sendo 33.605 georreferenciados (29%) e 21.736 com imagens (19%). É o 10o maior acervo da rede INCT, com 169.835 registros e o 4o maior do sudeste. Em termos de números de registros online, é o 8o maior da rede e o 2o maior do sudeste. Seu maior acervo online é da família Fabaceae (19.743 registros), seguido por Melastomataceae (7.874) e Apocynaceae (5.085). A maioria das amostras online foi coletada no estado de São Paulo (47.392), seguido por Minas Gerais (24.752) e Bahia (5.969). Em relação à qualidade do nome, tem-se que cerca de 9% dos registros atualmente online possuem nomes que não fazem parte da Lista de Espécies da Flora do Brasil, edição 2012 e 4,3% dos registros não foram identificados no nível de gênero (tabela 1). Tabela 1. Porcentagem de registros do acervo online da UEC com nomes aceitos e sinônimos de acordo com a Lista de Espécies da Flora do Brasil edição 2012.

Registros % Registros com nomes aceitos* 90.896 78,6% Registros com sinônimos 9.464 8,1% Registros com nomes não incluídos na Lista de Espécies da Flora do Brasil, 10.305 9% edição 2012 (6.718 nomes distintos) Em branco 4.939 4,3% Número total de Registros 115.604 *Os registros somente com o campo gênero preenchido, mas cujo gênero consta da Lista de Espécies da Flora do Brasil foram considerados como “nome aceito”.


AVALIAÇÃO DOS DADOS BASEADO NOS RESULTADOS DO RELATÓRIO DATACLEANING O relatório de dataCleaning para a UEC na data de visita está disponível na Figura 1, a seguir. O relatório mostra um perfil dos dados da coleção, com inventários dos nomes científicos, coletores, tipos, países, estados, municípios e sequência dos números de tombo, sendo listados os números que não estão sendo utilizados (gap). Além disso, mostra registros suspeitos agrupados da seguinte forma: gestão, taxonomia, georreferenciamento e data. Um conceito importante é o de registro suspeito. Os aplicativos procuram identificar registros que podem ter erros, ou seja, um registro suspeito pode não estar errado. O número de registros suspeitos é sempre muito superior ao número de registros com erros. No site do CRIA, cada um dos itens em verde é clicável e mostra os registros suspeitos para cada grupo, a comparação com outros registros de toda a rede speciesLink e/ou sugestões de preenchimento, que podem ser acatadas ou não pelo curador.

Figura 1. Relatório dataCleaning do Herbário UEC em 26/03/2013

REGISTROS SUSPEITOS RELACIONADOS À GESTÃO De acordo com o relatório do dataCleaning (Figura 1), o herbário possui uma quantidade considerável de registros suspeitos relacionados à gestão. Possui 3.502 registros com o número de catálogo em branco, 18.787 registros com números de catálogo repetidos e 4.801


registros duplicados. A maioria dos registros com número de catálogo repetido são registros que foram incluídos no sistema duas vezes. Possui 15.191 registros com nome + número do coletor repetidos, que podem ser duplicatas que não necessitam de correção, como também podem ser erros de digitação (tabela 2). A correção dos registros relacionados à gestão em geral demanda maior tempo que os demais erros, porém refletem informações importantes, como tamanho da coleção.

Tabela 2. Percentual de registros suspeitos relacionados à gestão

Avaliação da coordenada geográfica Registros suspeitos % Número de catálogo em branco 3.502 3,2 Número de catálogo repetido 18.787 17,3 Registros duplicados 4.801 4,4 Registros com nome+número do coletor repetidos 15.191 14

REGISTROS SUSPEITOS RELACIONADOS À TAXONOMIA Os dados não apresentam registros suspeitos, refletindo a preocupação da coleção com a qualidade dos dados taxonômicos. Apresenta 10.236 registros suspeitos para duplicata. Esse item merece especial atenção, pois possibilita a atualização ou correção de identificação entre duplicatas enviadas para diferentes coleções. Nesse item, para os dados de mesmo número e nome de coletor são comparados os campos gênero + espécie + subespécie entre diferentes coleções e, caso algum especialista tenha visitado alguma dessas coleções e atualizado a identificação, essa atualização é mostrada junto com o nome do determinador e data.

REGISTROS SUSPEITOS RELACIONADOS AO GEORREFERENCIAMENTO Os dados apresentam número intermediário de coordenadas suspeitas (tabela 3). Tabela 3. Percentual de registros suspeitos relacionados à taxonomia

Avaliação da coordenada geográfica Registros suspeitos % Total georreferenciado 31.069 Registros com o nome do país/estado suspeito 1.580 5,1% Registros que representam outliers não encontrado Registros com long/lat fora do limite mundial não encontrado Registros com long/lat iguais não encontrado Registros com long ou lat igual a zero 3.339 10,7% Registros com long/lat no mar (Brasil) 1.743 5,6% Registros com nome do município suspeito (Brasil) 6.204 20% 1 Análise da coordenada (Brasil) 42 0,1% Outras inconsistências2 97 0,3%

1

Para os registros no Brasil cuja coordenada não cai no país, estado ou município informado, o sistema verifica se a coordenada pode estar em graus, minutos e segundos ao invés de graus decimais e reavalia a consistência dos dados. Se os dados passam a ser consistentes, o registro é mostrado pelo aplicativo.


Para os registros georreferenciados, o aplicativo compara os dados relativos aos campos país, estado e município com os dados do IBGE para a coordenada informada. Havendo diferenças, os registros são apresentados como suspeitos. Para cada registro suspeito é disponibilizado um mapa mostrando o ponto informado e os limites do município, estado ou pais. Para o campo município, essa ferramenta é mais eficiente em estados com municípios pequenos. É importante entender que esses registros considerados suspeitos são uma sugestão, cabendo ao curador optar pela mudança ou não dos seus dados. A maioria dos registros no mar e que apresenta latitude ou longitude igual a zero possui algum tipo de erro ou caracter especial que não puderam ser lidos pelo sistema no momento da importação. Caracteres que não podem ser lidos são substituídos por zero. Por exemplo, dados com valores de minutos ou segundos maiores que 60 ou símbolos de graus, minutos ou segundos desconfigurados aparecem como zero no sistema. Cada um desses erros são registrados nos registros de logs de erros da coleção quando da importação dos dados e estão disponíveis no Network Manager3 em dados técnicos localizado no combo superior esquerdo e logs de erro, no combo superior direito. A análise de dispersão das coordenadas geográficas também realizada pela ferramenta dataCleaning (figura 2) sugere que o herbário está sendo consistente na representação das coordenadas geográficas, pois os pontos estão distribuídos uniformemente na figura. A presença de maior concentração de pontos abaixo ou igual a 0.6 para latitude e longitude sugeriria que as coordenadas não foram transformadas, uma vez que coordenadas em graus decimais tem a parte decimal variando de 0 a 0.999. O diagrama mostra uma concentração nos valores iguais a zero, problema descrito no parágrafo anterior.

2

Outras inconsistências representam registros incompletos, p.ex., com os campos país e município preenchidos e sem o nome do estado. 3 http://splink.cria.org.br/manager/detail?system=&resource=UEC&setlang=pt


Figura 2. Análise de dispersão com a visualização dos valores referentes à parte decimal da coordenada, onde é possível notar uma distribuição homogênea de pontos para latitude e longitude

REGISTROS RELACIONADOS À DATA Os dados apresentam número baixo de registros suspeitos em relação à data da coleta. Os registros suspeitos representam 0,3% somente para dados com ano de coleta maior que identificação (tabela 4). Esses registros podem ser rapidamente conferidos e consertados. Tabela 2. Percentual de registros suspeitos relacionados à data

Avaliação da data Registros suspeitos % Total online 108.410 Registros com data da coleta menor que 18244 Não encontrado 0% Registros com ano da coleta maior que a data de atualização Não encontrado Registros com ano da coleta maior que a data de identificação 329 0,3%

STATUS DE IDENTIFICAÇÃO DOS DADOS A análise do status de identificação dos dados será feita com os dados atuais da UEC, acessados em 23/04/2013.

4

A UEC informou que a sua coleta mais antiga data de 1824, ano utilizado pela ferramenta dataCleaning


Do total de registros indexados (115.604), 110.665 (95,7%) estão preenchidos com nome da espécie e família. Fazendo uma busca nos dados do acervo do UEC online por registros com valores “embranco” nos campos família, gênero e espécie, ou seja, amostras sem nenhuma identificação, foram encontrados 321 registros. 12 desses registros possuem imagens e alguns possuem a identificação na etiqueta (por exemplo: UEC009000, UEC007419, UEC072895), ou seja, a informação existe e pode ser inserida no banco. Fazendo a busca por registros com valores em branco somente para os campos gênero e espécie e não branco para família, ou seja, identificados até família, encontramos 4.618 registros (4% dos registros indexados). A família Bignoniaceae é a que apresenta mais registros (515), seguida por Cyperaceae (324) e Melastomataceae (281) (Figura 3). Desses 4.618 registros, 1.369 (30%) possuem imagens no sistema e podem ser utilizadas para auxílio na identificação à distância.

Figura 3. Percentual de registros identificados até família agrupados por família no herbário UEC Fazendo a busca por amostras identificadas até gênero, encontramos 17.997 registros (15,5% dos registros indexados). A família Melastomataceae é a que apresenta mais registros (1.116), seguida por Leguminosae – Papilionoideae (1.104) e Malpighiaceae (921) (Figura 4). 3.214 (17,8%) dos 17.997 registros identificados até gênero possuem imagens.


Figura 4. Proporção de registros identificados até gênero agrupados por família no herbário UEC Buscando amostras identificadas pelo menos até gênero e com determinador em branco, encontramos 34.274 registros (29,6%). 5.643 (16,4%) desses registros possuem imagem. É possível identificar que uma pequena parte, especialmente os identificados até espécie, possui a informação do determinador na etiqueta. Em discussões internacionais, um dos campos que atesta a qualidade dos dados é o determinador e uma importante prática a ser adotada pela coleção é a exigência do registro do determinador para os usuários que tombam materiais, mesmo que seja o próprio coletor.

COMENTÁRIOS A ficha do espécime online da rede speciesLink possui um sistema de comentários, em que qualquer usuário pode submeter um comentário sobre determinado registro. Para submeter um comentário, o usuário precisa se identificar com nome e email. Após a submissão, um email é enviado para confirmação da identidade do remetente e, após a confirmação, o curador do herbário recebe por email esse comentário e o mesmo é “anexado” à ficha da espécie. Essa ferramenta tem sido utilizada por especialistas que submetem à coleção novas determinações ou atualizações nomenclaturais. A UEC possui 2 registros com comentários (UEC 137.431, 42.189) relacionados a confirmação da identificação da espécie. A figura 5 a seguir apresenta um exemplo de comentário.

Figura 5. Exemplo de comentário em registro do herbário UEC.


RESULTADOS PRINCIPAIS PONTOS POSITIVOS APONTADOS PELA UEC: A ferramenta de dataCleaning e o Brahms auxiliam na identificação dos erros de taxonomia relacionados à grafia. O herbário tem se empenhado em disponibilizar imagens dos espécimes.

PRINCIPAIS PONTOS NEGATIVOS APONTADOS PELO UEC: Os principais pontos negativos levantados pelo participante da UEC foram a falta de tempo para correção/verificação dos registros suspeitos e a falta de orientação aos alunos e provedores de amostras em relação ao georreferenciamento das coletas. Em virtude de um problema no antigo programa para gerenciamento dos dados da UEC, muitos registros foram inseridos mais de uma vez no sistema, e por isso aparecem no dataCleaning. Entretanto muitos desses registros possuem diferenças de digitação principalmente no campo localidade, sendo muito trabalhoso conferir qual deve ser deletado. Devido a grande variação nas informações de localidades (=gazeteer) inseridas nas etiquetas, o curador optou por não mais inserir essa informação no Brahms.

SUGESTÕES DO UEC 

   

Incluir a coluna “família” nos registros suspeitos de duplicatas (http://splink.cria.org.br/dc/show?criaLANG=pt&system=&cod_col=UEC&what=susp_colle ctor). Incluir as imagens dos registros que já as possuem no dataCleaning –implementado Incluir uma análise do campo determinador no relatório de dataCleaning. Permitir a busca de registros identificados até gênero no speciesLink –implementado Disponibilizar para as coleções instruções de como padronizar nomes de coletores

RECOMENDAÇÕES DO CRIA  

A partir de agora preencher a classificação taxonômica completa para as amostras, incluindo Reino, Filo, Classe e Ordem. Preencher o campo “Como Citar” nos metadados da coleção e incluir informações sobre o sistema de classificação utilizado na descrição do Herbário: http://splink.cria.org.br/manager/detail?setlang=pt&resource=UEC Foram identificados diversos casos em que determinada informação está na etiqueta, mas não no banco de dados, o que é principalmente preocupante para o nome da espécie e o determinador. Essas informações podem ser digitadas em curto prazo por bolsistas de iniciação científica. Recomenda-se que o processo de digitação em curso avalie se os campos estão sendo preenchidos. Definir procedimento padrão para depósito de amostras no herbário, com os dados em formato digital e, sempre que possível, informações completas e padronizadas. Por exemplo, solicitar informações completas sobre georreferenciamento (sistema de coordenadas e DATUM especificados), nome do coletor composto de sobrenome e iniciais.


Marcar uma treinamento especial para georreferenciamento para os bolsistas/digitadores do herbário em data a ser combinada com o curador.

ENCAMINHAMENTOS PARA FUTUROS TREINAMENTOS    

 

 

Incluir nos treinamentos material e explicações detalhadas sobre georreferenciamento para os curadores e técnicos das coleções; Disponibilizar material específico sobre georreferenciamento para todos os usuários das coleções; Importância da padronização dos dados e do uso de padrões Enfatizar que os números mostrados no relatório de dataCleaning estão “inflados” pois é trata-se de registros “suspeitos” e não registros “com erro”. Por isso, o trabalho é menor do que parece; Encorajar a correção dos dados mesmo aos poucos. O envio do banco de dados para o CRIA é fácil, rápido e não há limite de atualizações; Encorajar a comunicação freqüente entre a coleção e a bolsista responsável pela qualidade de dados no CRIA. Qualquer sugestão, dúvida ou critica pode ser resolvida por email ou telefone; Enfatizar a diferença entre registros suspeitos e errados; Enfatizar que, por mais escasso que o tempo para correção possa ser no momento, é importante adotar práticas de controle de qualidade dos dados para as novas amostras depositadas, evitando assim o aumento da quantidade de erros para correção no futuro; Enfatizar que a completude, padronização e qualidade dos dados aumenta a sua usabilidade, o que valoriza e dá destaque ao trabalho do herbário.

Campinas, 30 de Abril de 2013.

Flávia Fonseca Pezzini CRIA

Visita UEC marco 2013  

Relatório da visita da equipe do CRIA/INCT-HVFF ao Herbário UEC em março de 2013.

Read more
Read more
Similar to
Popular now
Just for you