Visita HRCB abril 2013

Page 1

RELATÓRIO DE VISITA AO HERBÁRIO RIOCLARENSE (HRCB) Rio Claro – São Paulo - Brasil Data: 24/04/2013 Participantes: Daniela Dinato (HRCB), Matheus Carvalho (HRCB), Thiago Damião (CRIA), Flávia Pezzini (CRIA/INCT HVFF) Financiador: CNPq, Projeto Reflora do Instituto Nacional de Ciência e Tecnologia – Herbário Virtual da Flora e dos Fungos (INCT-HVFF)

OBJETIVO O objetivo da visita foi realizar uma análise conjunta do relatório dataCleaning disponível no site do CRIA, discutir a qualidade dos dados do HRCB e conhecer os principais avanços e as principais dificuldades do herbário. Essa visita faz parte da primeira etapa das atividades para melhoria da qualidade dos dados das coleções participantes do INCT-HVFF e irá auxiliar a traçar a estratégia para os próximos treinamentos.

STATUS DOS DADOS DO HRCB Na data da visita 24/04/2013, o HRCB possuía 14.498 registros indexados na rede speciesLink (24,6% do acervo), sendo 3.915 georreferenciados (27% do total online). O herbário ainda não possui imagens. A última atualização dos dados na rede speciesLink havia sido feita em 11/04/2013 e está online desde 11/08/2004. O HRCB utiliza o software Excel para armazenar seus dados. A informatização da coleção está sendo feita por família e seguindo a ordem alfabética. É o 23o maior acervo da rede INCT, com 59.000 registros e o 11o maior do sudeste. Em termos de número de registros online, é o 46o maior da rede e o 19o maior do sudeste. Seu maior acervo online é da família Asteraceae (2.104 registros), seguido por Bignoniaceae (1.698) e Lauraceae (1.349). A maioria das amostras online foi coletada no estado de São Paulo (8.301), seguido por Minas Gerais (1.726) e Bahia (1.087). Em relação à qualidade do nome, tem-se que cerca de 15% dos registros possuem nomes que não fazem parte da Lista de Espécies da Flora do Brasil, edição 2012 e 3,3% dos registros não foram identificados no nível de gênero (tabela 1). Tabela 1. Porcentagem de registros do acervo online do HRCB com nomes aceitos e sinônimos de acordo com a Lista de Espécies da Flora do Brasil edição 2012.

Registros % Registros com nomes aceitos* 10.862 75,0% Registros com sinônimos 1.480 10,2% Registros com nomes não incluídos na Lista de Espécies da Flora do Brasil, 2.156 14,9% edição 2012 (6.718 nomes distintos) Em branco 485 3,3% Número total de Registros 14.498 *Os registros somente com o campo gênero preenchido, mas cujo gênero consta da Lista de Espécies da Flora do Brasil foi considerado “nome aceito”.


AVALIAÇÃO DOS DADOS BASEADO NOS RESULTADOS DO RELATÓRIO DATACLEANING O relatório de dataCleaning para o HRCB na data de visita está disponível na Figura 1, a seguir. O relatório mostra um perfil dos dados da coleção, com inventários dos nomes científicos, coletores, tipos, países, estados, municípios e sequência dos números de tombo, com os números que não estão sendo utilizados listados (gap). Além disso, mostra registros suspeitos agrupados da seguinte forma: gestão, taxonomia, georreferenciamento e data. Um conceito importante é o de registro suspeito. Os aplicativos procuram identificar registros que podem ter erros, ou seja, um registro suspeito pode não estar errado. O número de registros suspeitos é sempre muito superior ao número de registros com erros. No site do CRIA, cada um dos itens em verde é clicável e mostra os registros suspeitos para cada grupo, a comparação com outros registros de toda a rede speciesLink e/ou sugestões de preenchimento, que podem ser acatadas ou não pelo curador.

Figura 1. Relatório dataCleaning do Herbário HRCB em 24/04/2013


REGISTROS SUSPEITOS RELACIONADOS À GESTÃO De acordo com o relatório do dataCleaning (Figura 1), o herbário possui poucos registros suspeitos relacionados à gestão. Possui 1 registro com o número de catálogo em branco, possui poucos registros com números de catálogo repetidos (287) ou registros duplicados (23). Possui 353 registros com nome + número do coletor repetidos, que podem ser duplicatas que não necessitam de correção, como também podem ser erros de digitação.

REGISTROS SUSPEITOS RELACIONADOS À TAXONOMIA Os dados apresentam um número pequeno de registros suspeitos, a maioria relacionada a erros de grafia de fácil correção (tabela 2). Tabela 2. Percentual de registros suspeitos relacionados à taxonomia

Avaliação dos registros de taxonomia Registros % Total online 14.498 Registros suspeitos para o campo Família 94 0,6% Registros suspeitos para o campo Gênero 95 0,6% Registros suspeitos para o campo Espécie 34 0,2% Registros suspeitos para o campo Subespécie 0 0,0% Registros suspeitos para o campo Autor 1.726 12% Possíveis Duplicatas com diferentes nomes de espécie 1.518 10,4% Incompletude dos dados (maioria com o campo gênero preenchido e o 1 0,0% campo família em branco)

Novamente é importante entender que o número de registros indicados como suspeitos é maior que o número de erros. O sistema faz uma comparação fonética de nomes e apresenta como suspeitos todos os nomes foneticamente iguais com diferentes grafias. Por exemplo, se o HRCB possuir 93 registros com o campo família Chrysobalanaceae e 1 registro com o campo família Chrisobalanaceae. O relatório dataCleaning apresenta como resultado 94 registros suspeitos, quando apenas 1 está, de fato, errado. Dentre os registros relacionados à taxonomia, o herbário apresenta uma proporção maior com o campo autor suspeito (12%). Esse campo possui maior probabilidade de apresentar registros suspeitos, pois são campos que são preenchidos com caracteres como parêntesis ou pontos para abreviação e qualquer variação representa uma diferença identificada pelo sistema. Por exemplo, todas as formas a seguir são identificadas como registros diferentes: (Benth.) Barneby & Grimes; (Benth) Barneby & J.W.Grimes; (Benth) Barneby & Grimes. Ainda assim, são registros de fácil correção. Durante a visita foi enfatizada a importância da padronização dos dados e do uso, sempre que possível, de padrões ou convenções oficiais. No campo específico autor existe uma convenção que deve ser seguida rigorosamente. O item duplicata merece especial atenção, pois possibilita a atualização ou correção de identificação entre duplicatas enviadas para diferentes coleções. Nesse item, para os dados de mesmo número e nome de coletor são comparados os campos gênero + espécie + subespécie entre diferentes coleções e, caso algum especialista tenha visitado alguma dessas coleções e


atualizado a identificação, essa atualização é mostrada junto com o nome do determinador e data.

REGISTROS SUSPEITOS RELACIONADOS AO GEORREFERENCIAMENTO Os dados apresentam número elevado de coordenadas suspeitas (tabela 3). Tabela 3. Percentual de registros suspeitos relacionados à taxonomia

Avaliação da coordenada geográfica Registros suspeitos % Total georreferenciado 3.915 Registros com o nome do país/estado suspeito 152 4% Registros que representam outliers 152 4% Registros com long/lat fora do limite mundial não encontrado Registros com long/lat iguais não encontrado Registros com long ou lat igual a zero 288 7,3% Registros com long/lat no mar (Brasil) 154 4% Registros com nome do município suspeito (Brasil) 786 20% Análise da coordenada (Brasil)1 4 0,1% Outras inconsistências2 11 0,3%

Para os registros georreferenciados, o aplicativo compara os dados relativos aos campos país, estado e município com os dados do IBGE para a coordenada informada. Havendo diferenças, os registros são apresentados como suspeitos. Para cada registro suspeito é disponibilizado um mapa mostrando o ponto informado e os limites do município, estado ou pais. Para o campo município, essa ferramenta é mais eficiente em estados com municípios pequenos. É importante entender que esses registros considerados suspeitos são uma sugestão, cabendo ao curador optar pela mudança ou não dos seus dados. A maioria dos registros com long/lat no mar está com uma das coordenadas iguais a zero e a maioria dos registros que apresenta latitude ou longitude igual a zero possui algum tipo de erro ou caracter especial que não puderam ser lidos pelo sistema no momento da importação. Caracteres que não podem ser lidos são substituídos por zero. Por exemplo, dados com valores de minutos ou segundos maiores que 60 ou símbolos de graus, minutos ou segundos desconfigurados aparecem como zero no sistema. Cada um desses erros são registrados nos registros de logs de erros da coleção quando da importação dos dados e estão disponíveis no Network Manager3 em dados técnicos localizado no combo superior esquerdo e logs de erro, no combo superior direito. A análise de dispersão das coordenadas geográficas também realizada pela ferramenta dataCleaning (figura 2) sugere que o herbário está sendo consistente na representação das coordenadas geográficas, pois os pontos estão distribuídos uniformemente na figura. A presença de maior concentração de pontos abaixo ou igual a 0.6 para latitude e longitude 1

Para os registros no Brasil cuja coordenada não cai no país, estado ou município informado, o sistema verifica se a coordenada pode estar em graus, minutos e segundos ao invés de graus decimais e reavalia a consistência dos dados. Se os dados passam a ser consistentes, o registro é mostrado pelo aplicativo. 2 Outras inconsistências representam registros incompletos, p.ex., com os campos país e município preenchidos e sem o nome do estado. 3 http://splink.cria.org.br/manager/detail?system=&resource=HRCB&setlang=pt


sugeriria que as coordenadas não foram transformadas, uma vez que coordenadas em graus decimais tem a parte decimal variando de 0 a 0.999. O diagrama mostra uma concentração nos valores iguais a zero, problema descrito no parágrafo anterior.

Figura 2. Análise de dispersão com a visualização dos valores referentes à parte decimal da coordenada, onde é possível notar uma maior concentração de pontos iguais ou menores que 0.6 para latitude e longitude

REGISTROS RELACIONADOS À DATA Os dados não apresentam registros suspeitos em relação à data da coleta.

STATUS DE IDENTIFICAÇÃO DOS DADOS Todos os 14.498 registros do HRCB estão preenchidos com nome da família. Fazendo a busca por registros com valores em branco somente para os campos gênero e espécie e não branco para família, ou seja, identificados até família, encontramos 485 registros (3,3% dos registros indexados). A família Bignoniaceae é a que apresenta mais registros (65), seguida por Cyperaceae (59) e Amaranthaceae (59) (Figura 3).


Figura 3. Percentual de registros identificados até família agrupados por família no herbário HRCB Fazendo a busca por amostras identificadas até gênero, encontramos 1.710 registros (12% dos registros indexados). A família Asteraceae é a que apresenta mais registros (255), seguida por Bignoniaceae (224) e Cyperaceae (165) (Figura 4).

Figura 4. Proporção de registros identificados até gênero agrupados por família no herbário HRCB Buscando amostras identificadas pelo menos até gênero e com determinador em branco, encontramos 3.521 registros (24,2%). É importante que esse campo seja preenchido, pois em discussões internacionais, um dos campos que atesta a qualidade dos dados é o determinador.

COMENTÁRIOS O speciesLink possui um sistema de comentários, em que qualquer usuário pode submeter um comentário sobre determinado registro. Esse comentário precisa ser identificado com nome e email. Após a submissão, um email é enviado para confirmação da identidade do remetente e, após a confirmação, o curador do herbário recebe por email esse comentário. Essa ferramenta tem sido bastante utilizada principalmente para especialistas atualizarem ou corrigirem identificações a distância. O HRCB possui 3 registros com comentários (HRCB 11271, 14232 e


11270) relacionados com a atualização do nome da espécie. Abaixo figura com exemplo de comentário (Figura 5).

Figura 5. Exemplo de comentário em registro do herbário HRCB.

RESULTADOS PRINCIPAIS PONTOS POSITIVOS APONTADOS PELO HRCB: O HRCB possui um bolsista financiado pelo INCT responsável pela digitação e correção dos dados, e sua presença tem sido decisiva para a constante atualização dos dados na rede speciesLink. O herbário possui ainda um scanner disponível para inserir imagens no sistema.

PRINCIPAIS PONTOS NEGATIVOS APONTADOS PELO HRCB: O principal ponto negativo levantado pelo HRCB foi a falta de pessoal para iniciar a digitalização das exsicatas. O herbário pretende adquirir uma máquina para fotografar outras exsicatas, pois o processo é mais rápido que o escaneamento.

SUGESTÕES DO HRCB 

  

Incluir a coluna “família” nos registros suspeitos de duplicatas (http://splink.cria.org.br/dc/show?criaLANG=pt&system=&cod_col=HRCB&what=susp_coll ector). Concatenar os prefixos e sufixos do números de coleta no momento da importação para o speciesLink. Buscar com outros herbários sugestões sobre a forma mais eficiente de produção de imagens. Indicar na interface de mapa para registros suspeitos relacionados ao georreferenciamento qual dos pontos é o fornecido pela coleção e qual é a sugestão de correção do dataCleaning.

RECOMENDAÇÕES DO CRIA 

A partir de agora preencher a classificação taxonômica completa para as amostras, incluindo Reino, Filo, Classe e Ordem.


   

Incluir o “Como Citar” e o sistema de classificação utilizado na descrição do Herbário: http://splink.cria.org.br/manager/detail?setlang=pt&resource=HRCB - já implementado Incluir o sistema de classificação adotado na descrição do Herbário. Inserir o contato do bolsista INCT do HRCB (Matheus Carvalho) nos contatos do herbário: http://splink.cria.org.br/manager/detail?setlang=pt&resource=HRCB Iniciar o trabalho da correção dos erros pelos dados taxonômicos, por ser mais rápido, uma vez que erros de grafia podem ser consertados direto no banco de dados, sem necessidade de consulta à exsicata – já corrigido Iniciar a digitalização das exsicatas pelos Tipos

ENCAMINHAMENTOS PARA FUTUROS TREINAMENTOS    

 

Incluir nos treinamentos material e explicações detalhadas sobre georreferenciamento para os curadores e técnicos das coleções; Disponibilizar material específico sobre georreferenciamento para todos os usuários das coleções; Importância da padronização dos dados e do uso de padrões Enfatizar que os números mostrados no relatório de dataCleaning estão “inflados” pois é trata-se de registros “suspeitos” e não registros “com erro”. Por isso, o trabalho é menor do que parece; Encorajar a correção dos dados mesmo aos poucos. O envio do banco de dados para o CRIA é fácil, rápido e não há limite de atualizações, ou seja, caso em um dia o curador tenha tido tempo para corrigir somente 10 registros, essa nova tabela já pode ser enviada; Encorajar a comunicação freqüente entre a coleção e a bolsista responsável pela qualidade de dados no CRIA. Qualquer sugestão, dúvida ou critica pode ser resolvida por email ou telefone; Enfatizar a diferença entre registros suspeitos e errados; Enfatizar que, por mais escasso que o tempo para correção possa ser no momento, é importante adotar práticas de controle de qualidade dos dados para as novas amostras depositadas, evitando assim o aumento da quantidade de erros para correção no futuro; Enfatizar que a completude, padronização e qualidade dos dados aumenta a sua usabilidade, o que valoriza e dá destaque ao trabalho do herbário.

Campinas, 17 de Maio de 2013.

Flávia Fonseca Pezzini CRIA


Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.