Não existe nada mais desalentador do que iniciar uma análise e se deparar com um conjunto de dados que não está organizado. Podem ser arquivos com muitas planilhas e colunas sem um padrão bem definido, bases de dados com um grande número de tabelas com nomenclatura indecifrável ou os próprios registros sem uma estrutura padronizada.
Não importa qual seja a forma da desorganização, olhar para dados brutos sem uma boa formatação sempre traz um desafio ímpar para decifrar, organizar e extrair dali aquilo que seja mais útil para trazer à tona as respostas para o caso.
Ou ainda, pode ser que os dados nem estejam desestruturados, mas que a quantidade de arquivos, planilhas e tabelas seja tão grande, que identificar o que realmente será útil é um desafio de igual proporção.
Infelizmente ainda não temos nenhuma ferramenta mágica, mesmo na era da inteligência artificial, que consiga decifrar a estrutura dos dados e trazer um mapa daqueles que serão os mais úteis para os cruzamentos que precisamos fazer.
A parte alentadora é que, a menos que os dados sejam realmente ilegíveis, sempre há uma forma de identificar a localização das informações mais importantes para a investigação e uma forma de formata-las e transformá-las em diagramas de análise de vínculos que tragam respostas às questões investigativas.
Tudo bem, o mundo não costuma ser um completo caos, e os dados nem sempre são totalmente desestruturados. Podemos estar falando de dados que precisam apenas de pequenos ajustes ou que sejam observados da maneira correta para serem perfeitamente cruzados.
Por isso, trago neste artigo algumas dicas que podem ajudar na estruturação dos dados que serão analisados, estejam eles muito ou apenas um pouco desorganizados.
1. Tenha as principais perguntas em mente
Saber claramente de antemão o que se está procurando é fator primordial para ajudar a organizar os dados. Quando se tem uma pergunta clara em mente, fica mais fácil olhar para os dados brutos e buscar a localização das informações que serão utilizadas na análise.
Por exemplo, se estou buscando dados de relacionamento entre pessoas e empresas em uma base de dados de um grande sistema fazendário, buscar aqueles que dizem respeito ao cadastro do contribuinte, seus sócios, contadores, etc., irão ajudar a filtrar as tabelas que não dizem respeito ao tema principal da análise.
Por isso, sempre reserve alguns minutos antes de iniciar a exploração dos arquivos para estudar o problema e elaborar as principais perguntas que precisão ser respondidas.
2. Elabore mentalmente a estrutura de relacionamentos da análise
Sempre digo nos meus treinamentos que precisamos desenvolver a capacidade de olhar para uma planilha e enxergar um diagrama de análise de vínculos nela.
O que isso significa na prática?
Imagine que você está de frente para uma complexa planilha com dados de um extrato telefônico com dezenas de colunas com informações de telefones, IMEIs, chamadas telefônicas, ERBs, endereços, titulares, entre outros.
Essa planilha precisa ser transformada em um diagrama analisável. Para isso, precisamos nos concentrar em quais objetos podem ser criados em cada registro da planilha, como eles relacionam entre si e qual informação vai em qual lugar.
Quem é o telefone de origem? Quem é o telefone de destino? Quais são os dados da chamada telefônica? Quais antenas foram utilizadas por qual telefone? Qual o endereço de cada antena? Quem os titulares das linhas telefônicas? Quais colunas são atributos de quais entidades e ligações?
Conseguir olhar para um registro e enxergar entidades, ligações e atributos ajuda e muito no processo de organização das fontes de dados.
3. Não se distaria com dados que não fazem parte do contexto
Depois de identificados os objetos, quais realmente são importantes para as perguntas que eu quero responder?
Nesse ponto, o importante é conseguir ignorar (pelo menos inicialmente) aqueles dados que não fazem parte da pergunta principal e aqueles que não fazem parte dos objetos que serão analisados.
Resista ao impulso de querer analisar tudo de uma vez só!
No exemplo anterior, imagine que a pergunta é “descobrir com quem o telefone alvo se comunica com mais frequência”. Para isso será necessário analisar somente as chamadas telefônicas e os titulares das linhas telefônicas, e qualquer informação adicional de IMEI, ERB, endereço, etc., não serão necessários nessa fase.
Por isso, simplesmente não olhe para eles e siga a sua análise até chegar em alguma pergunta para a qual eles poderão ser úteis.
O problema aqui é que o excesso de informação poderá gerar mais confusão visual do que ajudar a chegar às respostas.
4. Foque no padrão dos dados
Depois que a estrutura estiver mais clara é hora de olhar para os dados propriamente ditos, e um dos fatores que costumam gerar confusão na análise é a falta de padrão na escrita e na formatação.
Voltando para os dados telefônicos, é muito comum que o mesmo telefone esteja escrito de várias formas em um mesmo extrato telefônico, como no exemplo a seguir.
+55 41 99988-7766
55 41 99988-7766
041 99988-7766
41 99988-7766
99988-7766
O mesmo pode acontecer com números de documentos, nome de pessoas, números de contas bancárias, datas, horas ou qualquer outra informação que se repita ao longo dos registros.
Por isso, é sempre importante realizar uma inspeção visual nos dados antes de realizar as transformações em diagramas, porque dados escritos de formas diferentes acabarão se tornando objetos diferentes nos diagramas, o que é muito indesejado.
A simples ação de organizar colunas em ordem alfabética no Excel, por exemplo, pode ajudar a identificar o padrão (ou falta dele) nos dados, e indicar quais colunas precisam de atenção especial quando forem utilizadas.
É claro que as boas ferramentas de análise de vínculos, como Caseboard, possuem a capacidade de identificar identidades semelhantes, e isso pode poupar um bom tempo da análise mesmo depois de os dados terem sido transformados em diagramas.
5. Tenha atenção com os arquivos múltiplos
Outro item de atenção especial é quando a análise precisa ser realizada com arquivos de fontes diferentes, como dados de extratos telefônicos ou bancários, pois eles podem vir formatados de formas diferentes.
Quando digo formatado, não estou falando somente do nome e da ordem das colunas, mas também da formatação dos dados nos registros, como apontado no item anterior, além de formatos de data e hora diferentes, o que é muito comum.
Certa vez um investigador estava analisando dados de duas companhias telefônicas diferentes, e ele tinha certeza que havia correlação entre os alvos, no entanto os seus diagramas estavam criando dois grupos separados.
Ao observar os dados com mais cuidado, foi detectado uma pequena diferença de padrão entre a escrita dos números dos telefones, e o diagrama criava os “mesmos telefones” mais de uma vez, porque seus discriminadores acabaram ficando diferentes.
Por isso, é sempre importante estar atento à forma em que cada fonte utiliza de padrão para os seus dados.
Conclusão
A análise de vínculos traz consigo uma série de desafios, e o primeiro deles pode estar justamente nos dados brutos. Por isso, ter uma boa estratégia e adotar boas práticas para trabalhar com os dados iniciais contribui significativamente não só para a qualidade dos diagramas que se quer produzir, mas também no tempo do trabalho como todo, e evita desperdício de tempo com informações que não precisam ser utilizadas.