Mineração de dados em
bases jurídicas: um estudo de caso
Data mining in legal basis: a case study
Minería de datos en bases legales: un estudio de caso
Talita de Souza Rampão
Universidade Federal do Paraná (UFPR)
Brasil
Denise Fukumi Tsunoda
Universidade Federal do Paraná (UFPR)
Brasil
Submetido em: 21/04/2021
Aceito em: 14/06/2021
Publicado em: 28/10/2021
Licença:
Autor para correspondência: Talita
de Souza Rampão
Email: talitasouza.qb@gmail.com
ORCID: http://orcid.org/0000-0002-0081-5088
Como citar
este artigo:
TSUNODA, Denise; RAMPÃO, Talita. TCC Mineração de
dados em bases jurídicas: um estudo de caso. REBECIN, São Paulo, v. 8, edição especial, p. 1-14, 2021. DOI: 10.24208/rebecin.v8i.249
RESUMO
Apresenta o resultado de um TCC (Trabalho de Conclusão
de Curso) desenvolvido no curso de Gestão da Informação referente a aplicação da
mineração de dados em uma base de dados jurídica contendo processos cíveis de
direito do consumidor. A pesquisa objetivou a aplicação de técnicas de mineração
de dados na área jurídica para verificar a existência de padrões de decisões
judiciais de acordo com o Estado em que tramitava o processo. No estudo foi
realizada a aplicação das tarefas de classificação e associação por meio dos
métodos Apriori, PART, Decision
Table, J48 (C4.5) e REPTree.
Os resultados demonstram que é possível identificar padrões de decisões
judiciais de acordo com o órgão julgador, tipo de ação e região (Estado) que
tramitava o processo. Propõe a análise e continuidade do estudo para verificar
a aplicação de técnicas de mineração em outras bases de dados jurídicas, a fim
de validar a proposta e comparar as variações nos resultados obtidos.
Palavras-Chave: Direito; Gestão da Informação;
Descoberta de Conhecimento em Bases de Dados; Mineração de Dados; Tomada de
Decisão.
ABSTRACT
It presents the
result of a term paper developed in the Information Management course about the
application of data mining in a legal database containing civil lawsuits of
consumers. The research aimed to apply data mining techniques in the legal area
to verify the existence of patterns or tendencies of judicial decisions
according to the State in which the lawsuit was processed. The study performed
the application of classification and association tasks through the Apriori, PART, Decision Table, J48 (C4.5), and REPTree methods. The result shows that it is possible to
predict trends in judicial decisions according to the judging place, type of
lawsuit, and region that processed the lawsuit. It proposes the study's
analysis and continuity to verify the application of data mining techniques in
other legal databases to validate the proposal and compare the variations in
the results obtained.
Keywords: Law; Information Management; Knowledge
Discovery in Database; Data Mining; Decision-Making.
RESUMEN
Presenta el resultado de un TCC (Course Completion Work) desarrollado en el curso de Gestión de la Información sobre la aplicación de la minería de datos en una base de datos legal que contiene juicios civiles bajo derecho del consumidor. La investigación tuvo como objetivo
aplicar técnicas de minería de datos en el ámbito jurídico
para verificar la existencia
de patrones de decisiones judiciales según el Estado en el que se tramitó el caso. En el estudio,
las tareas de clasificación
y asociación se aplicaron utilizando los métodos Apriori, PART, Decision Table, J48 (C4.5) y REPTree. Los resultados demuestran que es posible identificar patrones de decisiones judiciales según el órgano de juzgamiento, tipo de acción y región (Estado) que manejó el caso. Propone el análisis y continuidad del estudio para verificar la aplicación de técnicas mineras en otras
bases de datos legales, con
el fin de validar la propuesta
y comparar las variaciones en los resultados obtenidos.
Palabras llave: Derecho; Gestión de la información; Descubrimiento de conocimientos en bases de datos; Procesamiento de datos; Toma de decisiones.
A Era da Informação
trouxe mudanças no paradigma da sociedade, facilitando o acesso, uso e
compartilhamento instantâneo das informações com o auxílio das Tecnologias de
Informação e Comunicação (TIC). De acordo com Sidney (2010), essa grande
quantidade de dados torna a análise humana onerosa e métodos tradicionais de
recuperação de dados, mesmo que sejam sofisticados, não são eficazes para
descoberta de conhecimentos “ocultos” em massas de dados.
Para auxiliar na tomada
de decisão Caetano (2000) afirma que ferramentas estão sendo utilizadas, de
modo a auxiliar na análise dos problemas, bem como transformar informações
complexas em informações relevantes, auxiliando na avaliação de resultados.
Nesse contexto, surge como alternativa o KDD (Knowledge
Discovery in Databases), um processo de
descoberta de conhecimento que visa auxiliar na recuperação de informações
relevantes a partir de análise de padrões de grandes conjuntos de dados. O KDD
conta com as fases de seleção, pré-processamento, transformação, mineração dos
dados e interpretação de resultados.
Entre todas as etapas do
KDD, a etapa de mineração de dados recebe maior destaque na literatura,
considerando que passou a ser vista como um diferencial competitivo, auxiliando
os tomadores de decisão a realizarem escolhas estratégicas.
A mineração de dados vem
sendo aplicada em diversos segmentos do mercado, apoiando os profissionais nas
tomadas de decisão. Castro e Ferrari (2016, p. 17) demonstram alguns exemplos
da aplicação: análise e predição de crédito, detecção de fraudes, predição do
mercado financeiro, relacionamento com clientes, predição de falência
corporativa, entre muitas outras.
No campo de atuação
jurídico foi identificado um grande potencial de estudo, considerando que
existem grandes volumes de processos tramitando nos tribunais brasileiros,
tornando complexo extrair padrões entre as decisões proferidas devido à falta
da uniformização processual. Com isso, essa pesquisa descreve a aplicação de
técnicas de mineração de dados sobre uma base jurídica cedida por uma
organização atuante no ramo, de modo a identificar se existem padrões, conforme
o Estado em que tramita o processo.
2 KNOWLEDGE DISCOVERY IN DATABASE (KDD)
O Knowledge
Discovery In Database consiste no processo de
descoberta de padrões pela análise de grandes conjuntos de dados, tendo como
principal etapa o processo de mineração, consistindo na execução prática de
análise e de algoritmos específicos que, sob limitações de eficiência computacionais
aceitáveis, produz uma relação particular de padrões a partir de dados (FAYYAD;
PIATETSKY-SHAPIRO; SMYTH, 1996).
Fayyad, Piatetsky-Shapiro
e Smyth (1996, p.41) afirmam que o processo de KDD é
interativo e iterativo, envolvendo vários passos com muitas decisões tomadas
pelo usuário. Os autores consideram o processo de KDD dividido em nove etapas,
conforme detalhamento apresentado na sequência:
Figura 1: Processos de KDD
Fonte: Free Templates[1]
modificado de Fayyad, Piatetsky-Shapiro
e Smyth (1996, p. 41)
Em resumo, os passos são:
(a) conhecimento do domínio da aplicação; (b) criação de um banco de dados alvo por meio da
seleção de um conjunto de dados ou dar ênfase para um subconjunto de variáveis
ou exemplo de dados nos quais o ‘descobrimento’ será realizado; (c) consiste na
limpeza de dados e pré-processamento por meio de operações básicas tais como
remover ruídos, coleta de informação, estratégias de tratamento e outros; (d) redução
e transformação dos dados; (e) escolha da tarefa de mineração de dados; (f)
contempla a avaliação e interpretação do modelo descoberto e possível retorno a
algum passo anterior; (g) utilização do descobrimento obtido.
2.1 Mineração de Dados
A mineração de dados (Data
Mining, em inglês) é um dos principais passos no processo de KDD, tendo
sido utilizada para melhorar sistemas de recuperação de informações. A ela
corresponde parte da descoberta de conhecimento em bases de dados (KDD), tendo
surgido a partir da necessidade de desenvolver ferramentas mais eficientes e
escaláveis que pudessem lidar com diversos tipos de dados. (TAN; STEINBACH;
KUMAR, 2009, p. 7).
O objetivo da mineração
de dados é a extração de conhecimento implícito por meio da descoberta de
padrões e regras significativas, a partir de grande quantidade de dados
armazenados, de forma automática ou semiautomática, utilizando modelos
computacionais construídos para descobrir novos fatos e relacionamentos entre
dados, de forma repetida e interativa (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996).
De acordo com a abordagem
de Tan, Steinbach e Kumar
(2009, p. 9), existem quatro tarefas centrais da mineração de dados: modelagem
preditiva, análise de associação, detecção de anomalias e análise de
agrupamentos.
2.2 Mineração de Dados e bases jurídicas
Para que fosse
identificada a relevância do tema, mesmo após quatro anos de defesa do referido
Trabalho de Conclusão de Curso, foi conduzida uma pesquisa na base Web Of Science (WOS), no dia 07 de abril de 2021, com os
descritores ((data mining OR knowledge
discover in database OR text mining) AND justice) em inglês e em
português. Não obtendo retorno para os termos em português, passou-se para a
análise dos 68 resultados com os descritores em inglês nas ferramentas VosViewer e Biblioshiny (em
linguagem R).
Em relação aos anos, nos
últimos 10 anos, verifica-se um aumento nas publicações relacionadas ao tema
pesquisado, conforme Gráfico 1.
Gráfico 1: Publicações por ano
Fonte: Elaborado pelas autoras
(2021).
Em relação aos países,
dos 68 trabalhos, 26 (38,24%) são dos EUA, 10 (14,71%) da China, 5 (7,35%) da
Austrália, 4 (5,88%) da Holanda e 3 (4,41%) da Inglaterra. O Brasil não
apresenta publicação relacionada ao tema na base pesquisada.
O mapa de relacionamento
das palavras-chaves dos autores permite identificar a relação de “data mining”
com “privacy” e também “big data”, conforme Figura 2.
Figura 2: Rede de relações das
palavras-chaves dos autores
Fonte: Elaborado pelas autoras
(2021).
Por meio da análise das palavras-chaves
estendidas em nuvem, observa-se novamente a prevalência de alguns termos,
dentre os quais destacam-se: privacy, big data, decision making e frameworks, conforme Figura 3.
Figura 3: Nuvem de palavras-chaves estendidas
Fonte: Elaborado pelas autoras
(2021).
3 RESULTADOS E DISCUSSÃO
A pesquisa foi realizada
em uma organização privada de Curitiba atuante no segmento jurídico. A base de
dados analisada contava com, aproximadamente, mil processos cíveis de direito
do consumidor. O atributo meta da análise consistiu no motivo de arquivamento
de processos jurídicos com a finalidade de verificar se existe um padrão de
decisões judiciais baseado no tipo de ação, região (UF) e órgão julgador que
tramita o processo.
Para proceder a análise
da base foram utilizados os métodos de classificação e associação para dar
suporte a análise dos dados. Na tarefa de classificação foram utilizadas as
heurísticas de regras e árvores, pois apresentam maior facilidade para compreensão
dos resultados. Na heurística de regras foi utilizado o algoritmo PART e Decision table, enquanto na
heurística de árvores o algoritmo J48 e REPTree. Já
na tarefa de associação foi utilizado o algoritmo Apriori,
considerando ser o método mais conhecido para mineração de regras de
associação.
Na execução do algoritmo Apriori foram obtidas regras com a combinação das variáveis
“Ação”, “Região”, “Órgão Julgador” e “Motivo Arquivamento” que permitiram
concluir que as ações classificadas como “Outras” tramitando na região sudeste
e pelo PROCON apresentaram motivo de arquivamento “Outros”.
Como método de
classificação foi utilizado do PART que retorna como os resultado da árvore de
decisão resultante da aplicação do método C4.5 em formato de regras. Com base
nos resultados obtidos pelo experimento demonstrado na Figura 4 é possível
verificar a tendência de realização de acordos em ações revisionais que
tramitam na região sul. Também é possível analisar que são comuns condenações
em ações de cobrança de tarifa e dano moral, ações de tarifa tramitando na
região nordeste e ações “outras” tramitando na região centro-oeste. Dessa
forma, esses seriam os casos mais críticos que deveriam ser analisados pelo
escritório de advocacia para conseguir reduzir a quantidade de condenações.
Figura 4: Mapa conceitual algoritmo Apriori
Fonte:
Elaborado pelas autoras (2016).
Com o algoritmo Decision Table foram obtidas 17
regras que foram sintetizadas no mapa conceitual demonstrado na Figura 5. Com
base nos resultados é possível verificar que a classificação dos processos com
“Extinção Sem Mérito” ainda são os que apresentam maior dificuldade no
reconhecimento de padrões, encontrando quase todos os tipos de ações e órgãos
julgadores.
Figura 5: Mapa Conceitual algoritmo Decision Table
Fonte:
Elaborado pelas autoras (2016).
Com a utilização do C4.5,
no Weka J48, um método de árvore de decisão,
verificou-se a raiz da árvore como sendo o atributo “Órgão Julgador”, sendo
este, portanto, o atributo com maior influência. O segundo atributo com maior
influência corresponde ao “tipo de ação”, seguido de “região”. Para PROCON,
Vara Única e Cejusc o resultado foi simplificado,
mostrando diretamente o motivo do arquivamento. Já pra VC e JEC existem outros
atributos que exercem influência sobre o motivo do arquivamento. Com base no
resultado da árvore de decisão foi gerado o mapa conceitual demonstrado na
Figura 6 para sintetizar os resultados de acordo com o motivo de arquivamento
do processo.
Figura 6: Mapa Conceitual algoritmo J48
Fonte:
Elaborado pelas autoras (2016).
Na heurística de árvores
também foi executado o algoritmo REPTree. A árvore de
decisão gerou com raiz o campo “Órgão Julgador”, sendo este, portanto, o
atributo com maior influência. O segundo atributo com maior influência
corresponde ao tipo de ação, seguido de região. Para PROCON, Vara Única e Cejusc o resultado foi simplificado, mostrando diretamente
o motivo do arquivamento. Já pra VC e JEC existem outros atributos que exercem
influência sobre o motivo do arquivamento. Com base nos resultados da simulação
foi gerado o mapa conceitual demonstrado na Figura 7.
Figura 7: Mapa Conceitual algoritmo REPTree
Fonte:
Elaborado pelas autoras (2016).
Após a execução de todos
os experimentos foi realizada a comparação entre os resultados dos algoritmos
com base nas instâncias classificadas correta e incorretamente, conforme demonstrado
no Gráfico 2. Analisando os dados é possível identificar que o algoritmo Decision Table realizou uma
classificação mais eficiente dos atributos, seguido de J48, REPTree
e Part.
Gráfico 2: Desempenho de classificação
Fonte:
Elaborado pelas autoras (2016).
Os algoritmos J48 e Decision Table atenderam melhor
as características da base de dados. Eles conseguiram apresentar resultados
satisfatórios para análise, mantendo a acurácia da base de dados e tornando os
resultados relevantes para a análise. O J48 apresenta a vantagem de gerar a
árvore de decisão que facilita a análise para a tomada de decisão. O Decision Table, por sua vez, gera
uma tabela de decisão que também permite analisar condições, contudo, torna a
análise mais demorada por não gerar uma representação gráfica. Além disso, o
algoritmo gera resultados mais simplificados, tendo em vista que não considera
todas as hipóteses possíveis, enquanto na árvore de decisão podem ser
analisados todos os caminhos possíveis.
4 CONSIDERAÇÕES FINAIS
A gestão dos dados e
informações tem recebido cada vez mais atenção pelas organizações, considerando
que com o adequado tratamento podem-se tornar fonte de vantagem competitiva.
Nesse cenário, a mineração de dados tem sido cada vez mais difundida como
ferramenta de apoio para a extração de conhecimento nas bases de dados, tendo
sido aplicada em diversos ramos de atuação.
No meio jurídico não
existem muitos estudos desenvolvidos que auxiliem os profissionais a realizarem
a tomada de decisão com base em informações fundamentadas. A pesquisa realizada
na WOS aponta, inclusive, que o Brasil não tem publicado no tema pesquisado.
Em relação aos resultados
obtidos com a mineração de dados, os algoritmos da tarefa de classificação
tiveram resultados mais satisfatórios, considerando que que apresentaram dados
mais compreensíveis, permitindo a análise por pessoas que não dominem as
técnicas de mineração de dados. Na tarefa de associação, os resultados não
foram muito satisfatórios, pois o algoritmo não permite escolher o atributo
meta, gerando poucas regras com importância para o enfoque da pesquisa.
Para trabalhos futuros
sugere-se a aplicação do estudo em outras bases de dados jurídicas, de forma a
validar a proposta e comparar as mudanças nos resultados obtidos. Além disso, é
recomendada a aplicação das técnicas em outras áreas do Direito, a fim de
verificar se também ocorre a falta de uniformização das decisões jurídicas.
REFERÊNCIAS
CAETANO,
A. G. L. S. Sistemas de supervisão de chão-de-fábrica: uma contribuição
para implantação em indústrias de usinagem. 2000. Dissertação (Mestrado em
Engenharia) - Escola de Engenharia de São Carlos da Universidade de São Paulo,
SP, 2000.
CASTRO,
L. N.; FERRARI, D. G. Introdução à mineração de dados: conceitos
básicos, algoritmos e aplicações. São Paulo: Saraiva, 2016.
FAYYAD,
U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge discovery in
databases. AI magazine, v. 17, n. 3, p. 37, 1996. Disponível em:
http://www.csd.uwo.ca/faculty/ling/cs435/fayyad.pdf. Acesso em: 07 maio 2021.
SIDNEY,
C. F. Aplicação de mineração de dados no banco de dados do zoneamento
ecológico econômico de minas gerais. 2010. 60f. TCC (Graduação em Sistemas
de Informação) - Departamento de Ciência da Computação, Universidade Federal de
Lavras, Lavras, 2010. Disponível em: http://goo.gl/zZk0ds. Acesso em: 07 maio
2021.
TAN,
P.-N.; STEINBACH, M.; KUMAR, V. Introdução ao data mining: mineração de
dados. Rio de Janeiro: Ciência Moderna, 2009. 900p.
[1] Your Free Templates. Disponível em: https://yourfreetemplates.com/free-data-mining-template/. Acesso em: 07 abr. 2021.