User journey: log analysis as a
methodology for the study of information searching behavior of users of the
Portal LexML
User
journey: el análisis de los logs como metodología para estudiar el
comportamiento de búsqueda en los sistemas de información de los usuarios del
Portal LexML
Samuel Santos da Rosa
Universidade
Federal do Rio Grande do Sul, Brasil
Rita do Carmo Ferreira Laipelt
Universidade
Federal do Rio Grande do Sul, Brasil
Luciana
Monteiro-Krebs
Universidade Federal do Rio Grande do Sul, Brasil
Submetido em: 23/04/2021
Aceito em: 14/06/2021
Publicado em: 28/10/2021
Licença:
Autor para
correspondência: Samuel Santos da Rosa
Email: samuel.sdrosa@gmail.com
ORCID: https://orcid.org/0000-0001-7209-6644
Como citar
este artigo:
ROSA,
Samuel Santos da; LAIPELT, Rita do Carmo Ferreira; MONTEIRO-KREBS, Luciana.
Jornada do usuário: a análise de logs como metodologia para o estudo do
comportamento de busca em sistemas de informação dos usuários do Portal LexML. REBECIN, São Paulo, v. 8, edição especial,
p. 01-12, 2021. DOI: 10.24208/rebecin.v8i.255
RESUMO
O crescimento exponencial na produção e armazenamento
da informação tem gerado uma constante modificação no comportamento informacional
dos usuários, sendo necessária a utilização de métodos que auxiliem na coleta
de informações sobre esses usuários. A análise de logs é um desses métodos ao permitir identificar as ações dos
usuários de um sistema de informação. O presente trabalho tem como objetivo
analisar, por meio da metodologia de análise de logs, o comportamento de busca dos usuários em sistemas de
informação do Portal LexML. Compõem o corpus de análise 882 logs divididos em 236 jornadas de
usuário. Percurso metodológico ocorreu em quatro etapas: Estruturação e
Organização; Classificação e Seleção; Validação; Análise Estatística; e Análise
das Jornadas dos Usuários. Como resultados foram observados: (a) baixa
interação com o sistema e com alto índice de expressões modificadas na construção
das expressões e estratégias de busca dos usuários; (b) a construção de
estratégias que em sua maioria partem do geral para o específico; (c) uso de
numeração jurídica como o recurso terminológico mais utilizado; (d) um baixo
uso de booleanos e modificadores. Identificamos um perfil de usuário
caracterizado por pesquisas simples com baixo índice de solicitação ao sistema.
Conclui-se que a análise de logs é
uma fonte de dados valiosa para o estudo do comportamento de busca em sistemas
de informação, ao trazer uma gama de informações disponíveis passiveis de
análise, fazendo desta uma metodologia importante no aperfeiçoamento do SRI e
processo de indexação.
Palavras-Chave: Análise de Logs; Comportamento de Busca em Sistemas
de Informação; Recuperação da Informação; Sistemas de Recuperação da
Informação.
ABSTRACT
The exponential
growth in the production and storage of information has generated a constant
change in the informational behavior of users, requiring the use of methods
that assist in the collection of information about these users. The log
analysis is one of those methods, as it allows identifying the actions of users
of an information system. The present work aims to analyze, using the log
analysis methodology, the information searching behavior of users of the Portal
LexML. They compose the analysis corpus 882 logs divided into 236 user journeys
Methodological path occurred in four stages: Structuring and Organization;
Classification and Selection; Validation; Statistical analysis; and User
Journey Analysis. As results were observed: (a) low interaction with the system
and with high index of modified expressions in the construction of users
expressions and search strategies; (b) the construction of strategies that
mostly start from the general to the specific; (c) use of legal numbering as
the most used terminological resource; (d) a low use of booleans and modifiers.
We identified a user profile characterized by simple searches with a low rate
of request to the system. It is concluded that the log analysis is a valuable
data source for the study of information searching behavior, by bringing a
range of available information that can be analyzed, making this an important
methodology in the improvement of the SRI and indexing process.
Keywords: Log Analysis; Information Searching
Behaviour; Information Retrieval; Information Retrieval Systems.
RESUMEN
El
crecimiento exponencial en la producción y almacenamiento de información ha
generado una constante modificación en el comportamiento informativo de los
usuarios, siendo necesario el uso de métodos que ayuden a la recolección de
información sobre estos usuarios. El análisis de registros es uno de estos métodos,
que permite identificar las acciones de los usuarios de un sistema de
información. El presente trabajo pretende analizar, mediante la metodología de
análisis de logs, el comportamiento de búsqueda de los usuarios en los sistemas
de información del Portal LexML. El corpus de análisis consta de 882 registros
divididos en 236 jornadas de usuario. El curso metodológico se desarrolló en
cuatro etapas: estructuración y organización, clasificación y selección,
valoración, análisis estadístico y análisis de las jornadas de los usuarios. Como
se observaron los resultados: (a) baja interacción con el sistema y con alto
índice de expresiones modificadas en la construcción de las expresiones y
estrategias de búsqueda de los usuarios; (b) la construcción de estrategias que
parten mayoritariamente de lo general a lo específico; (c) uso de la numeración
legal como recurso terminológico más utilizado; (d) un bajo uso de booleanos y
modificadores. Identificamos un perfil de usuario caracterizado por búsquedas
sencillas con un bajo índice de solicitudes al sistema. Concluimos que el
análisis de registros es una valiosa fuente de datos para el estudio del
comportamiento de búsqueda en los sistemas de información, al aportar una serie
de información disponible susceptible de ser analizada, lo que la convierte en
una metodología importante en la mejora de los SRI y del proceso de indexación.
Palabras
clave: Análisis de registros; comportamiento de búsqueda en
sistemas de información; recuperación de información; sistemas de recuperación
de información.
As
Tecnologias de Informação e Comunicação tem proporcionado um crescimento
exponencial na produção e armazenamento da informação disponível na internet.
Isso se deve principalmente pela utilização dos catálogos on-line das
bibliotecas, repositórios digitais e bases de dados em geral, que permitem aos
usuários fazerem suas pesquisas remotamente. Por outro lado, a falta de contato
gera um desafio para a compreensão do processo de busca do usuário.
Torna-se
importante, com isso, que os Sistemas de Recuperação da Informação (SRI),
indexem considerando um público heterogêneo, de diferentes níveis de conhecimento,
como destacado nos trabalhos de Laipelt (2015a) e Monteiro-Krebs (2016), que
revelam a importância de envolver as linguagens especializada e leiga para o
aperfeiçoamento das linguagens documentárias.
A
análise de logs se estabelece como um método que permite identificar as ações dos usuários através das
expressões de busca, ao registrar a interação direta do usuário com o sistema.
Estas expressões podem ser vistas como pegadas de informação digital do
usuário, meio que este emprega para se comunicar com o sistema de informação.
A pesquisa
parte de uma abordagem que reúne aspectos quantitativos, qualitativos e
apresenta caráter empírico de análise e observação de dados. Seu corpus de análise é constituído pelas
expressões de busca utilizadas pelos usuários do Portal LexML[1]
(882 logs divididos em 236 jornadas
de usuário) extraídas dos arquivos log
no período de 2 a 24 de setembro de 2017.
No
Portal LexML, cada pesquisa realizada pelos usuários gera um registro, chamado
de log, que informa o número de IP (Internet Protocol), expressão de busca,
entre outras informações. Ao recebermos os logs,
o IP foi anonimizado através de embaralhamento automático, sem possibilidade de
identificação do usuário. O percurso metodológico ocorreu através da análise
dos logs em quatro etapas:
Estruturação e Organização; Classificação e Seleção; Validação; Análise
Estatística; e Análise das Jornadas dos Usuários.
A presente pesquisa
busca, portanto, analisar, por meio da metodologia de análise de logs, o comportamento de busca dos
usuários em sistemas de informação do
Portal LexML, através das estratégias utilizadas e identificar as características de busca
destes usuários.
2 COMPORTAMENTO DE BUSCA EM SISTEMAS DE INFORMAÇÃO
No estudo do comportamento
de busca em sistemas de informação (information
searching behaviour) são analisados todos os tipos de interações com o
sistema, no nível da interação homem-computador (por exemplo, clique em links) ou em nível intelectual (por
exemplo, adotando uma estratégia de busca booleana) (WILSON, 2000). Em nossa
análise observamos por ambos os níveis a relação do usuário com um SRI, que se
estabelece pelo conjunto de expressões que representam a estratégia de busca de
um usuário, constituindo assim o que chamamos de “Jornada do Usuário”.
O termo “estratégia de busca” é utilizado para
se referir à forma mais global da tomada de decisão no processo de busca de
informação, onde o usuário faz uso de diversos artifícios, como operadores
booleanos ou outros conectivos sintáticos combinados com os termos da pesquisa
e utilização direta de termos ou conjunto de termos (XIE; JOO, 2010).
O usuário ao interagir
com o SRI delineia sua busca e a concretiza junto ao SRI, tendo como resultado
a formulação de expressões. Desta forma, a observação e análise destas
estratégias de busca tornam-se fator essencial para o estudo do comportamento
de busca do usuário ao permitir verificar as ações realizadas.
O SRI deve se relacionar
às etapas de armazenamento e indexação da informação (representação do
conteúdo) para possibilitar ao usuário o desenvolvimento da melhor estratégia
de busca junto aos sistemas de informação. O processo de RI de forma simplificada se dá por meio da especificação de
três elementos: a representação
dos documentos; a expressão de busca utilizada na pesquisa; e a função
de busca. O segundo elemento do processo, a expressão de busca, é o meio que o
usuário utiliza para se comunicar com o sistema utilizando para tal os
mecanismos existentes nos sistemas. Essa expressão pode ser especificada em
linguagem natural ou linguagem artificial, dependendo dos recursos oferecidos
pelo sistema (CHOWDHURY, 2015).
Sendo assim observar e analisar o comportamento de
busca em um SRI, utilizando a análise de logs,
se torna relevante para verificar a potencialidade desta metodologia para
conhecer e compreender as características dos usuários.
A análise de logs
se coloca como uma metodologia que possibilita verificar os caminhos
percorridos pelos usuários junto ao SRI (monitorar a interação entre o usuário
e a base de dados) (JAMALI; NICHOLAS; HUNTINGTON, 2005; LAIPELT, 2015a, 2015b).
Vemos assim, que as
informações geradas por esta interação, possuem potencialidades de nos fornecer
um panorama de uso de determinada base de dados proporcionando a geração de
estatísticas, e observação de aspectos do comportamento de busca dos usuários.
3 RESULTADOS E DISCUSSÃO
Nossas análises foram realizadas desconsiderando o “porquê de buscar”,
mas sim “como buscou”, visamos com isso verificar a realidade dos usuários
através dos rastros de informação registrados nos logs.
Inicialmente verificamos o número de consultas por usuário (quantidade de
vezes que este interagiu com o sistema). Identificamos uma média de 3,74
solicitações por usuário. Tal resultado se assemelha ao encontrado por Jansen,
Spink e Saracevic (2000), que ao analisarem 51.474 expressões de busca de
18.113 usuários do buscador Excite identificaram uma média de 2,84 solicitações
por jornada (conjunto de estratégias de determinado usuário), tendo a maior
parte dos usuários realizado de 1 a 4 consultas junto ao sistema.
Seguindo nossa análise, verificamos que 48,38% dos usuários modificaram sua
expressão de busca, ou seja, os usuários realizam buscas pelo mesmo assunto
alterando a expressão utilizada quanto às lexias. O alto índice de modificação pode representar
a presença de usuários com experiência na utilização dos mecanismos de busca ou
insatisfação com relação ao que foi recuperado, conforme destaca Jansen, Spink
e Saracevic (2000).
Posteriormente verificamos de que forma as modificações ao longo da
sessão de busca ocorriam, comparando as expressões entre si para verificar se
ficavam mais específicas ou gerais. Os resultados encontrados mostram que
31,78% dos usuários iniciam sua busca junto ao sistema com uma expressão
abrangendo determinado assunto de forma geral e conforme realiza novas buscas
vai modificando sua estratégia tornando-a mais específica. Isso ocorre
possivelmente na tentativa de diminuir o número de documentos recuperados.
Verificamos também a utilização de recursos terminológicos, operadores
lógicos e modificadores. Diante dos dados identificamos que o recurso
terminológico com maior índice de utilização pelos usuários é a numeração
jurídica, presente em 24,58% das jornadas. Também observamos uma baixa
porcentagem de uso de operadores booleanos e modificadores, o que nos
possibilita inferir que o usuário desconhece sua utilização ou forma de
utilizá-los. Tal constatação corrobora com os resultados encontrados por
Jansen, Spink e Saracevic (2000), que obtiveram baixos índices de utilização
destes recursos.
Com os resultados encontrados nas análises anteriores
conseguimos traçar um perfil dos usuários do Portal LexML, na perspectiva da
sua interação com o SRI, sendo caracterizado por: realização de pesquisas
simples com baixo índice de solicitação ao sistema; estratégia direcionada do
geral para o especifico; alto índice de modificação no decorrer da jornada; baixo uso
de operadores booleanos e modificadores; e uso da numeração jurídica como
principal recurso para constituição das expressões de busca.
As características
observadas nos possibilita inferir que o perfil dos usuários se assemelham aos
encontrados nos trabalhos de Jansen, Spink e Saracevic (2000); e Spink e Xu
(2000) que se caracterizam por realizarem pesquisas simples com baixo índice de
solicitações ao sistema, formulações de consultas com poucos termos e pouco uso
de operadores booleanos e modificadores. As principais diferenças observadas em
relação a estes estudos dizem respeito ao índice de modificações nas expressões
de busca, que em nosso estudo foi alto e nos estudos citados baixo. Este fato
pode estar relacionado ao nosso contexto de análise, caracterizado pela linguagem
jurídica que possui alto índice de especialidades e grande volume de informação
e complexidade.
4 CONCLUSÃO
Nesta nova realidade de
busca pela informação de forma remota, temos como principal consequência a
dificuldade de conhecer e compreender como o usuário realiza seu processo de
busca, como ele constrói sua estratégia, sendo necessário o uso de metodologias
para analisar esta nova realidade. No presente trabalho, utilizamos uma destas
metodologias, a análise de logs.
Com os resultados foi possível a elaboração de um
perfil dos usuários do Portal LexML abrangendo todas as características identificadas,
sendo caracterizado por: realização de pesquisas simples com baixo índice de
solicitação ao sistema; estratégia direcionada em sua maioria do geral para o
especifico;
alto índice de modificação no decorrer da jornada; baixo uso de operadores booleanos
e modificadores; e uso da numeração jurídica como principal recurso para
constituição das expressões de busca.
Vemos assim que a análise de logs nos permitiu verificar
de que forma os usuários realizam suas pesquisas junto a um SRI. Acreditamos
que tal metodologia é uma fonte
valiosa de coleta de termos e observação do comportamento de busca em sistemas
de informação (análise e identificação de características dos usuários), ao
possibilitar traçar os caminhos do usuário para obtenção da informação sem a
interferência do bibliotecário e/ou do pesquisador.
Portanto, as informações
extraídas dos logs nos proporcionaram
uma visão rica do comportamento de busca em sistemas de informação ao expor o
retrato da realidade da interação entre os usuários e os SRI, além de fornecer
estatísticas detalhadas sobre as características de busca destes usuários
possibilitando a comparação com trabalhos futuros.
REFERÊNCIAS
CHOWDHURY, G. Usuários
da recuperação da informação. InCID: Revista de
Ciência da Informação e Documentação, Ribeirão Preto, v. 5, n. 2,
p. 4-33, set. 2014. Disponível em: http://www.revistas.usp.br/incid/article/view/83858/87523.
Acesso em: 15 abr. 2021.
JAMALI, H. R.; NICHOLAS, D.;
HUNTINGTON, P. The use and users of scholarly e-journals: a review of log
analysis studies. Aslib Proceedings: New Information Perspectives, v. 57, n. 6, p. 554-571, 2005. Disponível em: https://www.emeraldinsight.com/doi/abs/10.1108/00012530510634271. Acesso em: 12
abr. 2021.
JANSEN, B. J.; SPINK, A.;
SARACEVIC, T. Real life, real users, and real needs: a study and analysis of
user queries on the web. Information Processing and Management, Elmsford, NY, v. 36, p. 207-227, 2000. Disponível
em: https://www.sciencedirect.com/science/article/abs/pii/S0306457399000564. Acesso em: 5 mar. 2021.
LAIPELT,
R. C. F. Metodologia para seleção de
termos equivalentes e descritores de tesauros: um estudo no âmbito do Direito do Trabalho e do Direito Previdenciário.
2015. Tese (Doutorado em Linguística Aplicada) – Programa de Pós-graduação em
Linguística Aplicada, Universidade do Vale do Rio dos Sinos, São Leopoldo,
2015a. Disponível em: http://www.repositorio.jesuita.org.br/bitstream/handle/UNISINOS/4853/RITA%20DO%20CARMO%20FERREIRA%20LAIPELT_.pdf?sequence=1&isAllowed.
Acesso em: 12
abr. 2021.
LAIPELT,
R. C. F. A análise de logs como estratégia para a realização da garantia do
usuário. Em Questão, Porto Alegre,
v. 21, n. 3, p. 150-170, 2015b. Disponível em: http://seer.ufrgs.br/index.php/EmQuestao/article/view/59806/36047.
Acesso em: 12
abr. 2021.
MONTEIRO-KREBS,
L. Terminologia e variação conceitual: um estudo de interface com ontologias.
2016. Dissertação (Mestrado em Linguística Aplicada) – Programa de
Pós-graduação em Linguística Aplicada, Universidade do Vale do Rio dos Sinos,
São Leopoldo, 2016. Disponível em: http://www.repositorio.jesuita.org.br/bitstream/handle/UNISINOS/5053/Luciana+Monteiro+Krebs_.pdf?sequence=1.
Acesso em: 13
abr. 2021.
SPINK, A; XU, J. L. Selected
results from a large study of web searching: the excite study. Information Research: an international
electronic journal, v. 6, n. 1, out. 2000. Disponível
em: http://www.informationr.net/ir/6-1/paper90.html. Acesso em: 15 abr. 2021.
WILSON, T. D. Human
information Behavior. Informing science
research, v. 3, n. 2, p. 49-53, 2000. Disponível
em: https://www.researchgate.net/publication/270960171_Human_Information_Behavior.
Acesso em: 13
abr. 2021.
XIE; JOO, S. Transitions in
search tactics during theweb-based. Journal
of the American Society for Information Science and Technology, v. 61, n.
11, p. 2188-2205, 2010. Disponível em: https://onlinelibrary.wiley.com/doi/pdf/10.1002/asi.21391. Acesso em: 13
abr. 2021.