Logo Passei Direto
Buscar

FERNEDA Introdução aos Modelos Computacionais de Recuperação de Informação

Material
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

Edberto Ferneda
Introdução aos Modelos 
Computacionais de 
Recuperação de Informação
Prefácio de Johanna Smit
Introdução aos Modelos Computacionais de Recuperação de 
Informação
Copyright© Editora Ciência Moderna Ltda., 2012.
Todos os direitos para a língua portuguesa reservados pela EDITORA CIÊNCIA 
MODERNA LTDA.
De acordo com a Lei 9.610, de 19/2/1998, nenhuma parte deste livro poderá ser 
reproduzida, transmitida e gravada, por qualquer meio eletrônico, mecânico, por 
fotocópia e outros, sem a prévia autorização, por escrito, da Editora.
Editor: Paulo André P. Marques
Supervisão Editorial: Aline Vieira Marques
Copidesque: Vanessa Motta
Capa: Daniel Jara
Diagramação: Janaína Salgueiro
Assistente Editorial: Laura Souza
Várias Marcas Registradas aparecem no decorrer deste livro. Mais do que 
simplesmente listar esses nomes e informar quem possui seus direitos de 
exploração, ou ainda imprimir os logotipos das mesmas, o editor declara 
��������	
	���
����	�������������������������
	���	�	�������������	�����
��	���
do dono da Marca Registrada, sem intenção de infringir as regras de sua 
utilização. Qualquer semelhança em nomes próprios e acontecimentos será 
mera coincidência.
 FICHA CATALOGRÁFICA
FERNEDA, Edberto. 
Introdução aos Modelos Computacionais de Recuperação de 
Informação
Rio de Janeiro: Editora Ciência Moderna Ltda., 2012
1. Informática.
I — Título
ISBN: 978-85-399-0212-5 CDD 001.642
Editora Ciência Moderna Ltda.
R. Alice Figueiredo, 46 – Riachuelo 
Rio de Janeiro, RJ – Brasil CEP: 20.950-150 
Tel: (21) 2201-6662 / Fax: (21) 2201-6896
lcm@lcm.com.br
www.lcm.com.br 11/11
Aos meus pais
Élcio (in memoriam) e Elza
Aos meus irmãos
Edilson e Edmir
Agradecimentos
Este livro é derivado de minha tese de doutorado em Ciência da Informa-
ção. Assim, gostaria de agradecer a todos que contribuíram para a execução 
daquela pesquisa, em especial à minha orientadora, professora Johanna Smit, 
que com sua competência e simpatia apresentou a mim o mundo novo e em-
polgante da Ciência da Informação.
Agradeço às professoras Mariângela Fujita e Silvana Vidotti pela amizade 
e pelo exemplo de dedicação à pesquisa e ao trabalho acadêmico. Agradeço 
também aos demais professores do Departamento de Ciência da Informação 
da UNESP-Marília pelo ambiente agradável e fecundo onde tenho a felicidade 
de trabalhar.
Agradeço ainda aos professores Edilson Ferneda e Hércules Antonio do 
Prado, do Programa de Pós-Graduação em Gestão de Conhecimento e Tecno-
logia da Informação da Universidade Católica de Brasília, pela leitura atenta, 
revisão e sugestões.
Prefácio
Os jovens de hoje, que já nasceram numa sociedade digital, ignoram mui-
tas vezes o quanto os recursos que agora parecem muito simples – “naturais” 
até – resultam de uma história que foi se consolidando ao longo de séculos. 
A recuperação de informações na Internet provê um ótimo exemplo para a 
��������	�
����	
�	���	����
��	�����	���	��	
���������	�	���	
������	�	
Internet para achar qualquer coisa.... inclusive a informação procurada! Graças 
à tecnologia, a busca se tornou uma operação simples, quase intuitiva, o que 
obviamente representa um grande avanço, mas também acaba escondendo a 
complexidade das operações que estão por trás das buscas.
Edberto Ferneda, aliando uma formação na área de Informática a outra 
em Ciência da Informação, consegue demonstrar a complexidade daquilo que 
hoje parece completamente natural, iniciando pela “pré-história” da recupe-
ração da informação, baseada em cálculos estatísticos e estratégias de busca 
formatadas pela lógica booleana. Posteriormente sistemas de recuperação da 
����������	��
�������	�	��������	�	���	������
�	���	�	��
��������	��	�����-
�����	�����	�	�����	��	
����	�	�������
�	�	��	��������������	��	����������	
de estratégias de busca; o percurso desenhado por Edberto nos leva até as 
atuais “nuvens de tags” que chegam a mesclar a indexação elaborada pelos 
responsáveis por sites com indexações propostas pelos usuários ou então por 
eles customizadas.
O presente texto atualiza a pesquisa desenvolvida sob forma de uma tese 
de doutorado defendida no Programa de Pós-Graduação em Ciências da Co-
municação, área de concentração Ciência da Informação, da ECA/USP em 
����	��	"##$	�	�������	
��	
����%�	�	��������	���	������	���	�������	������	
�����	����&�����	�����	����	���������'	��	������������	��	����	��	���������
�	
�	��	������������	���	������%��	�	 ��
��������	��	 ����������	��	
�������	
da Ciência da Informação. Pode-se ler o texto como uma narração de “re-
descobertas da roda”, já que os desenvolvedores de sistemas de busca de in-
formação foram incorporando procedimentos clássicos da biblioteconomia, 
VIII � Introdução aos Modelos Computacionais de Recuperação de Informação
da documentação e da recuperação de informação. A ironia quer que um dos 
�������	�������	*�&�	����
�����	����	+��	�������
�	0�	
������������	��	��-
formação disponibilizada) atualize a diplomática, desenvolvida por monges 
europeus no século XVII e apropriada pela arquivologia!
O grande mérito deste livro reside em explicar de forma bastante simples 
conceitos da maior complexidade e, por meio desta explicação, desvelar a 
complexidade dos procedimentos mobilizados ao “googlar” hoje uma “sim-
ples” pergunta.
Imensos progressos foram possíveis nestes últimos anos graças à incor-
poração massiva da tecnologia nos sistemas de recuperação da informação: 
justamente esta é a odisseia que Edberto nos apresenta, ressaltando tanto o 
que é novidade quanto o que não passa de uma reutilização de procedimentos 
e conceitos clássicos da Ciência da Informação. Apesar dos progressos, uma 
certeza, no entanto, permanece: o adequado dimensionamento da tensão entre 
os aspectos quantitativos e qualitativos, sempre presente na recuperação da 
informação, ainda tem um longo caminho pela frente e nenhuma opção poderá 
ignorar as variáveis descritas por Edberto! 
Johanna W. Smit 
1�������	��	"#2#
Apresentação
O vertiginoso avanço tecnológico que caracterizou o século XX e ainda 
�����
�����	�����	
�����	��	 �3
���	 ���	 �
�����*���	��	��	������
�����	
aumento da importância da informação como recurso estratégico nos mais va-
riados contextos. No mundo globalizado e competitivo em que vivemos mais 
do que nunca precisamos de informação: informação para o bom desempenho 
��	������	��������4��	������������5	����������	����	�	���
���������	����
��	
estratégico e operacional de empresas; informação para auxiliar governos no 
desenvolvimento e gestão de políticas públicas. Porém, observa-se que mes-
mo com as tecnologias disponíveis na atualidade a busca por uma informação 
���
����	���������	�	
�������	3	������	��������	�����	���	��	�������	���	��%��	
���������	 ����������	 ������������	 6���	 ���
������	 ��	 ��	 ��
������	 �����4��	
satisfatórias para esse problema faz da Recuperação de Informação uma área 
��	��������	����������	�	�����������
O termo “Recuperação de Informação” (“Information Retrieval”) foi 
�����	���	�����	��	278#	�	�����������	���*��	������������	��	
���������	
����9�
��	<�������	 ������	�	 �������	 �����	�������������	�������	�����	
��-
substanciadas em um “modelo”. Um modelo de recuperação de informação 
�������	�	����
��
����	������	��	��=�	���������	����
�����'	�	�������������	
dos documentos, a representação das buscas dos usuários e a maneira como 
esses dois primeiros elementos serão comparados.
O objetivo deste livro é apresentar de forma simples e clara alguns dos 
principais modelos de recuperação de informação advindas da Ciência da 
Computação. Este livro não contém algoritmos ou programas, e as fórmulas 
matemáticasexistentes são devidamente interpretadas e explicadas textual-
�����	�	��	��	��������	��	��
��	������������	�	��������	��	�����	��	�9����	��	
conhecimento em informática.
Nos dois primeiros capítulos são apresentadas as duas principais ciências 
envolvidas na pesquisa por soluções para problemas relacionados à recupe-
ração da informação: a Ciência da Informação e a Ciência da Computação, 
X � Introdução aos Modelos Computacionais de Recuperação de Informação
bem como um esquema básico com os principais elementos que compõem o 
processo de recuperação de informação.
1��	
��9�����	$	�	8	���	������������	��	modelo booleano, o primeiro mo-
delo desenvolvido e de certa forma ainda o mais utilizado; o modelo veto-
rial, de fundamental importância para o desenvolvimento das pesquisas nessa 
área; e o modelo probabilístico, que aborda o problema da recuperação de 
informação utilizando a teoria da probabilidade. Estes três modelos (boole-
ano, vetorial e probabilístico) são muitas vezes referenciados como modelos 
“clássicos” e correspondem de certa forma ao alicerce teórico sob o qual se 
desenvolveu a área de Recuperação de Informação. Os modelos clássicos fo-
ram o ponto de partida para diversas outras ideias e modelos, como é o caso 
do modelo booleano estendido, apresentado no Capítulo 6.
A recuperação de informação se tornou foco de interesse de diversas áreas 
��	?�=�
��	��	?����������	
	@������=�
��	
����
���	���	���	������	�����	���	
direcionou parte de seu ferramental teórico e prático na proposição de solu-
ções para os problemas relacionados ao tratamento e recuperação da infor-
mação. No Capítulo 7 são apresentadas algumas técnicas de Processamento 
da Linguagem Natural auxiliares no processo de tratamento da informação 
�������	����	���	��	��
���������	1�	?��9����	Q	���	���
������	��	����
9����	
da lógica fuzzy e a sua utilização na recuperação de informação. Sistemas 
Especialistas foi ���	����	��	��������	��������	��	@������=�
��	
����
����	Y�	
elementos básicos de um sistema especialista e a sua aplicação em sistemas de 
��
��������	��	����������	���	������������	��	?��9����	7�	<���	������	�����	
��	��������	��	@������=�
��	
����
���	���	��	Z����	1������	
����
����	�	��	
�-
goritmos Genéticos. A aplicação de conceitos ligados a essas áreas na recupe-
�����	��	����������	���	������������	���	?��9�����	2#	�	22�	�����
����������
?��	�	����������	��	[��	��	��9
��	��	�3
���	��	277#	������	����3�	��	
����	�	���������	
����	��	���������	��	��
��������	��	�����������	Y�	
*�-
mados “mecanismos de busca” (search engines), “sites de busca” ou simples-
mente “buscadores” são resultados dessas pesquisas e transformaram a Web 
Apresentação � XI
de um simples repositório de páginas em uma preciosa fonte de informação 
���	����	��������	�����	��	
��*�
�������	Y	?��9����	2"	���������	��	������-
tos característicos da Web e a estrutura básica dos mecanismos de busca.
Esforços foram e estão sendo realizados para melhorar o desempenho na 
busca por informação na Web. Dentre esses esforços está a Web Semântica, 
���	���	���	��&�����	�������	������
���	�	����������	�����������%���	��	[��	
�����3�	��	�����	����������	��	��������������	1�	?��9����	2$	3	�����������	�	
estrutura básica da Web Semântica, assim como os seus elementos que buscam 
�����
���	���	������
�����	���*����	��	��
��������	��	����������	��	[���
\��	���	��	?��9����	2]	���	������������	�������	
���������4��	�������	
abordando as características e limites da Ciência da Informação e da Ciência 
da Computação e as possibilidades de um relacionamento mais próximo.
Sumário
1 A Informação e as suas Ciências .................................................... 1
2�2	
	?�=�
��	��	@��������� ......................................................................... $
2�"	
	?�=�
��	��	?���������	�	���	�������	
��	�	?�=�
��	��	@��������� . 7
2 Recuperação de Informação ........................................................ 13
"�2	<�
�������	0Corpus) ........................................................................... 2]
"�"	Z������������	���	��
������� ............................................................ 28
"�$	^������� ................................................................................................ 2_
"�]	6��������	��	`��
�............................................................................... 2Q
"�8	Z������������	��	6��������	��	`��
� ................................................. 2Q
"�k	w�����	��	`��
� ................................................................................... 27
"�_	Z��������	��	`��
� ............................................................................... 27
"�Q	y�����	��	Z�
��������	��	@��������� ............................................... "#
3 Modelo Booleano ........................................................................... 21
$�2	Y���������	��������� ........................................................................... ""
$�"	Y���������	��	����������� .................................................................. "8
$�$	<��
����� .............................................................................................. "Q
4 Modelo Vetorial ............................................................................. 31
]�2	Z������������	���	��
������� ............................................................ $2
]�"	6��������	��	���
� ............................................................................... $$
]�$	?��
���	��	������������......................................................................... $8
]�]	Y	�������	{y
Z| ................................................................................ $k
XIV � Introdução aos Modelos Computacionais de Recuperação de Informação
]�8	<��
����� .............................................................................................. ]#
5 Modelo Probabilístico ................................................................... 43
8�2	Z�
��������	��������9���
� ................................................................... ]_
8�"	<��
����� .............................................................................................. 8"
6 Modelo Booleano Estendido ......................................................... 53
k�2	<��
����� .............................................................................................. k#
7 Processamento da Linguagem Natural ....................................... 61
_�2	1������%����	��	������4��	�����9���
�� ................................................ k$
_�"	@������
����	��	������	
�������� ....................................................... k]
_�$	Z��������	��	����������� ................................................................... k8
_�]	<��
����� .............................................................................................. k7
8 Modelo fuzzy .................................................................................. 71
Q�2	?��&�����	fuzzy ..................................................................................... 72
Q�"	?��&�����	fuzzy na recuperação de informação.................................... _8
Q�$	<��
����� .............................................................................................. 77
9 Sistemas Especialistas ................................................................... 79
7�2	6��������	����
�	��	��	{������	6���
������� ........................................ Q#
7�"	{�������	6���
��������	��	��
��������	��	���������� .......................... Q8
7�$	<��
����� .............................................................................................. Q_
10 Redes Neurais .............................................................................. 89
2#�2	Z�����������	�����
���� ...................................................................... 7#
2#�"	
������%���� ..................................................................................... 7"
Sumário � XV
2#�$	Z����	1������	
����
����	��	��
��������	��	���������� ................... 7$
2#�]	Z����	1������	
����
����	��	��������	[�� ...................................... 2##
2#�8	<��
����� .......................................................................................... 2#2
11 Algoritmos Genéticos ................................................................ 103
22�2	6�������	
������
����� ................................................................... 2#]
22�"	
���������	}��3��
��	��	��
��������	��	���������� ........................22#
22�$	<��
����� ...........................................................................................22]
12 Recuperação de Informação na Web ...................................... 117
2"�2	?���
���9���
��	��	[�� .......................................................................22Q
2"�"	y�
�������	��	���
� ....................................................................... 2""
2"�"�2	@��������	������ ........................................................................................................2""
2"�"�"	@��������	��������
�..................................................................................................2"$
2"�"�$	6���
���
����	��	���
� ...............................................................................................2"8
2"�"�]	y���	���
��...................................................................................................................2"Q
2"�$	
	���������	~y ............................................................................ 2"7
2"�]	<��
����� .......................................................................................... 2$8
13 Web Semântica .......................................................................... 137
2$�2	
	
�����	Z<w€Z<w Schema............................................................ 139
2$�"	
	
�����	��	Y���������.................................................................... 2]8
2$�$	
�	
������	��
��	\����	�	?������� ............................................ 2]7
2$�]	<��
����� .......................................................................................... 28#
14 Considerações Finais ................................................................ 151
Referências ...................................................................................... 155
Lista de Figuras
w�����	2		Z������������	��	���
����	��	��
��������	��	����������	 ................ 2]
w�����	"			Z��������	��	���	���������	
��&������	0	
1<	‚	 ..............................................""
w�����	$		Z��������	��	���	���
�	��������	���&������	0	YZ	‚	 .......................... "$
w�����	]		Z��������	��	���	���
�	��������	0	1Y|	‚	 ......................................... "$
w�����	8		Z��������	��	���	���
�	��������	
��	�	��������	1Y|	 ................... "]
Figura 6 Resultado de uma expressão de busca booleana utilizando parênteses ...."]
Figura 7 Representação vetorial de um documento com dois termos de indexação ......$"
w�����	Q		Z������������	��������	��	��	��
������	
��	��=�	������	��	���������	 $"
w�����	7		6�����	��������	
�������	����	��
�������	 ........................................ $$
w�����	2#		Z������������	��	���	���������	��	���
�	��	��	������	��������	 . $]
w�����	22		{��
��&�����	��	��
�������	���	�	���
����	��	���	���
�	 .......... ]_
w�����	2"		Z������������	��	��
�������	��	��	������	�������������	 .......... 8]
w�����	2$		\�����=�
��	��	��	��������	��	�������	�	��	
��&����	 ................... _"
w�����	2]		Z������������	���	����4��	ƒalto	�	ƒbaixo ............................................. _$
w�����	28		Z������������	fuzzy de um documento estruturado ......................... 76
w�����	2k		6��������	��	��	�������	����
�������	 ................................................ Q#
w�����	2_		6������	��	����	�������
�	��	�������������	��	
��*�
������	 ...... Q$
w�����	2Q		6������	��	�����%����	��	frames na representação do conhecimento ....Q]
w�����	27		Z������������	���������
�	��	��	����„���	 .................................... Q7
w�����	"#		y�����	��������
�	��	��	����„���	 ................................................ 72
w�����	"2		Z������������	��	���	����	������	�����
���	 ..................................... 7"
w�����	""		Z������������	��	����	������	����
���	�	��
��������	��	����������	 ....7]
w�����	"$		6������	��	����	������	�����������	���	y�%��	 .............................. 78
w�����	"]		
����������	��	����	������	��	�������	
@Z	 ....................................... 77
w�����	"8		{���=�
��	��	���
����	��	��	���������	���3��
�	 ........................... 2#8
w�����	"k		Corpus com documentos representados por quatro “cromossomos” 222
w�����	"_		6��������	��	��	��������	[��	0^Z‚	 ............................................. 227
w�����	"Q		6������	��	��	�������	†|y	�	���	�������%����	 ......................... 2"#
XVIII � Introdução aos Modelos Computacionais de Recuperação de Informação
w�����	"7		\�����‡����������	����	����
��
����	��	���
�	��������	��	}�����	 .....2"_
w�����	$#		?���������	�����	��	����������	†|y	�	~y	.............................. 2$#
w�����	$2		6������	��	�����%����	��	���	<|<	��	��	��
������	~y	 ........ 2$2
w�����	$"		?���������	�����	<|<	�	~y	Schema .......................................... 2$"
w�����	$$		6������	��	�����%����	��	��	~y	Schema em um documento XML .2$]
w�����	$]		
����������	��	[��	{������
�	 ......................................................... 2$7
w�����	$8		<�������	Z<w	Schema da classe Autor ........................................... 2]"
w�����	$k		<�������	Z<w	Schema da classe Publicação .................................. 2]$
w�����	$_		<�������	Z<w	Schema da classe Livro ........................................... 2]]
w�����	$Q		<�
������	Z<w	�������	�	������	��	��	Z<w	Schema ................... 2]8
w�����	$7		6������	��	���������	�����%����	�	���������	Y@	 .......................... 2]_
1 
A Informação e as suas 
Ciências
{������	y
}���ˆ	02777�	��$‚�	�	�������	‰����������Š	������€��	�������	
logo após a invenção da imprensa no século XV, quando normalmente se uti-
lizava uma palavra em latim para expressar uma nova ideia ou conceito. Sua 
raiz é derivada de formatio e forma, ambos transmitindo a ideia de “moldar 
algo” ou dar “forma a” algo.
{*�����	�	[�����	027]7�	��$‚	������	����������	
���'
O que acrescenta algo a uma representação [...] 
Recebemos informação quando o que conhecemos se 
�����
��	@���������	3	������	���	����
������	&�����
�	
alteração ou reforço de uma representação ou estado de 
coisas. As representações podem ser explicitadas como 
num mapa ou proposição, ou implícitas como no estado 
de atividade orientada para um objetivo do receptor. 
Na visão de Shannon, a informação não depende de um suporte material, 
���	��	��	��������	��	��
�����	�	��	
�����	�������	���	��
�������	�������-
����	6���	���������	����	��	|�����	��	@����������	���	�����������	��	
���-
������	���	���������	
�����������	�����„��
���	�	�����	��������*�	��	�����	
importante no estudo da informação em diversos contextos.
"		� Introdução aos Modelos Computacionais de Recuperação de Informação
{������	Z�ˆ���	027_"�	��	$‚'
A palavra ’informação’, em seu sentido usual, parece 
comportar, necessariamente, um elemento de consciência 
e de sentido. [...] A informação, no sentido habitual do 
termo, é a transmissão a um ser consciente de uma 
������
�����	��	���	������	���	����	��	���	��������com base em um suporte espaço-temporal: imprensa, 
��������	�����„��
��	����	�������	��
�
†�ˆ��	027Qk‚�	����
�����	�����	�	�����������	���������	�	��������	��������'
Informação é uma propriedade dos dados resultante de 
ou produzida por um processo realizado sobre os dados. 
O processo pode ser simplesmente a transmissão de 
�����	0��	
�&�	
���	���	����
�����	�	��������	�	������	
utilizadas na teoria da comunicação); pode ser a seleção 
de dados; pode ser a organização de dados; pode ser a 
análise de dados.
1���	���������	�����
��	`�
����	02772‚	�������
�	��=�	����
�����	����	
do termo “informação”:
 ‘ Como processo - o ato de informar ou a comunicação do 
conhecimento ou notícias sobre um fato ou ocorrência;
 ‘ Como conhecimento - o que é percebido pela informação 
enquanto processo, o conhecimento comunicado. Sua principal 
característica é a intangibilidade;
 ‘ Como coisa - aquilo que é visto como informativo: objetos, 
documentos, textos, dados ou eventos. A sua principal 
característica é a tangibilidade, sua materialidade.
Nos dois primeiros usos, a informação para ser comunicada precisa estar 
“expressa, descrita ou representada em algum modo físico”, em uma forma 
����9����	���	�����	�	����������	
���	
�����	`�
����	�����	�	‰informação 
como coisa” em termos de potencial para o processo de informar, e defende o 
�����	�����������	�����	��������	��	�������	��	��
��������	��	����������	
por este ser o único sentido com o qual tais sistemas podem lidar diretamente.
2	€	
	@���������	�	��	����	?�=�
���	�		$
Z������	 0"##$�	 
���	 2‚	 ���������	 �	 ������	 ��������	 
��
�����	 ��	
�����������	@�������	�	�����	�����	��	������4��	��	����������	����������	��	
contexto da Ciência da Informação está evidenciado o seu caráter semântico.
1.1 A Ciência da Informação
O nascimento da Ciência da Informação pode ser visto como consequência 
de uma sucessão de técnicas relacionadas com o registro físico do conheci-
mento, principalmente a escrita. A escrita permitiu registrar, estocar e recupe-
rar o conhecimento, gerando uma espiral cumulativa de textos cujo potencial 
���	������
���	������	’�*�����	}���������	���	�����	��	2]$7�	 ��������	�	
tipo móvel e apresentou a primeira prensa na Europa.
O sucesso do invento de Gutenberg só não foi mais imediato pelo fato de 
que naquela época poucas pessoas sabiam ler. Em uma sociedade basicamente 
agrária, os camponeses nada tinham a ganhar com a alfabetização, e em geral 
não aspiravam a ela. Porém, a Revolução Industrial, iniciada em meados do 
século XVIII, provocou o êxodo das populações do campo para a cidade e deu 
�������	�	���
���	���	����	����������	�	�	������
����	��
�������	����	���	
interpretação e utilização. A construção de estradas e o surgimento das ferro-
vias facilitaram a expansão do comércio e a distribuição de livros e jornais. A 
velocidade das mensagens passou da velocidade do cavalo para a da locomo-
tiva e desta para a eletricidade.
Novas invenções se seguiram durante o século XIX, a maioria delas li-
�����	�	�����������	��	�����������	1�	�3
���	��	2Q"#	����	��9
��	�	�����-
����������	��	����������	������	���	������������	��	’����*	1�3�
�	�	����	
<��������	
	����������	���	
������	
���	��������	��	���������	��	���
�	
tempo aliou-se à impressão nas técnicas de ilustração de livros e jornais. Por 
�����	��	2Q]#�	’�*�	`��&����	<��
��	
�������	�	���������	
��	�	��
���
�-
���	�	��	������	�	��������	��	��
�����������	�	��	��
����������	6�	2Q]$�	�	
escocês Alexander Bain patenteou o primeiro aparelho de fax (fac-simile) da 
*�������	6�	2Q_k�	
��������	}��*��	`���	���������	�	���	���������	1�	���	
��������	|*����	6�����	
����	�	��������	�������	��	������	����	�	��	2Q_7	
���&����	�	�������	��3���
��	0y
}
ZZ“�	2777�	��	7#€7$‚�
]		� Introdução aos Modelos Computacionais de Recuperação de Informação
No início do século XX, Paul Otlet apresenta o termo “Documentação”. 
\���	Y����	027$]‚	�����	�	��
������	
���	�����	�	��&���	��	������	��	��
�-
mentação e propõe metodologias e técnicas para estudá-lo, sinalizando também 
para a necessidade de criar algumas interdisciplinas, contidas pelas interfaces 
��	�	��
��������	���
��	�����9���
��	�����9���
��	�����	������	0{
1|Y{	"##_‚�
Paul Otlet e Henri La Fontaine entraram para a história da biblioteconomia 
���	�������	��	?������
����	<�
����	^��������	0?<^‚�	6�	2Q78�	������	
em Bruxelas, na Bélgica, o International Institute for Bibliography - IIB, 
marco no desenvolvimento do que veio a se chamar Documentação e poste-
riormente Ciência da Informação. O primeiro objetivo do IIB era a elabora-
���	��	Z��������	`���������
�	^��������	0Z`^‚�	���	���*�	�	���������	��	
�������%��	����	�	��������	����������
�	�������
�����	��	�
*��	�������%�����	
\���	Y����	��	�
*��	�������	�	�����������	��	�����	��
�����	����������	�	�����	
associação entre as informações nelas registradas. Devidamente conectadas 
���	����	���	
�����	��	?<^�	����	����	��	�
*��	����	���	�����	
���	��	
prenúncio do hipertexto. As solicitações de pesquisa nesse grande banco de 
dados eram feitas pelo correio e sua operacionalização era bastante demorada. 
Em uma época na qual não existiam fotocopiadoras ou computadores, era ne-
�������	�������	��	�
*��	��	��������	
����€���	�	���	�	��
���
�€���	��	�����	
no arquivo. Além da execução das “buscas”, era também tarefa dos funcioná-
����	�������%��	�	
�����	���	�
*��	��	���������	��������	���	
������������	��	
�����	��	������	��	�����	0Z
“[
Z<�	277_‚�
Em sua obra, Traité de Documentation, Paul Otlet mostra-se interessado 
em toda novidade tecnológica que permita condensar e organizar a informação 
de acordo com suas necessidades e objetivos. Fez diversas experimentações 
��	�	��
���������	�	������	��	������	���������	����	���	��������	���-
gida na época: a televisão. Anteviu vários equipamentos tecnológicos como 
o fax, os microcomputadores, as work-stations�	�	@�������	0Y|6|�	27$]�	��	
$Q7€$72‚�	\���	Y����	������	��	27]]�	��	�3������	��	����	��	{������	}������
2	€	
	@���������	�	��	����	?�=�
���	�		8
Após a Segunda Guerra Mundial, o entusiasmo na busca de soluções para 
os problemas advindos da explosão informacional pode ser resumido pelo 
������	��	”�������	`��*	 027]8‚	 ����������	‰As We May Think”. Nesse arti-
���	`��*	�����	�	��������	��	�����
�������	��	����������	�	����4�	
���	
solução uma máquina denominada Memex que agregava as mais modernas 
tecnologias de informação existentes na época. O Memex nunca foi construí-
do, mas as ideias que inspiraram sua idealização ainda fazem parte das aspira-
ções de pesquisadores e cientistas da atualidade. Em uma escala muito maior, 
enfrentam-se hoje os mesmos problemas apontados por Otlet e, como Bush, 
busca-se na tecnologia a solução para tais problemas.
{������	 {*���	 �	 ?��������	 027__‚�	 �	 �3
���	 ��	 k#	 �����
��	 ��	 
����	
favorável para o desenvolvimento da Ciência da Informação. Os problemas 
relacionados com o tratamento da informação começavam a ser abordados por 
�����	��	
���������	
����9�
�	��������	��	�����	�����	��	���	��	�����	��	
período de acelerado desenvolvimento tecnológico.
A primeira formulação do que seria a Ciência da Informação surgiu como 
resultado das conferências do Georgia Institute of Technology (ou simples-
mente Georgia Tech‚�	�����%����	�����	27k2	�	27k"'
[Ciência da Informação é] a ciência que investiga 
as propriedades e comportamento da informação, as 
������	���	 �����	�	•���	��	 ����������	�	��	�����	��	
processamento da informação para uma acessibilidade 
e usabilidade ótimas. Os processos incluem a origem, 
disseminação, coleta, organização, recuperação, 
interpretação e uso da informação. O campo deriva de 
ou relaciona-se com a matemática, a lógica, a linguística, 
a psicologia, a tecnologia da computação, a pesquisa 
�����
������	 ��	 ���������
���	 ��	 
�����
��4���	 �	
biblioteconomia, a administração e alguns outros campos 
0{†6Z
5	?6”6
1<�	27__�	��	"k8‚�
6�	27kQ�	†�����	`���	��������	���	��������	
�����������	����	�	?�-
ência da Informação, ressaltando suas características tanto de ciência pura 
como de ciência aplicada.
6 � Introdução aos Modelos Computacionais de Recuperação de Informação
Ciência da Informação é a disciplina que investiga as 
propriedades e o comportamento da informação, as 
������	���	 �����	�	•���	��	 ����������	�	��	�����	��	
processamento da informação para acessibilidade e 
usabilidade ótimas. Está relacionada com o corpo de 
conhecimento que abrange a origem, coleta, organização, 
armazenamento, recuperação, interpretação, transmissão, 
transformação e utilização da informação. Isto inclui 
a investigação das representações da informação nos 
��������	 ��������	 �	 �����
�����	 �	 ���	 ��	 
�����	 ����	 �	
�����������	 ��
�����	 ��	 ���������	 �	 �	 ������	 ���	
dispositivos e técnicas de processamento de informação 
tais como computadores e seus sistemas. É uma ciência 
interdisciplinar derivada de e relacionada a vários campos 
tais como matemática, lógica, linguística, psicologia, 
tecnologia da computação, pesquisa operacional, artes 
����
���	
�����
��4���	��������
�������	�������������	
e outros campos similares. Possui um componente de 
ciência pura, que investiga o assunto sem considerar suas 
aplicações, e um componente de ciência aplicada, que 
����������	��������	�	���������	0`YZ–Y�	27kQ�	��	$‚�
{���
���
	0277k�	��	]_‚	������	���'
[...] a Ciência da Informação é um campo dedicado às 
�����4��	
����9�
��	�	�	�����
�	�����������	��������	����	
os problemas da efetiva comunicação do conhecimento 
e de seus registros entre os seres humanos, no 
contexto social, institucional ou individual do uso e 
das necessidades de informação. No tratamento destas 
questões são consideradas de particular interesse as 
vantagens das modernas tecnologias informacionais.
O componente tecnológico, principalmente a “tecnologia da computação”, 
�����
�	��	������	������4��	��	?�=�
��	��	@����������	
�����	�������	����-
rem a tecnologia em uma posição central, outros a colocam como resultado da 
interdisciplinaridade da Ciência da Informação.
A natureza interdisciplinar da Ciência da Informação propicia o surgimento 
de diferentes correntes e estimula discussões sobre o seu objeto de estudo: a in-
formação. Nesse ambiente, onde se juntam conceitos de áreas diversas, a cons-
������	��	
��
�����	��������
���������	���������€��	
���	��	������	�������
2	€	
	@���������	�	��	����	?�=�
���	� 7
1.2 A Ciência da Computação e sua relação com a Ciência 
da Informação
����	��	�3
���	��	27"#�	�	�����	‰
���������Š	���	����
����	�	�������	
que realizavam cálculos. Após essa década, a expressão “máquina computa-
cional” (computer machine) começou a ser usada para referir-se a qualquer 
�������	���	�����%����	�	������*�	��	��	�����������	
����������
	������	��	�3
���	��	27$#	������	
���������	
��������	�	������*��	
��	
dispositivos de cálculo com algum tipo de sistema de controle automático. Já 
se dispunha da tecnologia necessária para se construir máquinas semelhantes 
às projetadas por Charles Babbage um século antes. Surgiram os primeiros 
computadores mecânicos e eletromecânicos e muitos projetos de computado-
���	�����„��
��	������	��������������	��������	������	��•�=�
���	������	���-
meiras máquinas.
Após a Segunda Guerra Mundial, quando efetivamente se construíram os 
primeiros computadores digitais, o termo “máquina computacional” acabou 
perdendo espaço para o termo reduzido: “computador”.
Diferentemente da Ciência da Informação, é raro encontrar na literatura 
���	����
�����	���	�����	�	����
�����	�	��
���	��	?�=�
��	��	?����������
Denning et al	027Q7�	��	2"‚	������	?�=�
��	��	?���������	
���'
[…] o estudo sistemático de processos algorítmicos que 
descrevem e transferem informação: sua teoria, análise, 
���&����	��
�=�
���	�������������	�	����
����. A questão 
fundamental de toda a computação é: ‘O que pode ser 
0��
����������‚	��������%���™š.
Q		� Introdução aos Modelos Computacionais de Recuperação de Informação
<�	�
����	
��	����	���������	�	?�=�
��	��	?���������	�����	���	���
��-
sos que podem ser executados por meio de um conjunto sequencial de instru-
ções: o algoritmo.
Na introdução do livro intitulado “História da Computação: teoria e tec-
��������	w����
�	w��*�	02777�	��	2$‚	�����	?�=�
��	��	?���������	
���'
[...] um corpo de conhecimento formado por uma 
infraestrutura conceitual e um edifício tecnológico onde 
se materializam o hardware e o software. A primeira 
fundamenta a segunda e a precedeu.
A história da computação é formada por uma sucessão de personagens e 
����	�������	������	��	�������������	���������%����	��	���������	0����+���‚	
ou dispositivos (hardware). Essa história pode ser contada a partir de diversos 
referenciais, desde a criação do conceito abstrato de número até a criação dos 
���������	
�����������	����������	�����„��
��	��	�3
���	~~�	
1�	�3
���	��	278#�	������	
����������	�����*�����	�	��������
�����	��	��-
penharam na busca de soluções para os problemas enfrentados por Otlet no 
início do século e atualizados por Bush após a Segunda Guerra. Os primeiros 
����������	 ������
������	��	 ����������	
������
�����	��	 ����������	 �����-
ram com os experimentos de Hans Peter Luhn sobre indexação automática e 
na elaboração automática de resumos. Engenheiro pesquisador da IBM, Luhn 
���	�������	������	����	�	
������	��	��›�����	���&����	���	�������	�����
��	
radicalmente métodos tradicionais de armazenamento, tratamento e recupera-
ção de informação (SCHULTZ, 1968).
6�	2782�	?�����	y�����	
����	�	�����	‰Information Retrieval” (Recupe-
�����	��	@���������‚	�	������	��	���������	�	�����	���������	���	����	����	
disciplina.
[A Recuperação de Informação] trata dos aspectos 
intelectuais da descrição da informação e sua 
����
��
����	����	���
��	�	����3�	��	��������	��������	
técnicas ou máquinas que são empregadas para realizar 
����	��������	0yYY6Z{�	2782‚�
2	€	
	@���������	�	��	����	?�=�
���	�		7
	Z�
��������	��	@���������	��	�����	
���	���	����	��	��������	���„-
noma no seio da Ciência da Informação, com um acelerado desenvolvimento. 
\���	{���
���
	02777‚�	�	Z�
��������	��	@���������	����	���	
����������	�	
vertente tecnológica da Ciência da Informação e é resultado da relação desta 
com a Ciência da Computação.
O termo “recuperação de informação” atribuído a sistemas computacionais 
é ainda hoje bastante questionado, sendo que muitos autores preferem o termo 
“recuperação de documento” (document retrieval) ou “recuperação de textos” 
(text retrieval). De fato, os sistemas não recuperam “informação”, mas sim 
referências a documentos cujo conteúdo poderá ser relevante à necessidade 
de informação do usuário. Neste trabalho será utilizada a designação original 
‰��
��������	��	�����������	�
����	������������	���	��	�����	��	���	‰��-
formação” potencial, uma possibilidade de informação contida nos documen-
���	��	������	��
��������	���	��	�������	0`Z
}
�	2778‚.
	�3
���	��	k#	���	����3�	��	���9���	��������	�3����	��	�����	������	��-
��
�������	�	Z�
��������	��	@����������	y����	�	–�*��	027k#‚	������	��	
princípios básicos do modelo probabilístico para a recuperação de informação, 
���	����	��	����%�	����	������	�����	�����������	�������	���	Z��������	�	
’����	027_k‚�	6�	������	���	����	k#	���
��€��	���	�����	�3���	��	���������-
tos que constitui um marco na Recuperação de Informação: o projeto SMART. 
Resultado da vida de pesquisa de Gerard Salton, este projeto produziu em 
����	��	����	�3
�����	��3�	��	��������	������	�	�������	
����9�
���	��	������	
de recuperação de informação, a criação e o aprimoramentode diversas técni-
��	
������
������	�	�	�������	{y
Z|	0{
|Y1�	27_2‚�
Os primeiros sistemas de recuperação de informação baseavam-se na conta-
gem de frequência das palavras do texto e na eliminação de palavras reconheci-
damente de pouca relevância. Nos trabalhos de Luhn e Salton observa-se inicial-
�����	���	
�����	��	���	��	�3�����	���������	�����9���
��	������	���
������	
para tratar os problemas relacionados à recuperação de informação. Porém, no 
�����
�����	��	����	���������	���
���€��	���	���
�	���	�3�����	����	������
�-
dos de análise semântica. Desde os seus primeiros trabalhos, Salton se mostra 
interessado pela utilização de processos de tratamento da linguagem natural na 
2#		� Introdução aos Modelos Computacionais de Recuperação de Informação
��
��������	��	�����������	{�����	�	y
}���	027Q$‚	����������	��	��	
��9����	
intitulado “Future directions in Information Retrieval” a aplicação do proces-
samento da linguagem natural e da lógica fuzzy na recuperação de informação, 
���������	�	�������	��	�������	���������	����	�	@������=�
��	
����
����
6�����	�	�����%����	��	�3
��
��	��	@������=�
��	
����
���	���*�	�������	��	
consequência de uma natural evolução dos modelos matemáticos na busca de 
um aprofundamento semântico no tratamento textual, as pesquisas utilizan-
do modelos estatísticos continuaram gerando novos modelos e aperfeiçoando 
antigas ideias. É o caso do modelo booleano estendido e de diversos outros 
modelos que foram atualizados tendo em vista a premência de métodos de 
recuperação para a Web.
	 �����������	 ��	 ?�=�
��	 ��	 @���������	 
��	 �	 @������=�
��	
����
���	
deu-se inicialmente por meio da automação de processos documentários tais 
como a indexação e a elaboração de resumos, utilizando recursos do Proces-
samento da Linguagem Natural.
Além do Processamento da Linguagem Natural, outras áreas da Inteligên-
��	
����
���	 ���	 ����������	 ��	 �������	 ���	 ���������	 ��	 ��
��������	 ��	
�����������		�	
���	���	��������	����
���������	���	�����	�������	�����
����	
e dos algoritmos genéticos. Na Ciência da Computação a pesquisa em redes 
�������	 �����
����	 ����	 ��������	 ��	 ��������	 
�����������	 ��	 @������=�
��	
�-
���
���	 ���	 ����	 �	 ���������	 ��	 �������=�
��	 *�����	 ���	 ����	 ��	 ������-
���	���	
����������	��	
3������	
�	�����	�������	�����
����	�������%��	���	
sistemas de recuperação a capacidade de se adaptarem ao “meio ambiente”, 
isto é, às necessidades informacionais dos usuários, materializadas por meio 
de suas expressões de busca. Já os algoritmos genéticos implementam uma 
representação dos mecanismos da evolução natural e dos processos genéticos 
da reprodução humana. Os sistemas de recuperação baseados em algoritmos 
genéticos possuem a capacidade de evoluírem, alterando progressivamente 
as representações (código genético) dos documentos em função das buscas 
realizadas pelos usuários. Estes potenciais modelos de recuperação podem ser 
vistos como possíveis soluções para a urgência de métodos que consigam não 
2	€	
	@���������	�	��	����	?�=�
���	�		22
só lidar com a quantidade de informação, mas também que possibilitem uma 
melhor qualidade da informação recuperada em relação às necessidades de 
����������	����
9�
��	�	������������
	 ����
����	 ��	 �3
��
��	 �9��
��	 ��	 @������=�
��	
����
���	 ��	 ��
��������	
de informação geralmente se dá por meio de pesquisadores ligados à Ciência 
da Computação, que se aventuram na Ciência da Informação com o objetivo 
��	�����
��	�	����
���������	��	 ����	 �3
��
��	��	������	
������	
��	�	��-
senvolvimento de pequenos protótipos e de alguns resultados práticos, em 
geral retornam às pesquisas em sua ciência de origem, sem consolidar avanços 
������
������	��	Z�
��������	��	@����������	6���	�������	������=�
��	��	��-
teresses nas pesquisas foi parcialmente rompida com o surgimento da Internet 
e da Web. A Web promoveu um rápido direcionamento nos esforços de pes-
�����	���	����	��������	
�����	
����9�
��	����	��	���������	����
�������	�	
recuperação de informação.

Mais conteúdos dessa disciplina