INTERNET:
CAOS INFORMACIONAL AO ALCANCE DE TODOS
Lilia
Maria Faccio
lilia@that.com.br
Universidade
Federal do ABC
Mestre
em Engenharia da Informação
Área
de Concentração: Inteligência Social
Resumo
A revolução causada pela evolução
tecnológica, principalmente nas últimas décadas do século passado, culminou com
a popularização da Internet. Com crescimento desordenado aliado à facilidade de
acesso e disponibilização de materiais, está se tornando cada vez mais difícil
a recuperação de informações e documentos de forma rápida e eficiente. Em busca
de uma solução adequada para este problema, novas tecnologias estão sendo
desenvolvida. O principal objetivo deste artigo é apresentar de forma resumida
o que se tem feito neste sentido.
Abstract
The revolution
caused by technological evolution, especially in the last decades of the XX
century, has lead to the popularization of Internet. The unorganized growth of
Internet as well as the easiness in material sharing and access, is making it
harder to recover information and documents in a fast and efficient way. To
solve that problem, new technologies are being developed. The principal objective
of this article is to present some of them.
Palavras-chave
Internet,
Inteligência coletiva, metadados, XML, ferramentas de busca, PageRank, WEB
semântica
Introdução
No decorrer do século passado, principalmente nas duas últimas décadas,
a sociedade presenciou, muitas vezes atônita, uma revolução tecnológica que
causou mudanças radicais no modo de vida, nas comunicações, em conceitos e
paradigmas.
Por mais resistentes que fossem os antigos padrões, todos (ou quase
todos) acabaram se rendendo às inovações e facilidades que estas novas
tecnologias trouxeram ao dia a dia.
O microcomputador, inicialmente olhado com reservas e desconfiança,
conquistou espaço na área governamental, na educação, nas indústrias, no
comércio, nos escritórios, nos lares, enfim, em toda parte. Os sistemas
operacionais foram ganhando agilidade e gradativamente se tornando amigáveis de
forma que sua operacionalidade se tornou fácil e intuitiva até para leigos e
iniciantes. Aplicações foram desenvolvidas tanto para facilitar tarefas básicas
e rotineiras como aquelas que envolviam precisão e confiabilidade.
Dentre todas as inovações e facilidades que os microcomputadores
acrescentaram ao cotidiano das pessoas, sem dúvida a Internet foi o legado mais
contundente e tem revolucionado o mundo dos computadores e das comunicações
como nenhuma outra invenção foi capaz de fazer antes. Claro que a o telégrafo,
telefone, rádio, televisão e o próprio computador prepararam o terreno para a
integração de capacidades. Podemos hoje dizer que a Internet é ao mesmo tempo,
um mecanismo de disseminação da informação e divulgação mundial e um meio para
colaboração e interação entre indivíduos e seus computadores, independentemente
de suas localizações geográficas.
Nascida nos Estado Unidos na década de 70, a Internet tinha como
objetivo principal a comunicação e troca de informações entre cientistas,
pesquisadores e militares. No final da década de 80 os Estados Unidos liberou o
uso da rede para fins comerciais.
No Brasil, só em 1995, pela
iniciativa do Ministério das Telecomunicações e Ministério da Ciência e
Tecnologia, a Internet deixou de ser exclusividade do meio acadêmico e foi aberta ao setor
privado. O acesso era feito normalmente via da linha telefônica discada através
de provedores de acesso pagos.
Apesar de ser uma realidade
ainda distante da sociedade como um todo, em maio de 1996 o jornal “Folha de
São Paulo” estava lançando um Guia da Internet com cerca de 4000 endereços de
sites ativos - uma enormidade se compararmos o número de usuários e a
tecnologia para acesso disponível na época com a atualidade. No dia seguinte ao
lançamento, a coluna do jornalista Clóvis Rossi[1] estava
particularmente interessante (texto integral: figura 1). Creio que ele estava
tão perplexo quanto encantado com a sensação de “encurtamento de distâncias”,
com as facilidades para se comunicar com o mundo e com volume de informações (úteis
e inúteis) que já naquela época estavam disponíveis.
Figura 1: Folha
de São Paulo (23/05/1996)
|
Se há 13 anos a quantidade de
informações já era surpreendente, atualmente, quando se fala em bilhões de
páginas ativas, quando além de textos circula na rede os mais diversos tipos de
materiais (imagens, sons, livros inteiros, filmes, etc.) além de permitir
sintonizar rádios e emissoras de TVs, como fazer para não se perder dentro
desta “teia”? Ou melhor: como fazer para achar algo dentro do que poderíamos
facilmente chamar de “desordem organizada”
1.
O caos informacional
A Internet, rede das redes, atingiu uma abrangência global e
formas de utilização que certamente jamais foi imaginada pelos seus
idealizadores. Ela tem como
característica principal não ser propriedade de ninguém. Assim, ela é:
· Não regulamentada
- não foram estabelecidas regras ou normas para a sua utilização.
Internacionalmente há apenas uma organização que tenta zelar e promover a troca
de informações – Internet Society (http://www.isoc.org).
No Brasil, o Comitê Gestor da Internet (CGI – http://www.cgi.br),
criado em 1995, é quem faz este papel.
·
Descentralizada
e aberta – pode ser acessada a qualquer momento e em toda parte. Para Vaz
(2004), pode-se dizer que ela é infinita, sem um centro comum e
multipolarizada. O autor ainda diz que a Internet alterou o significado de rede
passando a denotar um sistema aberto, capaz de romper fronteiras e que qualquer
um pode participar.
· Não
hierárquica e interativa – para Lévy (1999) a interatividade entre os
internautas estabelece o que se pode chamar de “inteligência coletiva”. Ainda
Lévy (2003, p. 195) afirma que a Internet permite a “reciprocidade na comunicação
e a partilha de um contexto”.
Apoiada pelos avanços tecnológicos, a Internet se expandiu
rapidamente, tornando-se uma malha complexa de ramificações, distribuindo,
armazenando e compartilhando informações. Sendo que as interações podem ser
feitas de “um para um”, ou “de um para muitos” ou ainda de “muitos para
muitos”, todo este dinamismo levou a um crescimento exponencial do volume de
informações assim como o número de usuários que passaram a fazer parte desta
“inteligência coletiva” (Schons, 2007).
Para Schons (2007) a construção
de um grande acervo de informações, a princípio é positivo, mas com o tempo
originou um grande problema na rede “uma vez que excesso de informações parece
ser pior do que a sua falta”. Isto se explica ao pensarmos que pode ser mais
frustrante o excesso de respostas do que a não haver nenhuma.
Em 2003, Lyman e Varian estimaram em suas pesquisas
que havia cerca de 170 terabytes de informações armazenadas na Internet.
Considerando o acervo impresso da Biblioteca do Congresso Americano, tida como
a maior do mundo, este número é 17 vezes maior. Em 2008 estimava-se que havia
80 milhões de páginas ativas. Considerando que todo este acervo está
distribuído pelo mundo, que o seu crescimento é feito de forma desorganizada e
caótica, podemos dizer que está estabelecido o caos informacional. Os
profissionais da área de informação estão hoje muito mais preocupados em
organizar o que se tem do que em gerar novas informações.
2.
Tentando organizar o caos
A segundo Johnson (2003) Internet é um grande paradoxo: “quanto
mais informação flui em seus reservatórios, maior se torna a dificuldade de
achar um simples dado no seu oceano”. Desta afirmação pode-se dizer que pela
quantidade de informação armazenada, dificilmente não haverá alguma referência
a algum assunto, porém, é exatamente por esta quantidade é que se tem a
dificuldade de selecionar exatamente aquilo que se procura.
Bergman (2001) em um estudo sobre a recuperação de
informações e documentos observa que o crescimento da Internet é exponencial e
em suas páginas há uma diversidade muito grande de temas. É justamente esta
abrangência que dificulta a recuperação da informação. Não é à toa que se busca
criar categorias e vocábulos específicos para cada tema. Os mecanismos de busca
no processo de indexação das páginas apenas extraem palavras do texto HTML da
página e armazenam estas palavras em bases de dados de forma isolada, sem
compreender seus temas; e ainda cada página HTML é reconhecida de maneira
isolada pelos programas-robôs dos mecanismos de busca durante a indexação,
desconsiderando que diversas páginas estão inter-relacionadas e que constituem
um determinado site.
Com a
explosão informacional, a necessidade crescente da recuperação da informação
passou a ser uma necessidade premente que tecnologias mais eficientes surgissem
no sentido de conter e organizar a avalanche de informações. A pesquisa e o
desenvolvimento estão focados basicamente em aperfeiçoar os recursos já existentes
e promover novas metodologias e mecanismos para o registro, seleção, busca e
representação da informação, de modo que o fluxo nessas atividades seja
eficiente.
Em
ambos os casos, estudos têm sido implementados no sentido de fazer frente à
explosão informacional adotando como requisitos básicos a qualidade e a
relevância da informação, ou seja, a informação certa no momento preciso.
Dentre
as tecnologias emergentes que buscam colaborar na organização eficiente da
informação no contexto da Web, destacam-se: ferramentas de busca, Metadados e
XML e também a Web semântica.
2.1.
Ferramentas de busca
As
ferramentas de busca foram evoluindo através dos tempos. Pode-se fazer uma
classificação busca dos mecanismos em gerações (Shons 2007):
·
Primeira geração - para fazer frente ao grande volume de conteúdo na
Internet, estabeleceu-se diretórios ou catálogos (Yahoo e similares). A
descoberta, avaliação, descrição e inclusão dos recursos eram feitas por
profissionais de informação.
· Segunda geração - esse processo foi automatizado através de os robôs
digitais (Altavista).
· Terceira geração - veio com os
metabuscadores, juntando em um único resultado as informações de vários motores
de busca (MetaMiner).
· Quarta geração - os resultados são ainda mais refinados (All the Web).
· Quinta geração - corresponde à geração atual, tendo como principal
exemplo o Google, utilizando várias tecnologias, dentre as principais, a
PageRank[2],
Em meio ao enorme volume informacional
espalhado na Web, as ferramentas de busca representam um meio para localizar
informações. Johnson (2003) considera que tais ferramentas são verdadeiros
antídotos criados pelo homem para o natural caos na Web. No entanto, apesar de
minimizarem o estado caótico atual, tais ferramentas ainda não proporcionam uma
solução definitiva e perfeita. Marcondes e Sayão (2002) compreendem que o uso
de ferramentas de busca representa soluções parciais para o problema da
explosão informacional.
Salienta-se,
neste sentido, a necessidade e aprimoramento operacional dos mecanismos de
busca por meio de melhor qualidade de indexação, além da adoção de novas
ferramentas e funcionalidades no processo de busca. A forma de recuperar a
informação, nos sites de busca, tende a se aprimorar a cada dia, mas o quadro
que se verifica no momento é da inexistência de mecanismos capazes de filtrar a
informação de forma a proporcionar a seleção restrita dos temas de interesse.
De fato, os mecanismos de busca ainda necessitam de
aperfeiçoamentos; no entanto, se analisarmos a história de seu desenvolvimento,
percebemos grandes avanços tecnológicos.
2.1.1.
O sistema
PageRank
O
sistema PageRank , desenvolvido pelos fundadores do Google, Larry Page e Sergey
Brin enquanto cursavam a Universidade de Stanford em 1998, é usado pelo motor de
busca Google para ajudar a determinar a relevância ou importância de uma
página.
O
Google mantém uma lista de bilhões de páginas em ordem de importância, isto é,
cada página tem sua importância na Internet como um todo. Essa importância é
“calculada” pelo número de votos que uma página recebe. Como voto se considera um
link para aquela página em qualquer lugar da Internet. Votos de páginas mais
importantes valem mais do que votos de páginas menos importantes.
Esse
critério de ordenação das páginas é considerado por muitos como democrático.
Lembre-se que cerca de dez bilhões de páginas são levadas em conta. A qualidade
das páginas mais importantes são naturalmente garantidas, classificadas e
eleitas pela própria Internet. Além disso, todas as páginas tema mesma condição de subir nessa lista,
conquistando votos pela Internet afora.
Uma
boa unidade de medida para definir o PageRank™ de uma página pode ser a
percentagem (%) de páginas que ela é mais importante. Por exemplo, se uma
página tem PageRank™ de 33% significa que ela é mais importante que um terço de
toda a Internet. Se o seu PageRank™ é 99% significa que ela é superior a quase
todas as páginas da Internet.
No
entanto, é possível manipular o PageRank™ atribuindo links descontextualizados
com o objetivo da página, modificando a ordenação de resultados na pesquisa
pelo Google e induzindo a resultados pouco relevantes ou tendenciosos. Um
exemplo recente disso é a pesquisa por failure ou miserable failure que
retornava como primeiro site a biografia oficial da Casa Branca para o
presidente dos Estados Unidos, George W. Bush e em sequência a página de
Michael Moore, inimigo declarado do presidente dos EUA. Este processo ficou
conhecido por Googlebombing. Apesar disso, o Google tem removido alguns
resultados decorrentes de "Googlebombing".
2.2.
Metadados e XML
Os metadados são amplamente utilizados e permitem
descrições do documento e de informações de modo que tanto seres humanos,
programas ou robôs de busca possam avaliar sua relevância e associá-lo a
documentos que facilitem a sua recuperação.
A linguagem XML (eXtensible Markup Language), por sua
vez, é um padrão estabelecido que visa apoiar a codificação dos metadados de um
documento eletrônico, de forma a facilitar a compreensão por pessoas e
programas o compreendam.
Os Metadados foram usados inicialmente para facilitar
e dar maior qualidade à busca e à indexação. Dentro das páginas HTML, através
de tags especiais, indicava-se o conteúdo e palavras-chave. Porém o uso dessas
tags possuía algumas limitações. Passo-se então a discutir o uso da linguagem
XML para solucionar tais limitações.
Um dos padrões mais utilizados, segundo Schons (2007) é o
Dublin Core (proposto pela Dublin Core Metadata Initiative – DCMI), que provê
melhores possibilidades para a descrição e recuperação de informações.Assim, de
uma forma simples os próprios autores dos documentos podem descrevê-los e
publicá-los.
Marcondes (2007), explica que o padrão DCMI compreende 15
elementos descritivos, simples e auto-explicativos, o chamado Dublin Core Metadata
Element Set (DCMES). São eles:
• Subject (assunto);
• Title (título);
• Creator (autor);
• Publisher (publicador):
• Contribuitor (demais colaboradores,por exemplo,
editores, tradutores);
• Description (descrição, sumário);
• Date (data de publicação);
• Type (tipo de recurso: homepage, romance, poesia,
software, dicionário);
• Format (formato do arquivo que contém o documento
eletrônico: texto, PDF, HTML ou outro);
• Indetifier (geralmente o URL de um documento
eletrônico);
• Relation (relacionamentos com outros documentos,
por exemplo, versões);
• Source (fonte ou origem);
• Language (idioma do documento);
• Coverage (cobertura - espacial ou temporal, sobre
que lugar, ou sobre que época o texto se refere);
• Rights (texto livre especificando qualquer
restrição referente a direitos autorais).
Um
ponto interessante a ser mencionado é que o uso de metadados, seguindo o padrão
Dublin Core e codificação XML, pode ser exemplificado pelo protocolo Open Archives
Initiative Protocol for Metadata Harvesting (OAI-PMH)7. Este protocolo é bastante
utilizado na comunidade científica onde os próprios autores efetuam a
publicação online de seus arquivos de acesso aberto, os denominados “open
archives”.
2.3.
Web semântica
Segundo Souza e Alvarenga
(2004), a web semântica representa a evolução da web atual. Enquanto a web atual é baseada em hipertextos escritos na
linguagem HTML, e só permitem a indexação automática por palavras chaves
extraídas do texto, a web semântica consiste em páginas utilizando XML, que,
além do conteúdo, terão metadados utilizando vocabulários e relações muito poderosas
(ontologias[3] e RDF -
Resource Description Framework[4]) para
expressar a semântica das novas páginas Web. Nesse ambiente, atuarão agentes
inteligentes que irão realizar tarefas que envolvem conhecimento, raciocínio e
dedução. Desse modo, espera-se a concretização de vínculos cooperativos no intuito
de que a vida dos usuários seja facilitada, suas necessidades sejam atendidas antecipadamente,
uma vez que o sistema aprende com o tempo, os hábitos e necessidades de seus
usuários (Web inteligente).
A web semântica vem ganhando
abrangência entre as diversas tecnologias apontadas como possíveis soluções
diante do caos informacional. Estabelecendo novos padrões e metodologias para o
tratamento e recuperação da informação. Seu grande objetivo é possibilitar que
a informação seja mais bem representada para que, conseqüentemente, seja
recuperada com maior eficiência. Seu princípio básico consiste em dividir as
informações em categorias que possa ser entendida por seres humanos, assim como
também venham possua significado para os computadores através do uso de
metadados, tornando-as desse modo processáveis por máquinas. A idéia principal
é ter pessoas e computadores trabalhando cooperativamente, salienta
Berners-Lee, Hendler e Lassila (2001).
Eis exemplo do que a
web semântica poderá fazer pelos usuários da Internet: “você precisa fazer uma
viagem as pressas para a Tailândia, então você pede ao computador encontrar uma
companhia aérea que siga as seguintes restrições: que tenha um voo para a manhã
seguinte na classe econômica e seja a companhia com o preço mais barato. O
computador, em poucos momentos lhe fornece o resultado da busca com a companhia
que melhor se encaixa nas medidas impostas. Depois disso, você apenas tem o
trabalho de reservar seu lugar” (http://www.tableless.com.br/a-web-semantica).
Conclusão
Para quem viu e acompanhou o alvorecer da Internet e dela se
utiliza no cotidiano, só se pode esperar que cada vez mais ela cresça e traga
mais contribuições e facilidades para o seu uso.
O encantamento e a perplexidade expressa pelo jornalista
Clovis Rossi há 13 anos certamente foi compartilhada por muitos durante todo
este tempo. Lembro-me que à época, depois de ler o texto escrito por ele e que
deu início a este artigo, enviei-lhe um e-mail expressando a minha
solidariedade. Em questão de minutos recebi a resposta e me encantei com a
velocidade com que tudo aconteceu.
Quanto ao caos informacional, pode-se dizer que para o
usuário leigo talvez passe despercebido, pois dificilmente há pesquisa sem
resposta. Claro que muitas respostas às vezes assustam, mas nada se compara a
alegria de poder tê-las num piscar de olhos.
Como a cada dia mais facilidades são disponibilizadas para
facilitar o seu uso, cada vez mais se tem mais pessoas se valendo desta
ferramenta que está sendo incorporada ao cotidiano das pessoas de todas as
idades e em todas as camadas sociais.
Referências
BERGMAN,
Michael K. The deep web: surface hidden value. Journal of Electronic Publishing,
v. 7, n.1, Ago. 2001. Disponível em: <http://quod.lib.umich.edu/cgi/t/text/text-idx?c=jep;view=text;rgn=main;idno=3336451.0007.104>.
Acesso em: 21/04/2009.
BERNERS-LEE,
Tim.; HENDLER, James.;LASSILA, Ora. The semantic web: a new form of web content
that is meaningful to computers will unleash a revolution of new possibilities.
Magazine Content, May, 2001. Disponível em:
<http://www.scientificamerican.com/article.cfm?articleID=00048144-10D2-1C70-84A9809EC588EF21&
catID=2>. Acessoem: 19 jan. 2007.
JOHNSON, Steven. Emergência: a dinâmica de rede em
formigas, cérebros, cidades e softwares. Rio de Janeiro: Jorge Zahar, 2003.
LÉVY, Pierre. A
revolução contemporânea em matéria de comunicação. In: MARTINS, F. M.;
SILVA,
J. M (Org.). Para navegar no século XXI: tecnologias do imaginário e cibercultura. 3. ed.
Porto Alegre: Sulinas/Edipucrs, 2003
LÉVY, Pierre. Cibercultura. São Paulo: Editora34, 1999
LYMAN, Peter;
VARIAN, Hal.R. How much information. 2003. Disponível em: <http://www2.sims.berkeley.edu/research/p
rojects/how-much-info-2003/index.htm>. Acesso: 20/04/2009
MARCONDES, Carlos Henrique; SAYÃO, Luis Fernando. Documentos
digitais e novas formas de cooperação entre sistemas de informação em C&T.
Ciência da Informação, Brasília, v. 31, n. 3, p. 42-54, set./dez. 2002.
Disponível em < http://revista.ibict.br/index.php/ciinf/article/viewPDFInterstitial/149/128>
Acessado em 23/04/2009
SCHONS, Claudio Henrique. O volume de informações na internet e sua
desorganização: reflexões e perspectivas. Inf. Inf ., Londrina , v.12 , n.1 , jan./ jun.2007
Disponível em <http://www.uel.br/revistas/uel/index.php/informacao/article/view/1748/1497
>Acesso: 20/04/2009
SOUZA, Renato Rocha; ALVARENGA, Lídia. A web semântica e
suas contribuições para a Ciência da Informação. Ciência da Informação,
Brasília, v. 33, n. 1, p. 132-141, jan./abr. 2004. Disponível em <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0100-19652004000100016>
.Acesso em 26/04/2009
VAZ, Paulo. Mediação e tecnologia. In: MARTINS,
Francisco Menezes; SILVA, Juremir Machado da (Org.). A genealogia do virtual:
comunicação; cultura e tecnologias do imaginário. Porto Alegre: Sulina, 2004.
[1] Clovis
Rossi – nascido em São Paulo em 1943, é jornalista da “Folha de São Paulo”
[2] O processo do PageRank™ foi patenteado pela
Universidade de Stanford nos Estados Unidos da América sob o número 6.285.999.
Somente o nome PageRank™ é uma marca registrada do Google.
[3]
“Uma ontologia é um conjunto de termos
ordenados hierarquicamente para descrever um domínio que pode ser usado como um
esqueleto para uma base de conhecimentos.” Gómez-Pérez (1999)
[4]
Resource Description Framework (RDF) é uma linguagem para representar
informação na Internet

Nenhum comentário:
Postar um comentário