Diário de uma dissertação de mestrado: Internet: caos informacional ao alcance de todos

INTERNET:

CAOS INFORMACIONAL AO ALCANCE DE TODOS

Lilia Maria Faccio

lilia@that.com.br

Universidade Federal do ABC

Mestre em Engenharia da Informação

Área de Concentração: Inteligência Social

Resumo

A revolução causada pela evolução tecnológica, principalmente nas últimas décadas do século passado, culminou com a popularização da Internet. Com crescimento desordenado aliado à facilidade de acesso e disponibilização de materiais, está se tornando cada vez mais difícil a recuperação de informações e documentos de forma rápida e eficiente. Em busca de uma solução adequada para este problema, novas tecnologias estão sendo desenvolvida. O principal objetivo deste artigo é apresentar de forma resumida o que se tem feito neste sentido.

Abstract

The revolution caused by technological evolution, especially in the last decades of the XX century, has lead to the popularization of Internet. The unorganized growth of Internet as well as the easiness in material sharing and access, is making it harder to recover information and documents in a fast and efficient way. To solve that problem, new technologies are being developed. The principal objective of this article is to present some of them.

Palavras-chave

Internet, Inteligência coletiva, metadados, XML, ferramentas de busca, PageRank, WEB semântica

Introdução

No decorrer do século passado, principalmente nas duas últimas décadas, a sociedade presenciou, muitas vezes atônita, uma revolução tecnológica que causou mudanças radicais no modo de vida, nas comunicações, em conceitos e paradigmas.

Por mais resistentes que fossem os antigos padrões, todos (ou quase todos) acabaram se rendendo às inovações e facilidades que estas novas tecnologias trouxeram ao dia a dia.

O microcomputador, inicialmente olhado com reservas e desconfiança, conquistou espaço na área governamental, na educação, nas indústrias, no comércio, nos escritórios, nos lares, enfim, em toda parte. Os sistemas operacionais foram ganhando agilidade e gradativamente se tornando amigáveis de forma que sua operacionalidade se tornou fácil e intuitiva até para leigos e iniciantes. Aplicações foram desenvolvidas tanto para facilitar tarefas básicas e rotineiras como aquelas que envolviam precisão e confiabilidade.

Dentre todas as inovações e facilidades que os microcomputadores acrescentaram ao cotidiano das pessoas, sem dúvida a Internet foi o legado mais contundente e tem revolucionado o mundo dos computadores e das comunicações como nenhuma outra invenção foi capaz de fazer antes. Claro que a o telégrafo, telefone, rádio, televisão e o próprio computador prepararam o terreno para a integração de capacidades. Podemos hoje dizer que a Internet é ao mesmo tempo, um mecanismo de disseminação da informação e divulgação mundial e um meio para colaboração e interação entre indivíduos e seus computadores, independentemente de suas localizações geográficas.

Nascida nos Estado Unidos na década de 70, a Internet tinha como objetivo principal a comunicação e troca de informações entre cientistas, pesquisadores e militares. No final da década de 80 os Estados Unidos liberou o uso da rede para fins comerciais.

No Brasil, só em 1995, pela iniciativa do Ministério das Telecomunicações e Ministério da Ciência e Tecnologia, a Internet deixou de ser exclusividade do meio acadêmico e foi aberta ao setor privado. O acesso era feito normalmente via da linha telefônica discada através de provedores de acesso pagos.

Apesar de ser uma realidade ainda distante da sociedade como um todo, em maio de 1996 o jornal “Folha de São Paulo” estava lançando um Guia da Internet com cerca de 4000 endereços de sites ativos - uma enormidade se compararmos o número de usuários e a tecnologia para acesso disponível na época com a atualidade. No dia seguinte ao lançamento, a coluna do jornalista Clóvis Rossi[1] estava particularmente interessante (texto integral: figura 1). Creio que ele estava tão perplexo quanto encantado com a sensação de “encurtamento de distâncias”, com as facilidades para se comunicar com o mundo e com volume de informações (úteis e inúteis) que já naquela época estavam disponíveis.

Figura 1: Folha de São Paulo (23/05/1996)

Se há 13 anos a quantidade de informações já era surpreendente, atualmente, quando se fala em bilhões de páginas ativas, quando além de textos circula na rede os mais diversos tipos de materiais (imagens, sons, livros inteiros, filmes, etc.) além de permitir sintonizar rádios e emissoras de TVs, como fazer para não se perder dentro desta “teia”? Ou melhor: como fazer para achar algo dentro do que poderíamos facilmente chamar de “desordem organizada”

1. O caos informacional

A Internet, rede das redes, atingiu uma abrangência global e formas de utilização que certamente jamais foi imaginada pelos seus idealizadores. Ela tem como característica principal não ser propriedade de ninguém. Assim, ela é:

· Não regulamentada - não foram estabelecidas regras ou normas para a sua utilização. Internacionalmente há apenas uma organização que tenta zelar e promover a troca de informações – Internet Society (http://www.isoc.org). No Brasil, o Comitê Gestor da Internet (CGI – http://www.cgi.br), criado em 1995, é quem faz este papel.

· Descentralizada e aberta – pode ser acessada a qualquer momento e em toda parte. Para Vaz (2004), pode-se dizer que ela é infinita, sem um centro comum e multipolarizada. O autor ainda diz que a Internet alterou o significado de rede passando a denotar um sistema aberto, capaz de romper fronteiras e que qualquer um pode participar.

· Não hierárquica e interativa – para Lévy (1999) a interatividade entre os internautas estabelece o que se pode chamar de “inteligência coletiva”. Ainda Lévy (2003, p. 195) afirma que a Internet permite a “reciprocidade na comunicação e a partilha de um contexto”.

Apoiada pelos avanços tecnológicos, a Internet se expandiu rapidamente, tornando-se uma malha complexa de ramificações, distribuindo, armazenando e compartilhando informações. Sendo que as interações podem ser feitas de “um para um”, ou “de um para muitos” ou ainda de “muitos para muitos”, todo este dinamismo levou a um crescimento exponencial do volume de informações assim como o número de usuários que passaram a fazer parte desta “inteligência coletiva” (Schons, 2007).

Para Schons (2007) a construção de um grande acervo de informações, a princípio é positivo, mas com o tempo originou um grande problema na rede “uma vez que excesso de informações parece ser pior do que a sua falta”. Isto se explica ao pensarmos que pode ser mais frustrante o excesso de respostas do que a não haver nenhuma.

Em 2003, Lyman e Varian estimaram em suas pesquisas que havia cerca de 170 terabytes de informações armazenadas na Internet. Considerando o acervo impresso da Biblioteca do Congresso Americano, tida como a maior do mundo, este número é 17 vezes maior. Em 2008 estimava-se que havia 80 milhões de páginas ativas. Considerando que todo este acervo está distribuído pelo mundo, que o seu crescimento é feito de forma desorganizada e caótica, podemos dizer que está estabelecido o caos informacional. Os profissionais da área de informação estão hoje muito mais preocupados em organizar o que se tem do que em gerar novas informações.

2. Tentando organizar o caos

A segundo Johnson (2003) Internet é um grande paradoxo: “quanto mais informação flui em seus reservatórios, maior se torna a dificuldade de achar um simples dado no seu oceano”. Desta afirmação pode-se dizer que pela quantidade de informação armazenada, dificilmente não haverá alguma referência a algum assunto, porém, é exatamente por esta quantidade é que se tem a dificuldade de selecionar exatamente aquilo que se procura.

Bergman (2001) em um estudo sobre a recuperação de informações e documentos observa que o crescimento da Internet é exponencial e em suas páginas há uma diversidade muito grande de temas. É justamente esta abrangência que dificulta a recuperação da informação. Não é à toa que se busca criar categorias e vocábulos específicos para cada tema. Os mecanismos de busca no processo de indexação das páginas apenas extraem palavras do texto HTML da página e armazenam estas palavras em bases de dados de forma isolada, sem compreender seus temas; e ainda cada página HTML é reconhecida de maneira isolada pelos programas-robôs dos mecanismos de busca durante a indexação, desconsiderando que diversas páginas estão inter-relacionadas e que constituem um determinado site.

Com a explosão informacional, a necessidade crescente da recuperação da informação passou a ser uma necessidade premente que tecnologias mais eficientes surgissem no sentido de conter e organizar a avalanche de informações. A pesquisa e o desenvolvimento estão focados basicamente em aperfeiçoar os recursos já existentes e promover novas metodologias e mecanismos para o registro, seleção, busca e representação da informação, de modo que o fluxo nessas atividades seja eficiente.

Em ambos os casos, estudos têm sido implementados no sentido de fazer frente à explosão informacional adotando como requisitos básicos a qualidade e a relevância da informação, ou seja, a informação certa no momento preciso.

Dentre as tecnologias emergentes que buscam colaborar na organização eficiente da informação no contexto da Web, destacam-se: ferramentas de busca, Metadados e XML e também a Web semântica.

2.1. Ferramentas de busca

As ferramentas de busca foram evoluindo através dos tempos. Pode-se fazer uma classificação busca dos mecanismos em gerações (Shons 2007):

· Primeira geração - para fazer frente ao grande volume de conteúdo na Internet, estabeleceu-se diretórios ou catálogos (Yahoo e similares). A descoberta, avaliação, descrição e inclusão dos recursos eram feitas por profissionais de informação.

· Segunda geração - esse processo foi automatizado através de os robôs digitais (Altavista).

· Terceira geração - veio com os metabuscadores, juntando em um único resultado as informações de vários motores de busca (MetaMiner).

· Quarta geração - os resultados são ainda mais refinados (All the Web).

· Quinta geração - corresponde à geração atual, tendo como principal exemplo o Google, utilizando várias tecnologias, dentre as principais, a PageRank[2],

Em meio ao enorme volume informacional espalhado na Web, as ferramentas de busca representam um meio para localizar informações. Johnson (2003) considera que tais ferramentas são verdadeiros antídotos criados pelo homem para o natural caos na Web. No entanto, apesar de minimizarem o estado caótico atual, tais ferramentas ainda não proporcionam uma solução definitiva e perfeita. Marcondes e Sayão (2002) compreendem que o uso de ferramentas de busca representa soluções parciais para o problema da explosão informacional.

Salienta-se, neste sentido, a necessidade e aprimoramento operacional dos mecanismos de busca por meio de melhor qualidade de indexação, além da adoção de novas ferramentas e funcionalidades no processo de busca. A forma de recuperar a informação, nos sites de busca, tende a se aprimorar a cada dia, mas o quadro que se verifica no momento é da inexistência de mecanismos capazes de filtrar a informação de forma a proporcionar a seleção restrita dos temas de interesse.

De fato, os mecanismos de busca ainda necessitam de aperfeiçoamentos; no entanto, se analisarmos a história de seu desenvolvimento, percebemos grandes avanços tecnológicos.

2.1.1. O sistema PageRank

O sistema PageRank , desenvolvido pelos fundadores do Google, Larry Page e Sergey Brin enquanto cursavam a Universidade de Stanford em 1998, é usado pelo motor de busca Google para ajudar a determinar a relevância ou importância de uma página.

O Google mantém uma lista de bilhões de páginas em ordem de importância, isto é, cada página tem sua importância na Internet como um todo. Essa importância é “calculada” pelo número de votos que uma página recebe. Como voto se considera um link para aquela página em qualquer lugar da Internet. Votos de páginas mais importantes valem mais do que votos de páginas menos importantes.

Esse critério de ordenação das páginas é considerado por muitos como democrático. Lembre-se que cerca de dez bilhões de páginas são levadas em conta. A qualidade das páginas mais importantes são naturalmente garantidas, classificadas e eleitas pela própria Internet. Além disso, todas as páginas tema mesma condição de subir nessa lista, conquistando votos pela Internet afora.

Uma boa unidade de medida para definir o PageRank™ de uma página pode ser a percentagem (%) de páginas que ela é mais importante. Por exemplo, se uma página tem PageRank™ de 33% significa que ela é mais importante que um terço de toda a Internet. Se o seu PageRank™ é 99% significa que ela é superior a quase todas as páginas da Internet.

No entanto, é possível manipular o PageRank™ atribuindo links descontextualizados com o objetivo da página, modificando a ordenação de resultados na pesquisa pelo Google e induzindo a resultados pouco relevantes ou tendenciosos. Um exemplo recente disso é a pesquisa por failure ou miserable failure que retornava como primeiro site a biografia oficial da Casa Branca para o presidente dos Estados Unidos, George W. Bush e em sequência a página de Michael Moore, inimigo declarado do presidente dos EUA. Este processo ficou conhecido por Googlebombing. Apesar disso, o Google tem removido alguns resultados decorrentes de "Googlebombing".

2.2. Metadados e XML

Os metadados são amplamente utilizados e permitem descrições do documento e de informações de modo que tanto seres humanos, programas ou robôs de busca possam avaliar sua relevância e associá-lo a documentos que facilitem a sua recuperação.

A linguagem XML (eXtensible Markup Language), por sua vez, é um padrão estabelecido que visa apoiar a codificação dos metadados de um documento eletrônico, de forma a facilitar a compreensão por pessoas e programas o compreendam.

Os Metadados foram usados inicialmente para facilitar e dar maior qualidade à busca e à indexação. Dentro das páginas HTML, através de tags especiais, indicava-se o conteúdo e palavras-chave. Porém o uso dessas tags possuía algumas limitações. Passo-se então a discutir o uso da linguagem XML para solucionar tais limitações.

Um dos padrões mais utilizados, segundo Schons (2007) é o Dublin Core (proposto pela Dublin Core Metadata Initiative – DCMI), que provê melhores possibilidades para a descrição e recuperação de informações.Assim, de uma forma simples os próprios autores dos documentos podem descrevê-los e publicá-los.

Marcondes (2007), explica que o padrão DCMI compreende 15 elementos descritivos, simples e auto-explicativos, o chamado Dublin Core Metadata Element Set (DCMES). São eles:

• Subject (assunto);

• Title (título);

• Creator (autor);

• Publisher (publicador):

• Contribuitor (demais colaboradores,por exemplo, editores, tradutores);

• Description (descrição, sumário);

• Date (data de publicação);

• Type (tipo de recurso: homepage, romance, poesia, software, dicionário);

• Format (formato do arquivo que contém o documento eletrônico: texto, PDF, HTML ou outro);

• Indetifier (geralmente o URL de um documento eletrônico);

• Relation (relacionamentos com outros documentos, por exemplo, versões);

• Source (fonte ou origem);

• Language (idioma do documento);

• Coverage (cobertura - espacial ou temporal, sobre que lugar, ou sobre que época o texto se refere);

• Rights (texto livre especificando qualquer restrição referente a direitos autorais).

Um ponto interessante a ser mencionado é que o uso de metadados, seguindo o padrão Dublin Core e codificação XML, pode ser exemplificado pelo protocolo Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH)7. Este protocolo é bastante utilizado na comunidade científica onde os próprios autores efetuam a publicação online de seus arquivos de acesso aberto, os denominados “open archives”.

2.3. Web semântica

Segundo Souza e Alvarenga (2004), a web semântica representa a evolução da web atual. Enquanto a web atual é baseada em hipertextos escritos na linguagem HTML, e só permitem a indexação automática por palavras chaves extraídas do texto, a web semântica consiste em páginas utilizando XML, que, além do conteúdo, terão metadados utilizando vocabulários e relações muito poderosas (ontologias[3] e RDF - Resource Description Framework[4]) para expressar a semântica das novas páginas Web. Nesse ambiente, atuarão agentes inteligentes que irão realizar tarefas que envolvem conhecimento, raciocínio e dedução. Desse modo, espera-se a concretização de vínculos cooperativos no intuito de que a vida dos usuários seja facilitada, suas necessidades sejam atendidas antecipadamente, uma vez que o sistema aprende com o tempo, os hábitos e necessidades de seus usuários (Web inteligente).

A web semântica vem ganhando abrangência entre as diversas tecnologias apontadas como possíveis soluções diante do caos informacional. Estabelecendo novos padrões e metodologias para o tratamento e recuperação da informação. Seu grande objetivo é possibilitar que a informação seja mais bem representada para que, conseqüentemente, seja recuperada com maior eficiência. Seu princípio básico consiste em dividir as informações em categorias que possa ser entendida por seres humanos, assim como também venham possua significado para os computadores através do uso de metadados, tornando-as desse modo processáveis por máquinas. A idéia principal é ter pessoas e computadores trabalhando cooperativamente, salienta Berners-Lee, Hendler e Lassila (2001).

Eis exemplo do que a web semântica poderá fazer pelos usuários da Internet: “você precisa fazer uma viagem as pressas para a Tailândia, então você pede ao computador encontrar uma companhia aérea que siga as seguintes restrições: que tenha um voo para a manhã seguinte na classe econômica e seja a companhia com o preço mais barato. O computador, em poucos momentos lhe fornece o resultado da busca com a companhia que melhor se encaixa nas medidas impostas. Depois disso, você apenas tem o trabalho de reservar seu lugar” (http://www.tableless.com.br/a-web-semantica).

Conclusão

Para quem viu e acompanhou o alvorecer da Internet e dela se utiliza no cotidiano, só se pode esperar que cada vez mais ela cresça e traga mais contribuições e facilidades para o seu uso.

O encantamento e a perplexidade expressa pelo jornalista Clovis Rossi há 13 anos certamente foi compartilhada por muitos durante todo este tempo. Lembro-me que à época, depois de ler o texto escrito por ele e que deu início a este artigo, enviei-lhe um e-mail expressando a minha solidariedade. Em questão de minutos recebi a resposta e me encantei com a velocidade com que tudo aconteceu.

Quanto ao caos informacional, pode-se dizer que para o usuário leigo talvez passe despercebido, pois dificilmente há pesquisa sem resposta. Claro que muitas respostas às vezes assustam, mas nada se compara a alegria de poder tê-las num piscar de olhos.

Como a cada dia mais facilidades são disponibilizadas para facilitar o seu uso, cada vez mais se tem mais pessoas se valendo desta ferramenta que está sendo incorporada ao cotidiano das pessoas de todas as idades e em todas as camadas sociais.

Referências

BERGMAN, Michael K. The deep web: surface hidden value. Journal of Electronic Publishing, v. 7, n.1, Ago. 2001. Disponível em: <http://quod.lib.umich.edu/cgi/t/text/text-idx?c=jep;view=text;rgn=main;idno=3336451.0007.104>. Acesso em: 21/04/2009.

BERNERS-LEE, Tim.; HENDLER, James.;LASSILA, Ora. The semantic web: a new form of web content that is meaningful to computers will unleash a revolution of new possibilities. Magazine Content, May, 2001. Disponível em: <http://www.scientificamerican.com/article.cfm?articleID=00048144-10D2-1C70-84A9809EC588EF21& catID=2>. Acessoem: 19 jan. 2007.

JOHNSON, Steven. Emergência: a dinâmica de rede em formigas, cérebros, cidades e softwares. Rio de Janeiro: Jorge Zahar, 2003.

LÉVY, Pierre. A revolução contemporânea em matéria de comunicação. In: MARTINS, F. M.;

SILVA, J. M (Org.). Para navegar no século XXI: tecnologias do imaginário e cibercultura. 3. ed. Porto Alegre: Sulinas/Edipucrs, 2003

LÉVY, Pierre. Cibercultura. São Paulo: Editora34, 1999

LYMAN, Peter; VARIAN, Hal.R. How much information. 2003. Disponível em: <http://www2.sims.berkeley.edu/research/p rojects/how-much-info-2003/index.htm>. Acesso: 20/04/2009

MARCONDES, Carlos Henrique; SAYÃO, Luis Fernando. Documentos digitais e novas formas de cooperação entre sistemas de informação em C&T. Ciência da Informação, Brasília, v. 31, n. 3, p. 42-54, set./dez. 2002. Disponível em < http://revista.ibict.br/index.php/ciinf/article/viewPDFInterstitial/149/128> Acessado em 23/04/2009

SCHONS, Claudio Henrique. O volume de informações na internet e sua desorganização: reflexões e perspectivas. Inf. Inf ., Londrina , v.12 , n.1 , jan./ jun.2007 Disponível em <http://www.uel.br/revistas/uel/index.php/informacao/article/view/1748/1497 >Acesso: 20/04/2009

SOUZA, Renato Rocha; ALVARENGA, Lídia. A web semântica e suas contribuições para a Ciência da Informação. Ciência da Informação, Brasília, v. 33, n. 1, p. 132-141, jan./abr. 2004. Disponível em <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0100-19652004000100016> .Acesso em 26/04/2009

VAZ, Paulo. Mediação e tecnologia. In: MARTINS, Francisco Menezes; SILVA, Juremir Machado da (Org.). A genealogia do virtual: comunicação; cultura e tecnologias do imaginário. Porto Alegre: Sulina, 2004.

[1] Clovis Rossi – nascido em São Paulo em 1943, é jornalista da “Folha de São Paulo”

[2] O processo do PageRank™ foi patenteado pela Universidade de Stanford nos Estados Unidos da América sob o número 6.285.999. Somente o nome PageRank™ é uma marca registrada do Google.

[3] “Uma ontologia é um conjunto de termos ordenados hierarquicamente para descrever um domínio que pode ser usado como um esqueleto para uma base de conhecimentos.” Gómez-Pérez (1999)

[4] Resource Description Framework (RDF) é uma linguagem para representar informação na Internet

Diário de uma dissertação de mestrado

terça-feira, 22 de maio de 2012

Internet: caos informacional ao alcance de todos

Nenhum comentário:

Postar um comentário