domingo, 15 de abril de 2007

Floriano Ferreira - Google: Ferramenta ECM

Por Floriano Ferreira

Localizar informações sem o custo de organizá-las ou indexá-las é o sonho de todos os usuários. Essa tem sido a bandeira de produtos como Google - e agora também da Microsoft. Mas todo resultado de consulta vai ser fruto do processo de organização e indexação. Não existe mágica, isso é, se existe um tempo dedicado ao processo de indexação ele se reverterá em maior velocidade na localização dos conteúdos.

Caso a indexação seja feita de forma automática, através de indexação textual, ou seja por todas as palavras do texto, que pode ser após um processo de OCR, no caso de imagens, temos um baixo esforço no processo de indexação, mas exigirá uma garimpagem durante o processo de consulta. Ou seja: em vez de uma recuperação direta do conteúdo, temos como resultado uma lista de resultados para ser pesquisada, seguida de uma seleção do conteúdo buscado e, finalmente, de sua visualização.

Os softwares de ECM permitem que os conteúdos sejam indexados por dois métodos: através de técnicas de taxonomia com índices específicos – os conteúdos são armazenados em banco de dados e possuem links para os documentos – ou por indexação textual, permitindo que os documentos sejam recuperados através de ferramentas conhecidas como FTR – Full Text Retrieval (Recuperação Textual). Existem necessidades de aplicações de consultas para os dois tipos de tecnologia.

Indexar conteúdos por taxonomia exige um processo de entendimento dos conteúdos que serão armazenados com definições dos termos mais comuns. As palavras que serão utilizadas para indexação devem fazer parte da cultura da empresa. Esses processos podem utilizar estruturas hierárquicas e devem ser difundidos para todos da empresa. Os documentos podem estar armazenados em diretórios ou dentro de repositórios de documento, e serão localizados pelos índices armazenados em banco de dados.

O desafio é definir quais serão os termos utilizados para indexar, pois eles agilizarão o processo de recuperação de conteúdos. Existem muitas técnicas para auxiliar esse processo de indexação. Algumas permitem que usuários em potencial acrescentem seus termos mais utilizados para localização de conteúdos. São as chamadas “tags” dos usuários. “Folksonomy” representa esse conceito, e podemos traduzi-lo como uma taxonomia numa linguagem mais próxima do usuário.

Definido o vocabulário, o próximo passo é indexar cada documento. Esse é um trabalho que exige intervenção humana e, normalmente, é a fase mais cara num processo de captação de documentos.

No processo automático de indexação, os softwares permitem que cada palavra do documento possa ser utilizada como uma chave de recuperação. Para agilizar o processo de recuperação, são incluídas técnicas de sintaxe, semântica, contexto. Não é à toa que a Google emprega 7 mil cientistas e engenheiros focados em busca.

Quando fazemos consultas utilizando portais como Google, Yahoo, Cadê? e outros, muitas vezes perdemos, no mínimo, dez minutos para descobrirmos que não achamos o que estávamos procurando. De acordo com pesquisas do IDC, empresas do grupo Fortune 1000 perderiam até 2.5 bilhões de dólares por ano causados por inabilidade para localizar e recuperar informações.

Processamento em linguagem natural é a alternativa que as empresas de software vêm adotando para agilizar a localização de informações. Essa tecnologia permite que uma pergunta seja quebrada em uma estrutura de sentença, idêntica aos diagramas que aprendemos no ginásio, com sujeito, verbo, predicado etc. Desse modo, a ferramenta consegue entender exatamente o que se busca. Todos os documentos que foram automaticamente indexados passaram por um processo similar, e a inteligência do processo está na comparação do que está sendo perguntado contra os fatos e significados encontrados na base indexada. A precisão está relacionada à credibilidade da fonte e na freqüência com que a resposta é encontrada.

Aplicações na área jurídica, em que se buscam casos similares por assunto e não pelos campos indexados, são exemplos típicos de busca textual. Aplicações de arquivamento das pastas de Recursos Humanos são exemplos típicos de consulta por índices diretos e não de busca textual.

No processo de indexação textual não temos todos os níveis de segurança de acesso aplicados em um ambiente hierárquico de armazenamento, isso é: normalmente todos os conteúdos que atendam a uma consulta serão apresentados na lista de retorno, mas alguns produtos bloqueiam o acesso ao documento localizado.

A solução ideal para uma aplicação de atendimento do tipo call center, onde o operador precisa atender um cliente pelo telefone, é sem dúvida um sistema de índices armazenados em banco de dados. Não é aconselhável fazer consultas por conteúdo textual, pois o retorno da consulta poderia, em alguns casos, retornar listas de resultados que exigiriam mais tempo do operador e, com certeza, não dariam um bom nível de atendimento ao cliente no telefone.

Acompanhando o crescimento do mercado de ECM, novos produtos de recuperação surgem a cada dia. Fornecedores tradicionais têm implementado novos recursos e aqui fusões também são comuns. Podemos dividir os principais fornecedores em oito grandes grupos, começando pelo grupo dos principais motores de reconhecimento, presentes na maioria dos produtos de ECM, são eles: Autonomy / Verity, Convera, FAST e Open Text/Hummingbird.

O segundo grupo é formado pelas soluções especializadas, como Endeca, InQuira, Lextek, Siderean, Stratify, Teratex e Vivisimo.

O terceiro grupo é o das superplataformas, onde temos IBM, Microsoft, Oracle e SAP.

Muitos fornecedores focados em Microsoft, principalmente no SharePoint, formam o quarto grupo de produtos orientados a Microsoft, são eles: Coveo, dtSearch, Innerprise e Mondosoft.

O quinto grupo é formado pelos pacotes “plug-and-play”, no qual encontramos o Google e Thunderstone.

Produtos baseados em pesquisa pela web formam o sexto grupo, no qual temos produtos de empresas como WebSideStory e Bossom.

O sétimo grupo é formado por soluções baratas e orientadas a web como Funnelback e Your Amigo. O oitavo grupo é formado pelas soluções em plataforma aberta, como Lucene, Swish e Htdig.

Os principais benefícios do uso de busca textual são a habilidade de buscar dentro de um grande universo de tópicos, gerar uma grande faixa de resultados e um baixo nível de treinamento para localização de informações. É utilizada quando se pesquisa um determinado assunto, sem detalhamento de quais conteúdos ou documentos poderiam atender a consulta. Diferentemente da utilização de ferramentas de indexação direta, onde temos um critério de busca mais limitado, entretanto seu resultado é muito específico, trazendo exatamente o que está sendo procurado e com velocidade.

Fonte: Unidade de Gestão do Conhecimento – UGC

Nenhum comentário: