Técnica multimodal facilita busca de cenas em vídeos
Pesquisadores da Universidade de São Paulo (USP) criaram uma nova técnica computacional que facilita a busca por vídeos digitais, a partir das próprias imagens.
Atualmente, a busca é feita em sua maior parte com base nos textos que acompanham o vídeo, como no site do Youtube.
Multimodal
Segundo o cientista Danilo Coimbra, autor do projeto, a técnica é interessante para as emissoras que desejam disponibilizar o conteúdo de seus telejornais na web, de modo que os internautas possam navegar de maneira mais fluente entre as notícias.
"O método multimodal é mais preciso que outros já utilizados porque propõe uma busca mais apurada. Ele pode ser aplicado para a personalização de conteúdo considerando as preferências do usuário, uma tendência na área de recuperação de informação em vídeos," explica Danilo.
O gênero de vídeo com o qual Danilo trabalhou foi o telejornal – foram utilizados vinte episódios de quatro telejornais brasileiros.
Segmentação do vídeo
A técnica consiste em um algoritmo que segmenta os vídeos em cenas, integrando informações de texto, imagem e som.
Como explica o autor, o algoritmo identifica e indica o momento de transição entre duas cenas, e, a partir disso, faz a segmentação do vídeo em partes menores.
Para medir a eficácia do algoritmo, o pesquisador assistiu aos telejornais, documentando manualmente os momentos em que havia mudança de cena. A seguir, aplicou a técnica nesses mesmos telejornais, obtendo os resultados oferecidos pelo programa.
Então, comparou os dois modelos, analisando quantas cenas o algoritmo detectou e quantas não detectou.
Segundo Danilo, os resultados apontam que a técnica se apresentou 17 % mais precisa do que as outras técnicas monomodais analisadas, além de recuperar um número maior de cenas.
O que é uma cena
Para desenvolver a técnica, o primeiro passo da pesquisa foi definir semanticamente o que seria considerado cena, para transformar esse conceito em linguagem técnica no algoritmo.
"Uma definição mais ampla de ‘cena’ é uma das peculiaridades do método, que proporciona um resultado melhor na segmentação", afirma.
Para o autor, há mudança de cena em um jornal quando há mudança de assunto. "Notícias diferentes são cenas diferentes; vinhetas e blocos de comercial também são assuntos distintos."
Em um telejornal, o áudio, a imagem e o texto emitem sinais de que haverá uma mudança de assunto, ou seja, de cena. Isso acontece nos vídeos em geral.
A técnica desenvolvida na pesquisa integra as três mídias, levando em conta as características peculiares de cada uma.
Integração de métodos monomodais
Para elaborar a técnica multimodal, Danilo integrou seis métodos monomodais, cada um capaz de apontar a transição de cena por intermédio de sua respectiva mídia: três deles com características visuais, dois com áudio e um com texto.
O cientista conta que, por exemplo, no caso do som, a nova técnica capta os momentos em que há silêncio, que geralmente indicam que haverá uma mudança de cena: "Essa é uma das informações referentes ao som, e diz respeito ao momento em que um repórter termina de falar para que um âncora (apresentador do telejornal) inicie a apresentação de outro assunto. Nesse ínterim, há o silêncio".
No tocante às imagens, o algoritmo detecta cenas analisando a imagem do âncora, o que também indica que vai haver transição de um assunto para o outro, ou seja, de uma cena para outra.
Mas podem ocorrer equívocos, e o algoritmo apontar uma transição que não existe, por exemplo quando há um diálogo entre os dois âncoras, que necessariamente não representam mudança de cena.