Afonso Teodoro, vencedor do prémio científico IBM, desenvolveu durante a tese de doutoramento no Instituto Superior Técnico (IST) um modelo com inteligência suficiente para estimar os valores de píxeis que prejudicam a qualidade da imagem. O jovem doutorado explica como é que funciona a tecnologia que, um dia, tanto poderá ser usada para corrigir fotos ou vídeos das férias do Natal, como para melhorar a qualidade de alguns exames médicos. Afonso Teodoro recebeu o Prémio Científico IBM numa cerimónia realizada no Técnico na manhã desta terça-feira, juntamente com Manuel Carneiro, que ganhou uma menção honrosa com uma tese de mestrado desenvolvida na Universidade de Coimbra que levou ao desenvolvimento de uma nova geração de toucas de eletroencefalogramas.
Eis a entrevista a Afonso Teodoro:
O que é que é possível fazer para melhorar a qualidade de imagens em suporte digital?
Há problemas que são inerentes ao processo de aquisição da imagem. A presença de ruído é inevitável, ainda que possa vir a ser reduzido com o desenvolvimento de novos sensores.
De que tipo de ruído está a falar?
Se tirar uma fotografia num ambiente escuro, vai notar a presença de alguns píxeis que apresentam valores que não deveriam de ter. É preciso trabalhar sobre essas imagens e garantir que a qualidade não vai comprometer a utilidade. Se quisermos usar essas imagens para fazer alguma coisa, convém garantir que temos a melhor realidade possível.
E essas técnicas não alteram a realidade que surge nas imagens?
A ideia é não alterar a realidade. É possível recorrer a artefactos, mas a ideia é minimizar esses artefactos. Tem de haver um equilíbrio: temos de melhorar o mais possível, mas sem introduzir coisas que não correspondam à realidade.
Quais são as referências que são usadas? Que técnicas foram desenvolvidas durante a sua tese doutoramento que permitem melhorar a qualidade de imagens, sem distorcer a realidade?
No meu caso, sendo um problema de investigação, houve um pouco de “batota”, porque tive acesso às imagens que pretendo trabalhar e simulo uma degradação qualquer. Por exemplo, posso desfocar a imagem e depois tento recuperar o que seria a imagem original. Nesse caso tenho uma referência (da realidade). Mas há bastantes trabalhos nesta área que tentam determinar a qualidade de uma imagem sem ter uma referência, mas são trabalhos diferentes…
Para desenvolver essas técnicas recorreu a algoritmos, novas ferramentas ao nível da ótica, ou a novos sensores?
Basicamente, tento usar um modelo que aprende a relação que existe entre píxeis vizinhos e ao aprender essas relações, posso usar precisamente essas relações para tentar estimar como é que seria uma imagem de boa qualidade, partindo de uma imagem que não é de boa qualidade. Podemos dar um conjunto de treino de imagens de boa qualidade para que o modelo aprenda. Podemos chamar a isto a inteligência do algoritmo.
Mas isso implica que ao fotografar esta cadeira tenha já em arquivo uma imagem desta cadeira com boa qualidade!
Pode não ser desta cadeira… pode ser de cadeiras diferentes desta. A ideia é que, ao dar um conjunto representativo das características de uma cadeira, poder inferir as características de uma nova cadeira.
E essa inferência tem por base píxeis com qualidade e píxeis sem qualidade?
O modelo tem por base os píxeis que têm qualidade, mas a ideia é melhorar os (píxeis) que não têm qualidade.
Quais os fatores que prejudicam a qualidade de uma imagem que foram trabalhados na sua tese de doutoramento?
Há uma imensa quantidade de perturbações que podem acontecer numa imagem. Talvez a mais simples será a da imagem desfocada, quando se tira uma foto e o objeto se mexe e não se perceber qual a informação que se pretende retirar daí… o objetivo é conseguir recuperar essa informação e ver nitidamente o que estava a ser representado.
Há casos em que as perturbações têm a ver com a falta de cor…
… ou falta de resolução, e nesses casos há que tentar melhorar a resolução da imagem para se conseguir ter mais informação disponível. Pode ser algo que acontece, por exemplo, nas ressonâncias magnéticas, em que uma pessoa tem de estar dentro de uma máquina… e a máquina demora algum tempo a tirar as medições à volta do cérebro da pessoa. Se a pessoa se mexe, o exame fica comprometido. A solução pode passar por tirar menos medições e reconstruir a imagem se tivéssemos tirado as medições todas.
Esta é das tais técnicas que dariam para tirar uma pessoa ou um objeto de uma imagem…
Sim. Não fiz testes com esse alcance… mas poderia ser uma aplicação possível. Ou então, tentar inferir o valor de píxeis que não se encontram na imagem, e tentar representar esses valores.
A técnica é aplicável a vídeos… ou apenas funciona em fotos?
No vídeo, pode ser aplicado frame a frame, mas essa não é a melhor abordagem… tem de haver uma coerência temporal.
Esta nova técnica já pode ser aplicada às câmaras de telemóveis da atualidade?
De momento não, porque não foi esse o âmbito da investigação… o objetivo passou mais pela qualidade dos resultados (do algoritmo) que pela qualidade da implementação ou a velocidade do algoritmo. Eventualmente, trabalhando no sentido da otimização da implementação… que até poderia ser distribuída, talvez seja possível reduzi-la o suficiente para a colocar dentro de um telemóvel.
Sendo distribuída, a inteligência associada a esta ferramenta não estaria apenas no telemóvel e poderia ser complementada pela rede?
Sim, poderemos não ter o processamento mais pesado todo de um lado…
E é nesse tipo de implementação que vai trabalhar nos próximos tempos?
Não. Para mim, este projeto está encerrado. Já nem sequer estou na academia. Estou na indústria, também a trabalhar em problemas de visão por computador. Já estive cinco anos trabalhar neste problema e já chega.