“Expectativas irrealistas encorajaram o uso destas ferramentas antes de estarem prontas” para o mundo real, resume a MIT Technology Review, revista ligada ao Instituto de Tecnologia de Massachusetts (o reputado MIT), nos Estados Unidos. Basicamente, desde março de 2020, quando o número de casos de pacientes com SARS-CoV-2 começou a escalar na Europa e Estados Unidos, houve uma corrida à criação de tecnologias preditivas, capazes de ‘mastigar’ enormes quantidade de dados e analisá-los, com o objetivo de facilitar e tornar mais rápidas as triagens ou os diagnósticos nos hospitais.

O problema é que estes modelos computacionais, que recorrem à chamada «inteligência artificial» (IA) para obter conclusões a partir de enormes aglomerados de dados, revelaram não estarem preparados para uso clínico. É o que indica dois grandes estudos publicados desde o início do ano.

Um deles, liderado por Laure Wynants, do departamento de epidemiologia do Instituto de Pesquisa em Cuidados e Saúde Pública, da Universidade de Maastricht (Países Baixos), analisou 232 algoritmos que foram criados para fazer o diagnóstico de pacientes e prever o quão doentes ficarão os que estão infetados com COVID-19. O que concluíram? Nenhum deles era suficientemente fiável para ser usado para esses fins.

Para se chegar a esta conclusão, que para Wynants (especialista em epidemiologia, engenharia informática e em estatísticas biométricas) “excedeu” as piores expectativas que tinha, foi preciso uma equipa com quase meia centena de nomes, oriundos de vários países e de diferentes áreas científicas. O estudo que empreenderam, e cujos últimos resultados foram divulgados em janeiro de 2021 no British Medical Journal, continuará a ser atualizado com novas análises, pois novas ferramentas do género continuam a ser lançadas.

“Esta pandemia foi um grande teste para a inteligência artificial e a medicina. No entanto, não acredito que tenhamos passado nesse teste.”

Em março foi publicada uma outra revisão que se debruçou sobre 415 modelos computacionais, os quais também usam a IA para prever o grau de risco de pacientes com COVID-19, neste caso recorrendo a exames de imagiologia: como raios X e tomografias computorizadas ao peito. Mais uma vez, nenhuma das tecnologias que se escrutinou consegue cumprir os requisitos que as permitam serem usadas por médicos e hospitais. O artigo científico que dá conta destes falhanços, e que teve o contributo de dezenas de investigadores, foi divulgado na Nature Machine Intelligence, publicação ligada ao mesmo grupo que detém a revista Nature.

Radiografia ao peito
Radiografia ao peito créditos: AFP

Para Derek Driggs, principal autor do estudo e investigador na área da aprendizagem automática pela Universidade de Cambridge, no Reino Unido, “esta pandemia foi um grande teste para a IA e a medicina”, começa por dizer ao MIT Technology Review. Ou seja, tratou-se de uma oportunidade para conquistar o público para o potencial de aliar estes dois campos, de mostrar que vale a pena organizar grandes bases de dados com informações médicas e deixar que programas informáticos os analisem e tirem conclusões por si próprios. “No entanto, não acredito que tenhamos passado nesse teste”, remata.

Briggs sabe do que fala, pois também ele está a tentar criar um algoritmo de aprendizagem automática que possa ajudar os médicos durante a pandemia de SARS-CoV-2.

Já agora, qual é mesmo a diferença entre «inteligência artificial» e «aprendizagem automática»? O primeiro é um conceito mais lato e abarca todas as máquinas que sejam capazes de cumprir tarefas de uma forma que nós, humanos, consideremos minimamente inteligentes. Já a aprendizagem automática é um ramo da IA que assenta na ideia de que basta permitir o acesso das máquinas a dados (informações) para que possam aprender por si próprios, e, inclusive, retirar conclusões e fazer previsões a partir desses mesmos dados. Todas as ferramentas de IA analisadas pelas duas pesquisas inscrevem-se neste último conceito.

Os algoritmos foram construídos com base em dados de má qualidade ou de fonte desconhecida. Era inevitável que depois errassem.

Segundo a MIT Technology Review, que questionou diretamente Laure Wynants e Derek Driggs para perceber o que está em causa com os resultados que as suas equipas revelaram, o grande problema é que os criadores dos algoritmos “repetiram os mesmos erros básicos na forma como treinaram e testaram as suas ferramentas”. Mais especificamente, os dados a que se tinha acesso eram de “má qualidade” ou eram mal interpretados por quem desenvolvia as tecnologias, pelo que ao se desenhar um algoritmo com base nesses dados e em assunções incorretas já se está a criar uma ferramenta que vai dar resultados errados.

“A informação sobre os pacientes com COVID-19, incluindo os exames médicos, foi recolhida e partilhada a meio de uma pandemia global, muitas vezes por médicos que lutavam para tratar esses pacientes. Os Investigadores [que criaram os modelos] queriam ajudar o mais rapidamente possível, mas estes eram os únicos dados públicos disponíveis. Isto significa que muitas ferramentas foram construídas usando dados mal catalogados ou de fonte desconhecida”, explica a MIT Technology Review.

Pessoal médico à beira do esgotamento físico e mental foi o que mais se viu durante as vagas de COVID-19. Pelo meio ainda tinham de recolher e partilhar dados dos pacientes a que prestavam cuidados.

A consequência, frisam Wynants e Driggs, é que algoritmos mal concebidos podem ser prejudiciais para a saúde humana, porque podem errar nos diagnósticos que fazem ou subestimar os riscos a que os pacientes incorrem por estarem infetados. O pior é que isso já pode ter sucedido. A crer no que afirmam estes dois investigadores, alguns dos algoritmos que as suas equipas analisaram foram usados por hospitais, sendo que outros estão a ser comercializados por privados. “Receio que esses algoritmos possam ter prejudicado os pacientes”, frisa Laurie Wynants.

Bizarro. Há programas que fazem previsões sobre quão grande será o risco para a saúde de uma infeção por COVID-19… com base no tipo de letra que determinados hospitais usam para catalogar os seus exames.

Sejamos mais concretos quanto aos erros detetados. Um dos principais problemas que Derek Driggs aponta, no que se refere aos dados usados para criar os modelos, consiste nas informações duplicadas que aparecem em diferentes bases de dados: isto leva a que alguns algoritmos sejam ‘treinados’ e, mais tarde, inadvertidamente testados com exatamente o mesmo conjunto de dados (vêm de fontes diferentes, mas são iguais – podem pertencer a um mesmo paciente, por exemplo). Ou seja, estas ferramentas são desenhadas para obter uma determinada conclusão a partir de um conjunto específico de dados, mas quando são testadas e enfrentam cópias exatas desse conjunto (sem se saber que são meras duplicações), obviamente que chegam à mesma conclusão. Isto transmite a ilusão de que estes modelos são extremamente precisos a fazer previsões, quando não é esse o caso.

Mais. Se os algoritmos forem treinados a partir de informações que não são claras e precisas, onde muita coisa está misturada, então podem acabar por se centrar em elementos secundários que nada têm a ver para o caso, falhando no diagnóstico. Por exemplo, no momento de ensinar os algoritmos, muitos programadores usaram, sem disso darem conta, um conjunto de dados que também continha exames ao peito de crianças que não estavam infetadas: o objetivo desse bolo de dados era o de fornecer exemplos à IA sobre qual o aspeto de um exame a uma pessoa que não tenha COVID-19. O problema é que os algoritmos só aprenderam a identificar, entre os pacientes, quais eram crianças, não os que tinham sinais da infeção.

Unsplash

Para testar melhor esta deficiência, a equipa do investigador da Universidade de Cambridge chegou a treinar um algoritmo com um conjunto de dados que misturava exames de imagiologia ao peito, obtidos junto de pacientes que estavam deitados e de pé. Por norma, os pacientes com COVID-19 que fazem um exame destes na posição de deitado estão mais doentes, e isso que levou o modelo computacional a aprender e a prever, erradamente, o nível de gravidade da infeção com base na posição em que a pessoa está.

Rocambolescos são os casos, descobertos pelos investigadores, em que as ferramentas de IA preferiram centrar-se no tipo de letra que determinados hospitais usam para catalogar os seus exames. Consequência? Os tipos de letra usados por hospitais onde se verificaram mais casos graves tornaram-se em elementos capazes de prever o grau de severidade de uma infeção por COVID-19. Isto, obviamente, não faz qualquer sentido.

A maior parte dos criadores de modelos computacionais tentaram, à pressa, desenvolver as suas próprias ferramentas, em vez de trabalhar juntos ou melhorar as que já existiam. Sozinhos, apenas conseguiram resultados medíocres.

Estes e outros problemas, referem os investigadores envolvidos nos dois estudos, podem ser resolvidos se quem programa os modelos computacionais tiver noção deles, podendo, depois, ajustá-los e melhorá-los. Para Wynants e Driggs, e tendo em conta a qualidade dos dados existentes, é preferível, por agora, ter algoritmos que sejam menos precisos, mas que não induzam em erro os médicos.

Mas se o objetivo é mesmo criar melhores algoritmos, assentes na IA, há que colocar o dedo na ferida e constatar a realidade em que atualmente vivemos:

“Muitas ferramentas foram desenvolvidas ora por investigadores na área da inteligência artificial, aos quais falta conhecimento médico para reparar nas falhas nos dados, ora por investigadores na área da medicina, aos quais faltam habilidades matemáticas para compensar as falhas” que existem nos modelos, avisa o MIT Technology Review.

O ideal, portanto, passa por ter equipas multidisciplinares que ajudem a desenvolver estes algoritmos, isto se quiserem que a IA faça mesmo a diferença no esforço para debelar a pandemia.

Todavia, o que sucedeu desde o início foi uma corrida em que houve mais de individualismo do que esforço coletivo. A maior parte dos criadores de ferramentas de IA tentaram, à pressa, desenvolver os seus próprios modelos, em vez de trabalhar juntos ou melhorar os que já existiam, identificam Laure Wynants, Derek Driggs e, ainda, Bilal Mateen, médico que lidera a equipa de tecnologia clínica do Wellcome Trust, uma instituição filantrópica, sedeada em Londres, de apoio à investigação científica.

O resultado, com cada um a seguir o seu próprio caminho, foram “centenas de ferramentas medíocres, em vez de uma mão-cheia delas devidamente treinadas e testadas”, capazes de realmente ajudar os médicos a fazer face à pandemia, sumarizam para a revista do MIT.