banner

blog

Dec 03, 2023

Desenvolver benchmarks robustos para impulsionar a inovação de IA na área da saúde

Nature Machine Intelligence volume 4, páginas 916–921 (2022)Cite este artigo

5730 Acessos

2 Citações

21 Altmétrica

Detalhes das métricas

As tecnologias de aprendizado de máquina tiveram maior aplicação no domínio da saúde. Os principais impulsionadores são conjuntos de dados de saúde disponíveis abertamente e um interesse geral da comunidade em usar seus poderes para descoberta de conhecimento e avanços tecnológicos neste campo mais conservador. No entanto, com este volume adicional vem uma série de questões e preocupações - os resultados obtidos são significativos e as conclusões precisas; como sabemos que melhoramos o estado da arte; o problema clínico está bem definido e o modelo o aborda? Refletimos sobre os principais aspectos do pipeline de ponta a ponta que acreditamos serem os que mais sofrem nesse espaço e sugerimos algumas boas práticas para evitar a reprodução desses problemas.

Nosso público-alvo é qualquer pessoa que realiza experimentos de benchmarking em aprendizado de máquina (ML) na área da saúde e envia esses resultados para conferências ou periódicos; e qualquer pessoa que revise esses locais. Por benchmarking clínico nos referimos a seguir o processo combinado.

Escolhendo um problema no espaço da saúde.

Usando ou criando conjuntos de dados acompanhantes.

Desenvolver um conjunto de modelos de ML e sua infraestrutura correspondente.

Avaliar esses modelos em um conjunto de critérios de como eles resolvem o problema original.

O problema de encontrar um bom benchmark é muito mais prevalente no domínio da saúde, porque não há alinhamento suficiente sobre o que isso realmente constitui1. Em um ciclo de pesquisa típico, quando o ML é aplicado pela primeira vez a uma nova área médica, ele leva a uma publicação que mede o desempenho do modelo e define o padrão para esse problema. O conjunto de dados, a verdade, as métricas ou o código nem sempre são examinados tanto quanto no ML tradicional, pois há muito interesse em ver o que a nova tecnologia pode realmente fazer na prática. Nós argumentaríamos que os documentos de benchmarking deveriam ser examinados ainda mais, já que a variabilidade nas definições, configurações e avaliação pode levar a muitas deturpações das descobertas, bem como confusão para os recém-chegados ao campo sobre como comparar seu trabalho.

Nas próximas quatro seções, cobrimos as áreas onde acreditamos estar a maioria das discrepâncias entre duas publicações diferentes de benchmarking: conjuntos de dados, ferramentas e práticas, formulação de problemas e resultados. Em nossa opinião, tais mudanças poderiam ter um impacto na aplicação clínica geral, pois os avanços seriam muito mais fáceis de quantificar. Inspirado na ref. 2, classificamos nossas sugestões em três categorias: necessárias, recomendadas e incentivadas (Caixa 1–4). Cada seção se baseia na anterior e é colocada dentro de um determinado balde, levando em conta uma mistura de seu impacto e dificuldade de implementação. Mesmo que alguns não concordem totalmente com a categorização, esperamos iniciar uma conversa sobre esses tópicos que verá mudanças no campo.

Existe um trabalho neste espaço que procura definir padrões de relatórios (por exemplo, STARD-AI3, TRIPOD-AI4) ou especificar as melhores práticas quando se trata de desenvolvimento de modelos e relatórios de técnicas5. Ambas as direções incentivam a inclusão de detalhes adicionais nos trabalhos finais para reduzir a incerteza quando se trata dos métodos empregados. Acreditamos que nosso trabalho se baseia e estende esses trabalhos, observando o pipeline de ponta a ponta e abordando tópicos menos explorados, como ferramentas e infraestrutura.

Conjuntos de dados de saúde grandes, de alta qualidade, diversos e bem documentados são difíceis de obter, pois o compartilhamento de dados não é a norma em ML para pesquisas em saúde6. Em primeiro lugar, os conjuntos de dados de saúde contêm informações extremamente confidenciais e, portanto, são firmemente regulamentados, com pesquisas recentes procurando entender a atitude dos pacientes em relação ao compartilhamento de dados de saúde7,8. É por isso que esses conjuntos de dados são normalmente desidentificados antes da divulgação pública, um processo que envolve a remoção do nome do paciente, número de identificação, data e local da coleta de dados. Mesmo assim, foi demonstrado recentemente que dados anônimos de ressonância magnética (MRI) ou tomografia computadorizada podem ser usados ​​para reconstruir o rosto de um paciente9, o que levanta questões sobre se os padrões atuais de desidentificação são suficientes para a liberação pública segura de dados. Em segundo lugar, a coleta, manutenção e curadoria de tais conjuntos de dados exigem esforço, tempo e despesas substanciais. Além disso, os conjuntos de dados são vistos como uma vantagem comercial competitiva, havendo casos em que empresas são formadas em torno do uso exclusivo de um. Portanto, eles tendem a ter um valor comercial substancial, tornando menos atraente para os coletores de dados compartilhar livremente seu trabalho. No entanto, para ampliar o impacto da publicação de pesquisas em conjuntos de dados não públicos e incentivar a reprodutibilidade, os curadores de dados podem configurar uma infraestrutura que permita à comunidade desenvolver modelos usando técnicas de ML que preservam a privacidade, como aprendizado federado10,11,12. Nesse cenário, o controlador de dados define seus próprios processos de governança, políticas de privacidade associadas e estratégias de gerenciamento de acesso, tanto na fase de treinamento quanto na fase de validação. Isso desbloqueia a exploração de conjuntos de dados de saúde por pesquisadores externos, mantendo a privacidade dos dados, acelerando assim o progresso. No entanto, reconhecemos que há uma curva de aprendizado acentuada na configuração disso e é difícil confiar nesses sistemas, visto que esses métodos são relativamente novos. Pode ser preferível, no início, que os curadores de dados trabalhem com cientistas de dados externos verificados. Outro campo promissor para reter o valor comercial é o rastreamento quando um membro de um conjunto de dados é usado para treinar um modelo. Exemplos disso incluem trabalhos recentes sobre 'marca d'água' em um determinado conjunto de dados para facilitar a identificação de modelos treinados nele13 ou técnicas como inferência de membros14. Advertimos que este campo ainda não está estabelecido, portanto, é preciso ter cuidado ao seguir esse caminho.

COMPARTILHAR