banner

blog

Nov 08, 2023

O impacto de anotações humanas inconsistentes na tomada de decisão clínica orientada por IA

npj Digital Medicine volume 6, Número do artigo: 26 (2023) Citar este artigo

2596 acessos

18 Altmétrica

Detalhes das métricas

No desenvolvimento do modelo de aprendizado supervisionado, os especialistas de domínio são frequentemente usados ​​para fornecer os rótulos de classe (anotações). As inconsistências de anotação geralmente ocorrem quando até mesmo especialistas clínicos altamente experientes anotam o mesmo fenômeno (por exemplo, imagem médica, diagnóstico ou status de prognóstico), devido ao viés inerente do especialista, julgamentos e deslizes, entre outros fatores. Embora sua existência seja relativamente bem conhecida, as implicações de tais inconsistências são pouco estudadas em ambientes do mundo real, quando o aprendizado supervisionado é aplicado em dados rotulados como "ruidosos". Para esclarecer essas questões, realizamos experimentos e análises extensivos em três conjuntos de dados de Unidade de Terapia Intensiva (UTI) do mundo real. Especificamente, modelos individuais foram construídos a partir de um conjunto de dados comum, anotados independentemente por 11 consultores de UTI do Hospital da Universidade Queen Elizabeth de Glasgow, e as estimativas de desempenho do modelo foram comparadas por meio de validação interna (Fleiss' κ = 0,383, ou seja, concordância razoável). Além disso, uma ampla validação externa (em conjuntos de dados estáticos e de séries temporais) desses 11 classificadores foi realizada em um conjunto de dados externo HiRID, onde as classificações dos modelos apresentaram baixas concordâncias de pares (média de Cohen κ = 0,255, ou seja, concordância mínima) . Além disso, eles tendem a discordar mais na tomada de decisões de alta (Fleiss' κ = 0,174) do que na previsão de mortalidade (Fleiss' κ = 0,267). Dadas essas inconsistências, análises adicionais foram realizadas para avaliar as melhores práticas atuais na obtenção de modelos padrão-ouro e na determinação do consenso. Os resultados sugerem que: (a) pode não haver sempre um "super especialista" em situações clínicas agudas (usando desempenhos de modelo de validação interna e externa como proxy); e (b) a busca de consenso padrão (como voto majoritário) leva consistentemente a modelos abaixo do ideal. Uma análise mais aprofundada, no entanto, sugere que avaliar a capacidade de aprendizado de anotação e usar apenas conjuntos de dados anotados 'aprendizáveis' para determinar o consenso alcança modelos ideais na maioria dos casos.

O aprendizado de máquina supervisionado clássico assume que os rótulos dos exemplos de treinamento estão todos corretos, ignorando a presença de ruído de classe e imprecisões1. Na área da saúde, essa suposição pode não ser válida mesmo quando médicos altamente experientes fornecem esses rótulos, devido ao grau de ruído, subjetividade do observador e viés envolvidos. Se negligenciadas no treinamento de um Sistema de Apoio à Decisão de Aprendizado de Máquina (ML-DSS), as inconsistências de anotação podem resultar em uma versão arbitrariamente parcial da verdade básica e em subsequentes consequências clínicas imprevisíveis, incluindo classificações errôneas2,3,4.

Idealmente, os rótulos de classe são obtidos por meio de um processo de aquisição de conhecimento, envolvendo a escolha do "padrão-ouro" apropriado para basear esses rótulos de classe de verdade básica, para construir um Sistema Baseado em Conhecimento (KBS). Dentro do ambiente de saúde e biomédico, especialistas em domínio clínico são frequentemente usados ​​para fornecer esses rótulos5. No entanto, em muitas áreas clínicas, essas verdades básicas são difíceis de encontrar e definir, devido às incertezas fisiopatológicas, diagnósticas e prognósticas inerentes à medicina2,6.

A Psicologia Cognitiva mostrou experimentalmente que humanos (e, portanto, especialistas) cometem "deslizes", por exemplo, devido à sobrecarga cognitiva e devido a vieses. Por outro lado, o campo de sistemas especialistas e KBS assumiu que, para (a maioria) das disciplinas, existem especialistas altamente qualificados "livres de erros", e a tarefa principal é como esses especialistas podem ser identificados objetiva ou subjetivamente. No entanto, evidências crescentes da literatura mostram que, em conjuntos comuns de tarefas (por exemplo, classificação), grupos de especialistas geralmente discordam significativamente uns dos outros5,7,8. Em 2021, Kahneman et al.9 publicaram uma importante contribuição para este tópico chamada Ruído: uma falha no julgamento humano, que argumenta de forma convincente que colegas especialistas em muitas disciplinas diferem. Esses autores9 fazem distinções entre julgamentos e opiniões onde, com os primeiros, espera-se que os especialistas forneçam uma resposta a partir de um conjunto (fixo) de alternativas, enquanto as opiniões são muito mais abertas. Neste artigo, lidamos com tarefas que exigem que vários especialistas façam julgamentos.

 0.90 (Almost Perfect)./p> 0.7). Figure 7 shows TMV (F1 micro = 0.438) performs significantly better than MV (F1 micro = 0.254). In fact, TMV outperforms almost all the consultant models. This indicates it is important to assess learnability of each domain expert's judgments before creating a consensus, because poorly learnable (expert) judgments often lead to poor performances./p> 1–4, CL3 = > 4./p> 3-<4, CL3 = ≥ 4./p> 0.7)./p> 2-< 4, CL3 = ≥ 4, see Supplementary Fig. 1 for these results./p> 0.7), the differing feature importance distributions reflect the different rationales and decision-making processes between annotators. For certain annotators (C4), we can infer Noradrenaline is the most important feature when deciding to annotate a label ‘A’ classification. For some (C2), FiO2 is most important when making this classification. For others (C10), the rationale is more balanced on Noradrenaline and FiO2./p>

There are multiple statistics used to measure IAA, including Cohen's κ, Fleiss’ κ and Krippendorff's α. All three statistics were calculated within Python 3.0 using: cohen_kappa_score from sklearn.metrics60, fleiss_kappa from statsmodels.stats.inter_rater61, simpledorff (2020)." href="/articles/s41746-023-00773-3#ref-CR62" id="ref-link-section-d58063440e1597"62./p> 0.90 (Almost Perfect)32./p> 1–4, CL3 = > 4./p> 3-<4, CL3 = ≥ 4./p> 2-<4, CL3 = ≥ 4./p>

3.0.CO;2-5" data-track-action="article reference" href="https://doi.org/10.1002%2F%28SICI%291097-0258%2820000229%2919%3A4%3C453%3A%3AAID-SIM350%3E3.0.CO%3B2-5" aria-label="Article reference 53" data-doi="10.1002/(SICI)1097-0258(20000229)19:43.0.CO;2-5"Article CAS PubMed Google Scholar /p>

(2020)./p>

COMPARTILHAR