Récemment, l'équipe de chercheurs de Wang Tsuen, de l'Institut de technologie d'imagerie spectrale de Xi'an de l'Académie chinoise des sciences, a fait de nouveaux progrès dans la détection et la localisation d'anomalies à échantillon zéro dans le domaine de la vision par ordinateur, et les résultats ont été reçus par la Conférence IEEE / cvf sur la vision par ordinateur et la reconnaissance de formes (CVPR 2026). Le premier auteur de l'article est Hu Ming, un étudiant de Master de niveau 2024 de l'Institut de photomécanique de Xi'an, et l'auteur correspondant est le Dr Hu Cong de l'hôpital Chunan de l'Université de Wuhan, le chercheur Hu bingliang de l'Institut de photomécanique de Xi'an et le chercheur Wang Tsuen, l'Institut de photomécanique de Xi'an étant la première unité de communication.
Avec la demande croissante d'applications telles que le contrôle de qualité industriel et l'analyse d'imagerie médicale, la technologie de détection d'anomalies est de plus en plus préoccupante. Cependant, les échantillons anormaux dans des scénarios réels sont souvent rares, voire difficiles à obtenir, et les méthodes d'apprentissage supervisées traditionnelles qui reposent sur des données étiquetées sont confrontées à des goulots d'étranglement.
Méthode de détection d'anomalies à échantillon zéro basée sur un modèle visuel - linguistique, avec des connaissances pré - formées à grande échelle, la détection peut être réalisée sans marquage d'anomalies, mais dans la tâche de détection d'anomalies à granulométrie fine, la méthode fait toujours face à trois défis majeurs: premièrement, le modèle a du mal à distinguer les cibles de premier plan du contexte complexe, les caractéristiques anormales sont facilement mélangées avec le contexte et affectent la précision de la détection; Deuxièmement, la dépendance à une représentation textuelle unique, la capacité d'expression sémantique limitée, la difficulté de fournir une base fine pour la discrimination anormale; Troisièmement, lors de l'alignement intermodal, il existe une incertitude quant à la correspondance sémantique de l'image avec le texte, ce qui limite l'amélioration des performances du modèle.
En réponse aux questions ci - dessus, l’équipe de recherche a proposé un nouveau type de cadre – FB - clip (Foreground background disentangled clip). Le cadre innove à trois niveaux:
Sur la modélisation de texte, proposer une approche multi - Stratégie de fusion des caractéristiques textuelles pour améliorer la compréhension du modèle de la sémantique anormale en combinant la représentation au niveau de la phrase, les informations contextuelles globales et les caractéristiques de pondération de l'attention pour construire une représentation sémantique plus riche de la perception des tâches;
Sur la modélisation visuelle, la conception de mécanismes de séparation de premier plan - arrière - plan Multi - perspectives qui découplent les caractéristiques de l'image des dimensions sémantique, spatiale, structurelle, etc., et réduisent les informations perturbatrices dans les scènes complexes à l'aide de stratégies de suppression de l'arrière - plan, permettant au modèle de se concentrer plus précisément sur les zones anormales;
Sur l'alignement intermodal, des contraintes de régularisation de cohérence sémantique sont introduites pour améliorer la capacité de discrimination du modèle vis - à - vis des anomalies en augmentant la confiance prédictive et en augmentant l'intervalle sémantique entre les échantillons normaux et anormaux.
Les résultats de l'expérience ont montré que FB - clip a obtenu d'excellentes performances sur plusieurs ensembles de données d'inspection industrielle et d'imagerie médicale, en particulier pour les tâches de localisation d'anomalies à granulométrie fine, avec des performances globales de pointe à l'échelle internationale. Cette méthode permet la détection et la localisation précises d'anomalies mineures dans des scénarios complexes sans marquage anormal de l'échantillon, avec de bonnes perspectives d'application pratique.
Les résultats devraient être appliqués au diagnostic assisté par imagerie médicale et à la détection des défauts industriels.
L'équipe de chercheurs Wang Tsuen de l'Institut Xi'an de photomécanique a longtemps travaillé intensément sur des recherches transversales telles que la vision par ordinateur et l'imagerie biomédicale, l'intelligence cerveau - machine et d'autres, et a continué à faire une série de progrès importants dans des domaines connexes au cours des dernières années, avec des résultats connexes publiés dans CVPR 2025, Pattern Recognition et d'autres.
La Conférence IEEE / cvf sur la vision par ordinateur et la reconnaissance de formes est l'une des conférences académiques internationales les plus influentes dans le domaine de la vision par ordinateur, classée dans la catégorie a par la China Computer Society (CCF).