MaGGIe sobresale en el renderizado de cabello y la separación de instancias en imágenes naturales, superando a MGM e InstMatt en escenarios complejos de múltiples instancias.MaGGIe sobresale en el renderizado de cabello y la separación de instancias en imágenes naturales, superando a MGM e InstMatt en escenarios complejos de múltiples instancias.

Matting Robusto Guiado por Máscara: Gestión de Entradas Ruidosas y Versatilidad de Objetos

2025/12/21 02:00

Resumen y 1. Introducción

  1. Trabajos Relacionados

  2. MaGGIe

    3.1. Matting de Instancia Guiado por Máscara Eficiente

    3.2. Consistencia Temporal Feature-Matte

  3. Conjuntos de Datos de Matting de Instancia

    4.1. Matting de Instancia de Imagen y 4.2. Matting de Instancia de Video

  4. Experimentos

    5.1. Pre-entrenamiento con datos de imagen

    5.2. Entrenamiento con datos de video

  5. Discusión y Referencias

\ Material Suplementario

  1. Detalles de arquitectura

  2. Matting de imagen

    8.1. Generación y preparación del conjunto de datos

    8.2. Detalles de entrenamiento

    8.3. Detalles cuantitativos

    8.4. Más resultados cualitativos en imágenes naturales

  3. Matting de video

    9.1. Generación del conjunto de datos

    9.2. Detalles de entrenamiento

    9.3. Detalles cuantitativos

    9.4. Más resultados cualitativos

8.4. Más resultados cualitativos en imágenes naturales

La Fig. 13 muestra el rendimiento de nuestro modelo en escenarios desafiantes, particularmente en la renderización precisa de regiones de cabello. Nuestro framework supera consistentemente a MGM⋆ en la preservación de detalles, especialmente en interacciones complejas de instancias. En comparación con InstMatt, nuestro modelo exhibe una separación de instancias y precisión de detalles superior en regiones ambiguas.

\ La Fig. 14 y la Fig. 15 ilustran el rendimiento de nuestro modelo y trabajos anteriores en casos extremos que involucran múltiples instancias. Mientras que MGM⋆ tiene dificultades con ruido y precisión en escenarios de instancias densas, nuestro modelo mantiene alta precisión. InstMatt, sin datos de entrenamiento adicionales, muestra limitaciones en estos entornos complejos.

\ La robustez de nuestro enfoque guiado por máscara se demuestra además en la Fig. 16. Aquí, destacamos los desafíos que enfrentan las variantes de MGM y SparseMat al predecir partes faltantes en las entradas de máscara, que nuestro modelo aborda. Sin embargo, es importante notar que nuestro modelo no está diseñado como una red de segmentación de instancias humanas. Como se muestra en la Fig. 17, nuestro framework se adhiere a la guía de entrada, asegurando una predicción precisa de alpha matte incluso con múltiples instancias en la misma máscara.

\ Por último, la Fig. 12 y la Fig. 11 enfatizan las capacidades de generalización de nuestro modelo. El modelo extrae con precisión tanto sujetos humanos como otros objetos de los fondos, mostrando su versatilidad en diversos escenarios y tipos de objetos.

\ Todos los ejemplos son imágenes de Internet sin ground-truth y la máscara de r101fpn400e se utiliza como guía.

\ Figura 13. Nuestro modelo produce alpha matte altamente detallado en imágenes naturales. Nuestros resultados muestran que es preciso y comparable con métodos anteriores agnósticos a instancias y conscientes de instancias sin costos computacionales costosos. Los cuadrados rojos amplían las regiones de detalle para cada instancia. (Mejor visualización en color y zoom digital).

\ Figura 14. Nuestros frameworks separan con precisión las instancias en un caso extremo con muchas instancias. Mientras que MGM a menudo causa la superposición entre instancias y MGM⋆ contiene ruidos, el nuestro produce resultados equivalentes con InstMatt entrenado en el conjunto de datos externo. La flecha roja indica los errores. (Mejor visualización en color y zoom digital).

\ Figura 15. Nuestros frameworks separan con precisión las instancias en una sola pasada. La solución propuesta muestra resultados comparables con InstMatt y MGM sin ejecutar la predicción/refinamiento cinco veces. La flecha roja indica los errores. (Mejor visualización en color y zoom digital).

\ Figura 16. A diferencia de MGM y SparseMat, nuestro modelo es robusto a la máscara de guía de entrada. Con el cabezal de atención, nuestro modelo produce resultados más estables para entradas de máscara sin refinamiento complejo entre instancias como InstMatt. La flecha roja indica los errores. (Mejor visualización en color y zoom digital).

\ Figura 17. Nuestra solución funciona correctamente con guías de máscara de múltiples instancias. Cuando existen múltiples instancias en una máscara de guía, seguimos produciendo el alpha matte de unión correcto para esas instancias. La flecha roja indica los errores o la región ampliada en el cuadro rojo. (Mejor visualización en color y zoom digital).

\ Tabla 12. Detalles de resultados cuantitativos en HIM2K+M-HIM2K (Extensión de la Tabla 5). El gris indica el peso público sin reentrenamiento.

\ Tabla 12. Detalles de resultados cuantitativos en HIM2K+M-HIM2K (Extensión de la Tabla 5). El gris indica el peso público sin reentrenamiento. (Continuación)

\ Tabla 12. Detalles de resultados cuantitativos en HIM2K+M-HIM2K (Extensión de la Tabla 5). El gris indica el peso público sin reentrenamiento. (Continuación)

\ Tabla 12. Detalles de resultados cuantitativos en HIM2K+M-HIM2K (Extensión de la Tabla 5). El gris indica el peso público sin reentrenamiento. (Continuación)

\ Tabla 13. La efectividad de los módulos de consistencia temporal propuestos en V-HIM60 (Extensión de la Tabla 6). La combinación de Conv-GRU bidireccional y fusión hacia adelante-hacia atrás logra el mejor rendimiento general en los tres conjuntos de prueba. La negrita resalta lo mejor para cada nivel.

\

:::info Autores:

(1) Chuong Huynh, University of Maryland, College Park (chuonghm@cs.umd.edu);

(2) Seoung Wug Oh, Adobe Research (seoh,jolee@adobe.com);

(3) Abhinav Shrivastava, University of Maryland, College Park (abhinav@cs.umd.edu);

(4) Joon-Young Lee, Adobe Research (jolee@adobe.com).

:::


:::info Este artículo está disponible en arxiv bajo licencia CC by 4.0 Deed (Atribución 4.0 Internacional).

:::

\

Oportunidad de mercado
Logo de Mask Network
Precio de Mask Network(MASK)
$0.5806
$0.5806$0.5806
+1.25%
USD
Gráfico de precios en vivo de Mask Network (MASK)
Aviso legal: Los artículos republicados en este sitio provienen de plataformas públicas y se ofrecen únicamente con fines informativos. No reflejan necesariamente la opinión de MEXC. Todos los derechos pertenecen a los autores originales. Si consideras que algún contenido infringe derechos de terceros, comunícate a la dirección service@support.mexc.com para solicitar su eliminación. MEXC no garantiza la exactitud, la integridad ni la actualidad del contenido y no se responsabiliza por acciones tomadas en función de la información proporcionada. El contenido no constituye asesoría financiera, legal ni profesional, ni debe interpretarse como recomendación o respaldo por parte de MEXC.