Estamos llegando a un punto donde la combinación de los modelos de Deep Learning de visión y lenguaje nos están ofreciendo herramientas realmente increíbles. Hoy hablaremos de CLIP, un potente modelo capaz de comprender el contenido de imágenes y asociarlas con su descripción correspondiente. ¿Para qué sirve esto? Mira el vídeo y descubre el potencial que hay tras la unión de la visión por computador y el procesamiento del lenguaje natural.
Visita: www.patreon.com