Runway presentó en junio un nuevo modelo de síntesis de video a partir de texto llamado Gen-3 Alpha. Este modelo transforma descripciones escritas, conocidas como “prompts”, en clips de video en HD sin sonido. Desde su lanzamiento, hemos tenido la oportunidad de probarlo y nos gustaría compartir nuestros resultados. Nuestros experimentos muestran que no es tan importante ser cuidadoso con la formulación de los prompts como hacer coincidir conceptos que probablemente se encuentran en los datos de entrenamiento, y que lograr resultados divertidos generalmente requiere numerosas generaciones y una cuidadosa selección.
Un tema persistente en todos los modelos de IA generativa que hemos visto desde 2022 es que son excelentes para mezclar conceptos encontrados en los datos de entrenamiento, pero son típicamente muy deficientes al generalizar, es decir, al aplicar el “conocimiento” aprendido a nuevas situaciones que el modelo no ha sido explícitamente entrenado para manejar. Esto significa que pueden sobresalir en la novedad estilística y temática, pero luchan con la novedad estructural fundamental que va más allá de los datos de entrenamiento.
¿Qué significa todo esto? En el caso de Runway Gen-3, la falta de generalización implica que si pides un barco de vela en una taza de café en remolino, y los datos de entrenamiento de Gen-3 incluyen ejemplos de video de barcos de vela y café en remolino, esa sería una combinación “fácil” que el modelo podría realizar de manera bastante convincente. Sin embargo, si solicitas un gato bebiendo una lata de cerveza (en un comercial de cerveza), generalmente fallará porque es poco probable que haya muchos videos de gatos fotorealistas bebiendo bebidas humanas en los datos de entrenamiento. En su lugar, el modelo combinará lo que ha aprendido sobre videos de gatos y comerciales de cerveza. El resultado podría ser un gato con manos humanas bebiendo una cerveza.
Durante la fase de prueba de Gen-3 Alpha, nos inscribimos en el plan estándar de Runway, que proporciona 625 créditos por 15 dólares al mes, además de algunos créditos de prueba gratuita. Cada generación cuesta 10 créditos por segundo de video, y creamos videos de 10 segundos por 100 créditos cada uno. Así que la cantidad de generaciones que pudimos hacer fue limitada.
Intentamos algunos prompts estándar de nuestras pruebas de síntesis de imagen anteriores, como gatos bebiendo cerveza y barbáros con televisores CRT. También viajamos al lore de Ars Technica con el “moonshark”, nuestra mascota. Teníamos tan pocos créditos que no pudimos permitirnos volver a ejecutarlos y seleccionar, así que lo que ves para cada prompt es exactamente la única generación que recibimos de Runway.
Algunos ejemplos de nuestros prompts incluyen un “persona altamente inteligente leyendo ‘Ars Technica’ en su computadora cuando la pantalla explota”, un “comercial de una nueva hamburguesa con queso de McDonald’s”, y “el moonshark saltando de una pantalla de computadora y atacando a una persona”. En otros intentos, “Will Smith comiendo espagueti” activó un filtro, así que probamos con “un hombre negro comiendo espagueti”. También exploramos solicitudes más estrambóticas, como “animales humanoides robóticos con trajes de vodevil recogiendo dinero de protección en tokens”, y “un jugador de baloncesto en un tren de pasajeros encantado con una cancha de baloncesto, jugando contra un equipo de fantasmas”. Otro prompt buscó “una manada de un millón de gatos corriendo en una colina, vista aérea”, así como “imágenes de videojuego de un dinámico juego de plataformas en 3D de los años 90 protagonizado por un tiburón antropomórfico”.