IA multimodal. Nuevos usos de la inteligencia artificial en los negocios

IA multimodal - tabla de contenido:

¿Qué es la IA multimodal?

La IA multimodal es una forma de IA altamente avanzada que imita la capacidad humana de interpretar el mundo utilizando contenido y datos de diferentes sentidos. Así como los humanos entienden texto, imágenes y sonidos, la IA multimodal integra estos diferentes tipos de datos para comprender el contexto y el significado complejo contenido en la información. En los negocios, por ejemplo, puede permitir una mejor comprensión de las opiniones de los clientes al analizar tanto lo que dicen como cómo lo expresan a través del tono de voz o la expresión facial.

Los sistemas de IA tradicionales son típicamente unimodales, lo que significa que se especializan en un tipo de dato, como texto o imágenes. Pueden procesar grandes cantidades de datos rápidamente y detectar patrones que la inteligencia humana no puede captar. Sin embargo, tienen serias limitaciones. Son insensibles al contexto y menos hábiles para lidiar con situaciones inusuales y ambiguas.

Por eso, la IA multimodal da un paso más allá, integrando modalidades. Esto permite una comprensión más profunda y interacciones mucho más interesantes entre humanos y IA.

¿Qué puede hacer la IA multimodal?

Los modelos de inteligencia artificial desarrollados hoy emplean los siguientes pares de modalidades:

de texto a imagen – tal IA multimodal puede crear imágenes basadas en indicaciones textuales; esta es una capacidad central del famoso Midjourney, el DALL-E 3 desarrollado por OpenAI, disponible en el navegador como Bing Image Creator, la avanzada Stable Diffusion o la herramienta más joven de la familia, Ideogram, que no solo entiende indicaciones textuales sino que también puede colocar texto en una imagen:

Fuente: Ideogram (https://ideogram.ai)

Los modelos de IA multimodal también son capaces de seguir indicaciones textuales y la imagen que están “inspirados” simultáneamente. Ofrecen resultados y variaciones de imágenes creadas aún más interesantes y definidas con precisión. Esto es muy útil si solo deseas obtener un gráfico o banner ligeramente diferente, o agregar o quitar un solo elemento, como una taza de café:

Fuente: Ideogram (https://ideogram.ai)

De imagen a texto – la inteligencia artificial puede hacer mucho más que reconocer y traducir texto visto en una imagen o encontrar un producto similar. También puede describir una imagen en palabras – como lo hace Midjourney cuando escribes el comando /describe, Google Bard y el modelo de Salesforce (utilizado principalmente para crear descripciones automatizadas de productos e imágenes en sitios de comercio electrónico,

Fuente: HuggingFace.co (https://huggingface.co/tasks/image-to-text)

de voz a texto – la IA multimodal también potencia los comandos de voz en Google Bard, pero se realiza mejor con Bing Chat, así como ChatGPT gracias a su excelente API Whisper, que se encarga de reconocer y grabar el habla junto con la puntuación en múltiples idiomas, lo que puede, entre otras cosas, facilitar enormemente el trabajo de los centros de atención al cliente internacionales, así como preparar transcripciones rápidas de reuniones y traducción de conversaciones comerciales a otros idiomas en tiempo real,
de texto a voz – la herramienta de ElevenLabs nos permite convertir cualquier texto que elijamos en una pronunciación de sonido realista, e incluso “clonación de voz”, mediante la cual podemos enseñar a la IA su sonido y expresión para crear una grabación de cualquier texto en un idioma extranjero para marketing o presentaciones a inversores extranjeros, por ejemplo,
de texto a video – convertir texto a video con un avatar que habla es posible en las herramientas D-ID, Colossyan y Synthesia, entre otras,
de imagen a video – generar videos, incluidos videos musicales, a partir de imágenes y pistas textuales ya es posible hoy en día gracias a Kaiber, y Meta ha anunciado el lanzamiento pronto de la herramienta Make-A-Video,
imagen y modelo 3D – esta es un área particularmente prometedora de la IA multimodal, dirigida por Meta y Nvidia, que permite la creación de avatares realistas a partir de fotos, así como la construcción de modelos 3D de objetos y productos por Masterpiece Studio (https://masterpiecestudio.com/masterpiece-studio-pro), NeROIC (https://zfkuang.github.io/NeROIC/), 3DFY (https://3dfy.ai/), con los cuales, por ejemplo, un producto prototipado bidimensional puede ser devuelto a la cámara con un lado diferente, se puede crear una visualización 3D rápida a partir de un boceto de un mueble, o incluso una descripción textual:

Fuente: NeROIC (https://zfkuang.github.io/NeROIC/resources/material.png)

de imagen a movimiento en el espacio – esta modalidad hace que la IA multimodal alcance más allá de las pantallas hacia la zona del Internet de las Cosas (IoT), vehículos autónomos y robótica, donde los dispositivos pueden realizar acciones precisas gracias al reconocimiento avanzado de imágenes y la capacidad de responder a cambios en el entorno.

También hay experimentos con IA multimodal que traducen música en imágenes, por ejemplo (https://huggingface.co/spaces/fffiloni/Music-To-Image), pero echemos un vistazo más de cerca a las aplicaciones comerciales de la IA multimodal. Entonces, ¿cómo se desarrolla el tema de la multimodalidad en los chatbots basados en IA más populares, ChatGPT y Google Bard?

Multimodalidad en Google Bard, BingChat y ChatGPT

Google Bard puede describir imágenes simples y ha sido equipado con comunicación por voz desde julio de 2023, cuando apareció en Europa. A pesar de la calidad variable de los resultados del reconocimiento de imágenes, esta ha sido hasta ahora una de las fortalezas que diferencia la solución de Google de ChatGPT.

BingChat, gracias a su uso de DALL-E 3, puede generar imágenes basadas en indicaciones de texto o voz. Si bien no puede describir en palabras las imágenes adjuntas por el usuario, puede modificarlas o usarlas como inspiración para crear nuevas imágenes.

A partir de octubre de 2023, OpenAI también comenzó a introducir nuevas funciones de voz e imagen en ChatGPT Plus, la versión de pago de la herramienta. Estas permiten tener una conversación por voz o mostrarle a ChatGPT una imagen, para que sepa lo que estás preguntando sin tener que describirlo en palabras exactas.

Por ejemplo, puedes tomar una foto de un monumento mientras viajas y tener una conversación en vivo sobre lo que es interesante al respecto. O tomar una foto del interior de tu refrigerador para averiguar qué puedes preparar para la cena con los ingredientes disponibles y pedir una receta paso a paso.

3 aplicaciones de la IA multimodal en los negocios

Describir imágenes puede ayudar, por ejemplo, a preparar el inventario de bienes basado en datos de cámaras de CCTV o identificar productos faltantes en las estanterías de la tienda. La manipulación de objetos puede utilizarse para reponer los bienes faltantes identificados en el paso anterior. Pero, ¿cómo se pueden utilizar los chatbots multimodales en los negocios? Aquí hay tres ejemplos:

Atención al cliente: Un chat multimodal implementado en una tienda en línea puede servir como un asistente avanzado de atención al cliente que no solo responde preguntas de texto, sino que también entiende imágenes y preguntas formuladas por voz. Por ejemplo, un cliente puede tomar una foto de un producto dañado y enviársela al chatbot, que ayudará a identificar el problema y ofrecer una solución adecuada.
Análisis de redes sociales: La inteligencia artificial multimodal puede analizar publicaciones en redes sociales, que incluyen tanto texto como imágenes e incluso videos, para entender lo que los clientes están diciendo sobre una empresa y sus productos. Esto puede ayudar a una empresa a comprender mejor la retroalimentación de los clientes y responder más rápidamente a sus necesidades.
Capacitación y desarrollo: ChatGPT puede ser utilizado para capacitar a los empleados. Por ejemplo, puede llevar a cabo sesiones de capacitación interactivas que incluyan tanto texto como imágenes para ayudar a los empleados a comprender mejor conceptos complejos.

El futuro de la IA multimodal en los negocios

Un gran ejemplo de IA multimodal orientada al futuro es la optimización de los procesos comerciales de una empresa. Por ejemplo, un sistema de IA podría analizar datos de diversas fuentes, como datos de ventas, datos de clientes y datos de redes sociales, para identificar áreas que necesitan mejora y sugerir posibles soluciones.

Otro ejemplo es emplear IA multimodal para organizar la logística. Combinando datos de GPS, estado del almacén leído desde una cámara y datos de entrega para optimizar los procesos logísticos y reducir costos de negocio.

Muchas de estas funcionalidades ya se aplican hoy en día en sistemas complejos como coches autónomos y ciudades inteligentes. Sin embargo, no se han implementado a esta escala en contextos de negocios más pequeños.

Resumen

La multimodalidad, o la capacidad de procesar múltiples tipos de datos, como texto, imágenes y audio, promueve una comprensión contextual más profunda y una mejor interacción entre humanos y sistemas de IA.

Una pregunta abierta sigue siendo, ¿qué nuevas combinaciones de modalidades podrían existir en el futuro cercano? Por ejemplo, ¿será posible combinar el análisis de texto con el lenguaje corporal, de modo que la IA pueda anticipar las necesidades del cliente al analizar sus expresiones faciales y gestos? Este tipo de innovación abre nuevos horizontes para los negocios, ayudando a satisfacer las expectativas de los clientes en constante cambio.

Si te gusta nuestro contenido, únete a nuestra comunidad de abejas trabajadoras en Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.

Robert Whitney

Experto en JavaScript e instructor que capacita a departamentos de TI. Su objetivo principal es aumentar la productividad del equipo enseñando a otros cómo cooperar de manera efectiva mientras programan.

View all posts →