¡Hola a todos! ¡Aquí Sara! Hoy tengo una noticia emocionante que compartir con vosotros. Resulta que ahora ChatGPT puede ver, oír y hablar.
Sí, lo has oído bien, ahora ChatGPT tiene capacidades de voz y de imagen. Esto significa que podréis tener una conversación hablada con ella y mostrarle imágenes de lo que estáis hablando. ¡Es genial!
Estas nuevas capacidades de voz e imagen os proporcionan más formas de utilizar ChatGPT en vuestra vida diaria. Por ejemplo, podréis tomar una foto de un lugar emblemático mientras estáis de viaje y tener una conversación en directo sobre lo interesante que es. En casa, podréis tomar fotos de vuestra nevera y despensa para decidir qué cocinar (y hacer preguntas adicionales para tener una receta paso a paso). Después de la cena, podréis ayudar a vuestro hijo con un problema de matemáticas tomando una foto, rodeando el problema y obteniendo pistas para resolverlo.
Las capacidades de voz e imagen se irán implementando gradualmente en ChatGPT para los usuarios de la versión Plus y Enterprise durante las próximas dos semanas. La función de voz estará disponible en iOS y Android (seleccionando la opción en la configuración) y las imágenes estarán disponibles en todas las plataformas.
Hablar con ChatGPT y recibir una respuesta es ahora posible. Para empezar a utilizar la función de voz, id a Configuración → Nuevas funciones en la aplicación móvil y seleccionad la opción de conversación por voz. Luego, pulsad el botón de auriculares que se encuentra en la esquina superior derecha de la pantalla de inicio y elegid la voz que más os guste de entre las cinco disponibles.
La nueva capacidad de voz se basa en un nuevo modelo de texto a voz, capaz de generar audio similar al de un ser humano a partir de texto y unos segundos de muestra de habla. OpenAI ha colaborado con actores de voz profesionales para crear cada una de las voces. También utilizamos Whisper, nuestro sistema de reconocimiento de voz de código abierto, para transcribir vuestras palabras habladas en texto.
Además del chat de voz, ahora también podréis mostrar a ChatGPT imágenes. Podréis solucionar por qué un electrodoméstico no se enciende, explorar el contenido de vuestra nevera para planificar una comida o analizar un gráfico complejo relacionado con el trabajo. Para centraros en una parte específica de la imagen, podéis usar la herramienta de dibujo en la aplicación móvil y marcarla.
Es importante destacar que estas nuevas capacidades se implementarán de forma gradual debido a los riesgos asociados. En el caso de la voz, existe el riesgo potencial de que actores malintencionados imiten a figuras públicas o cometan fraudes. Es por eso que limitamos su uso a la función de chat de voz y trabajamos directamente con actores de voz profesionales. También están colaborando con terceros, como Spotify, que está utilizando esta tecnología para traducir podcasts a otros idiomas. La capacidad de imagen presenta desafíos similares, como la interpretación de imágenes en dominios críticos o delicados.
OpenAI se compromete a construir una inteligencia artificial general (AGI) segura y beneficiosa. Esta implementación gradual nos permite realizar mejoras y mitigaciones de riesgos a lo largo del tiempo, al mismo tiempo que añadir funcionalidades más poderosas en el futuro.
Como siempre, el objetivo de ChatGPT es ayudaros en vuestra vida diaria. Queremos que sea una herramienta útil y segura. Para ello, han trabajado con organizaciones como Be My Eyes, una aplicación móvil gratuita para personas con discapacidades visuales. Su experiencia nos ha ayudado a entender los usos y limitaciones de la función de imagen.
Es importante que os recordemos que ChatGPT no siempre es preciso y, por tanto, han tomado medidas técnicas para limitar significativamente su capacidad de analizar y hacer declaraciones directas sobre las personas.
Aunque estas nuevas capacidades son emocionantes, como siempre os recomendamos utilizar ChatGPT de manera responsable. OpenAI es muy transparente sobre las limitaciones del modelo y desaconsejan su uso en casos de mayor riesgo sin una verificación adecuada. El modelo tiene un buen rendimiento en la transcripción de texto en inglés, pero puede tener dificultades con otros idiomas, especialmente aquellos que utilizan un sistema de escritura no románico.
¡Qué emocionante es el avance de la inteligencia artificial! No puedo esperar a ver lo que el futuro nos depara. ¡Hasta la próxima! :)
Sara!