Cómo generar locuciones realistas con SpeechGen

Obtén voces de Inteligencia Artificial para uso comercial en una variedad de idiomas, incluyendo español, inglés, francés, alemán, italiano, portugués, ruso, sueco, y más.

feb 21, 2024

MultimediaLab #11

👋 Hola, soy Fidel Romero. Estás leyendo MultimediaLab, un boletín que escribo cada semana con consejos prácticos sobre cómo aprovechar las herramientas multimedia para potenciar un emprendimiento en la web.

Si recibiste este boletín, entonces se suscribió o alguien se lo reenvió. Si encaja en este último campo y desea suscribirse, puede hacer clic en este pequeño y práctico botón:

He alcanzado la publicación número 11 de MultimediaLab. Ha sido un viaje emocionante y solo puedo sentir alegría. Escribir, reseñar y recomendar herramientas multimedia para la creación y gestión de contenido web ha sido una tarea que he disfrutado mucho y que continuaré realizando en los próximos meses y quizás años.

También quiero compartirles que he estado llevando a cabo entrevistas con emprendedores que han lanzado proyectos interesantes en internet: portales de noticias, blogs, canales de redes sociales (Instagram, YouTube, TikTok, Facebook, entre otros), boletines, entre otros. Espero que estas entrevistas sirvan de inspiración para ustedes y puedan tomarlas como referencia para lanzar o impulsar sus propios proyectos. En las siguientes publicaciones compartiré cada una de ellas.

Por último, antes de pasar a la herramienta, 🙏 quiero agradecerles por su interés en este boletín y por seguir conmigo en este camino.

La herramienta de esta semana que he estado explorando desde principios de este año es SpeechGen, una plataforma en línea para crear locuciones con inteligencia artificial generativa, similar a Voicemaker. Simplemente visita el sitio web de Speechgen.io, ingresa el texto para generar voz y descarga el audio en MP3 o WAV para cualquier propósito.

Por ejemplo, Alex Gen, el director de SpeechGen.io, ha compartido que actualmente la herramienta se ha utilizado para generar alertas de seguridad en sistemas de emergencia, síntesis de voz que ayudan a crear interfaces fáciles de usar para sistemas de calefacción y ventilación, así como alertas de voz sobre el estado de la red y del dispositivo en infraestructuras de TI (Tecnologías de la Información).

Por otro lado, el proyecto TheAWEInstitute, que aborda temas de sabiduría y belleza impresionantes, ha utilizado SpeechGen para dar voz a uno de sus videos sobre la Ley al revés de Alan Watts.

Recientemente, utilicé esta herramienta para generar la voz en off de un video promocional sobre el curso en línea "Diseño de sitios web en Wordpress" que impartiré próximamente.

Recientemente usé esta herramienta para generar la voz en off de un sobre el curso en línea “Diseño de sitios web en Wordpress” que próximamente impartiré.

Sin duda, los usos de SpeechGen son diversos y las voces generadas se pueden utilizar con fines comerciales en diferentes idiomas, como español, inglés, francés, alemán, italiano, portugués, ruso, sueco, entre otros.

Cómo generar un audio con SpeechGen

Convertir texto a voz es muy sencillo. Sigue estos pasos:

1. Escribe o pega el texto en el cuadro de "Realistic Text-to-Speech AI converter". Ten en cuenta que la versión gratuita ofrece un límite de 1,331 caracteres y admite más de 75 idiomas. Esto es suficiente para explorar y utilizar en tu próximo podcast, campañas o cualquier historia sonora.

2. Seleccione un idioma. Para cada lenguaje, hay varios estilos de voz. Elige una voz masculina o femenina y haz clic en el botón de reproducir para escuchar cada una de las voces. Selecciona la voz más interesante para tu proyecto.

3. Ajusta la velocidad y el tono. Utiliza estas opciones para ajustar tu voz, haciéndola más grave o más aguda, o aumentando y disminuyendo la velocidad.

4. Haz clic en el botón debajo del cuadro de texto "Generar locución" para escuchar la locución del robot. Puedes ajustar la velocidad, seleccionar otros tipos de voz y en la parte inferior del cuadro de texto, puedes ajustar el tiempo de las pausas de los párrafos o sentencias para encontrar el tono de voz perfecto para tu proyecto.

5. Por último, haz clic en el botón "Descargar" para obtener audios en formato MP3 o WAV. Estos archivos los puedes editar en Audacity o cualquier otro programa de edición de audio, usar para la locución de vídeos o publicar directamente en tu plataforma favorita: Soundcloud, Spotify, iVoox, entre otras.

Aquí tienes un video en inglés de SpeechGen donde explican paso a paso cómo usar la herramienta.

Costos de la herramienta

SpeechGen ofrece una variedad de planes de precios con un único pago, determinado por el límite de caracteres para generar voz. Los costos son flexibles y no se cobran mensualmente. Puedes utilizar los límites de texto a tu propio ritmo durante un período de hasta un año. Si te quedas sin límites, puedes adquirir más según tus necesidades.

Este enfoque de comprar solo lo que necesitas, sin preocuparte por los límites no utilizados, es una ventaja sobre otras herramientas que ofrecen un servicio similar.

Cada uno de los paquetes incluye voces profesionales (Pro), acceso a 150 idiomas, descargas ilimitadas, uso comercial, editor multi-voz, historial de archivos, almacenamiento en la nube, soporte para entonación, desglose de archivos por etiquetas, acceso a API y soporte por correo electrónico. Aquí tienes la lista de precios:

$4.99 dólares. 25 mil caracteres con voces Pro.
$9.99 dólares. 25 mil caracteres con voces Pro.
$24.99 dólares. 25 mil caracteres con voces Pro.
$49.99 dólares. 25 mil caracteres con voces Pro.

Antes de comprometerte con un plan en SpeechGen, es aconsejable que investigues la herramienta y evalúes si puede contribuir de manera beneficiosa a la estrategia de difusión, educativa o comercial de tu proyecto.

Consideraciones finales

SpeechGen es una excelente herramienta para generar voz a partir de texto en múltiples idiomas. Sin embargo, las voces carecen de ciertos matices y emociones que tienen las voces de los humanos.

Además, dado que varias personas o empresas pueden usar esta herramienta es posible que se encuentre en Internet contenidos similares.

En conclusión, SpeechGen emerge como una herramienta potente y versátil para la generación de voz a partir de texto en múltiples idiomas. La capacidad de personalizar voces, ajustar tono y velocidad, así como la flexibilidad en los planes de precios, hacen de SpeechGen una opción atractiva para una amplia gama de proyectos comerciales, educativos y de difusión.

Recuerda que el éxito de un creador radica en la experimentación. A través del uso y la práctica, puedes transformarte en una productora o productor multimedia profesional. Por supuesto, alcanzar ese nivel lleva tiempo, pero puedes dar el primer paso hoy. ¡Adelante!

¿Qué te pareció el boletín de esta semana? (Haga clic para dejar comentarios).

💙 Mis lecturas favoritas

Redes sociales

Chequen esta entrevista con Zaria Parvez, quien ahora es gerente senior global de redes sociales en Duolingo. Habla sobre estrategias, la importancia de la comunidad de la marca y la relación con influencers. (Rachel Karten / Link In Bio)

Periodismo digital

Seis meses después, la publicación tecnológica propiedad de periodistas 404 Media es rentable. Emanuel Maiberg, cofundador de 404 Media, compartió que las fuentes de ingresos del proyecto son: publicidad, anuncios de podcasts, donaciones, mercancías y suscripciones pagas. Esto es importante para los periodistas que están buscando y probando modelos de negocio para mantener a flote sus proyectos periodísticos. (Hanna’ Tameez / NiemanLab)
Lo que el CEO de Medium ha aprendido sobre tecnología y periodismo. Las experiencias personales, auténticas y de calidad que comparten los escritores en esta plataforma, han mantenido a flote Medium en estos años, dice Tony Stubblebine. (Reed Albergotti / Semafor)

Inteligencia artificial

OpenAI ha lanzao Sora, un modelo de IA que puede crear vídeos realistas e imaginativos a partir de instrucciones de texto. Increíble la calidad y la precisión de las imágenes.
Por otra parte, el lanzamiento de Sora de OpenAI opacó la actualización de Gemini 1.5, el modelo de IA de Google. Esta nueva versión puede “aumentar significativamente la cantidad de información que nuestros modelos pueden procesar: ejecutando hasta 1 millón de tokens de manera constante, logrando la ventana de contexto más larga de cualquier modelo básico a gran escala hasta el momento”, dijo Sundar Pichai, director ejecutivo de Google y Alphabet.

✍️Cita de la semana

“La falta de curiosidad, la inseguridad con no tener suficientes seguidores sigue impidiendo a muchos de ustedes entrar en TikTok, Twitch, YouTube Shorts.. y deteniéndote en la vida de muchas nuevas oportunidades...", Gary Vaynerchuk.

💻 Populares en mi blog

10 ejemplos de reportajes multimedia. Medios como New York Time, Financial Times, The Guardian, The Washington Post, The Economist, Animal Político, Quinto Elemento, Ojo Público, entre otros, han publicado grandes especiales de acceso libre que son ejemplos para inspirarnos, tomar nota y aplicar en nuestras próximas historias.
CapCut: cómo editar videos en el teléfono y crear historias increíbles. Para crear videos e impactar a su audiencia con historias audiovisuales increíbles, CapCut es una excelente herramienta para editar, cortar, agregar efectos, textos, música, entre otros recursos, a cualquier video desde cualquier dispositivo móvil: teléfono inteligente, tableta electrónica incluso desde la computadora.
Transcribir videos de YouTube: cómo desgrabar video a texto. Si buscas herramientas digitales para transcribir automáticamente videos de YouTube a texto en unos cuantos segundos, checa estas plataformas en línea para ahorrar tiempo y enfocarte en obtener lo más importante de una entrevista, una conferencia, una video columna o cualquier otro video.

Cuando estés lista o listo, hay 3 formas en las que puedo apoyarte:

Curso de Herramientas digitales para producir multimedia. Descubre cómo dominar rápidamente las mejores herramientas para producir contenido atractivo e interactivo y compartir en Internet. Lo impartiré en línea del 26 de febrero al 31 de marzo de 2024. Incluye sesiones en vivo, video tutoriales, guías y más recursos para aprender a crear, diseñar y administrar tu propio sitio web ¡Únete al grupo!
Curso de Diseño de sitios web en WordPress. Aprende a crear, diseñar y administrar tu propio blog sin saber programar. Lo impartiré en línea del 15 de abril al 19 de mayo de 2024. Incluye sesiones en vivo, video tutoriales, guías y más recursos para aprender a crear, diseñar y administrar tu propio sitio web ¡Únete al grupo!
Consultoría 1:1: Reserve una cita, en una videollamada abordaremos dónde está estancado su proyecto o le puedo ayudar a encontrar una estrategia para el futuro. Cualquier trabajo realizado durante la llamada (por ejemplo, documentos, imágenes, diseño, videos, etc.) es suyo.