¿Cómo usar el servicio de voz a texto de Microsoft Azure?

¿Estás cansado de escribir manualmente textos en editores de documentos como Word y el Bloc de notas? Utiliza el servicio de voz a texto de Microsoft Este servicio se lanzó en 2020 junto con el servicio de texto a voz, que incluye famosas voces generadas por computador como Microsoft Sam y su hermano, Mike. Así que, en esta breve lectura, aprenderás qué es el servicio de voz a texto de Microsoft Azure y sus capacidades. También te presentaremos las mejores alternativas a Microsoft Azure STT. ¡Prepárate!

En este artículo

Parte 1: ¿qué es Microsoft Azure y Speech Studio?
Parte 2: guía paso a paso para transcribir voz a texto con Microsoft Speech Studio
Parte 3: ¿cuáles son las alternativas gratuitas al servicio Microsoft Speech to Text?

Parte 1: ¿qué es Microsoft Azure y Speech Studio?

Microsoft Azure STT y TTS forman parte de Microsoft Cognitive Services Speech Estos servicios cognitivos cuentan con una inteligencia de vanguardia que abarca el reconocimiento de voz, el reconocimiento de hablantes, la traducción automática y el reconocimiento óptico de caracteres (OCR). El servicio de conversión de voz a texto de Microsoft utiliza Azure Machine Learning (Azure ML) para reconocer, analizar y convertir automáticamente las voces humanas en textos editables y con capacidad de búsqueda.

Dicho esto, Azure STT te permite transcribir audio en streaming, comentarios de micrófono o archivos de audio locales. Es compatible con más de 100 idiomas, entre los que se incluyen el inglés, alemán, francés, swahili, hindi, ucraniano, turco y árabe, entre otros. Recuerda que este servicio también admite la transcripción por lotes, lo que te permite transcribir varios audios por lotes.

Mientras tanto, Azure STT está disponible en muchos formatos, incluido el SDK de voz. El SDK de voz (kit de desarrollo de software) te permite utilizar los lenguajes de programación más populares para crear una aplicación con voz. Es compatible con Java, JavaScript, Python, Visual Studio C++, Swift y Objective-C.

Si no se te dan bien los lenguajes de programación, utiliza Speech CLI, una herramienta de comandos que te permite utilizar el servicio de reconocimiento de voz sin necesidad de introducir un código. En pocas palabras, presenta una configuración mínima con requisitos precisos. Además, cuenta con casi todo lo que encontrarás en el SDK de Speech. Por lo tanto, depende de tus habilidades y preferencias.

También cabe destacar que Azure Speech Studio admite el reconocimiento de palabras clave o la detección de palabras clave. Se pueden generar modelos de reconocimiento de palabras clave y especificar cualquier frase o palabra corta. Los usuarios también pueden personalizar las palabras clave con las puntuaciones correctas. Y lo mejor de todo es que no hay ningún coste adicional por personalizar las palabras clave.

Parte 2: guía paso a paso para transcribir voz a texto con Microsoft Speech Studio

Ahora vamos a aprender a utilizar los servicios de reconocimiento de voz de Microsoft Azure. Recuerda que la conversión puede no ser precisa si el audio tiene mucha jerga o ruidos ambientales. Por lo tanto, utiliza un audio nítido con un micrófono externo o entrena al software para que reconozca palabras específicas o palabras clave. ¡Empecemos!

Paso 1 comienza por crear una cuenta de Microsoft Azure. Empezarás con la versión gratuita, que te da un crédito de 200 dólares para utilizar en 30 días. Después de agotar los créditos gratuitos, utiliza el modelo de pago por uso, que desbloquea más de 40 servicios de Azure.

Paso 2: después de crear un portal de Microsoft Azure, verás todos los servicios de Azure. Haz clic en la pestaña Servicios de voz o busca "servicios de voz" en la barra de búsqueda. Ahora haz clic en Crear y luego rellena los detalles del proyecto. A continuación, haz clic en Revisar y Crear antes de hacer clic en Crear.

Paso 3: el programa tardará un poco en desplegar una instancia. Ahora pulsa Claves y puntos finales en el panel izquierdo y copia la clave y el identificador de región, ya que puedes necesitarlos más adelante.

micrsoft azure speech to text copiar clave y región

Paso 4: descarga e instala Microsoft Visual C++ y .NET Core 3.1 Runtime. A continuación, instala Speech CL en .NET ejecutando este comando "dotnet tool install -global Microsoft.CognitiveServices.Speech.CLI." Como alternativa, descarga e instala Speech CLI para Windows PC como archivo ZIP.

Paso 5: ahora introduce el identificador regional de Azure y la clave de suscripción en el Terminal de Windows o en PowerShell. Para configurar la región y la clave, ejecuta estos comandos; "spx config @key --set SUBSCRIPTION-KEY y spx config @region --set REGION."

Paso 6: ahora es el momento de convertir la voz en texto utilizando el servicio Azure STT. Para ello, ejecuta "spx recognize -microphone" en Terminal o PowerShell. Azure Speech CLI escuchará la entrada de sonido y la convertirá en texto. ¡Eso es todo!

Nota: haz clic en este video para ver una guía detallada sobre cómo utilizar Azure Speech Services con Visual Basic (SDK).

Parte 3: ¿cuáles son las alternativas gratuitas al servicio de voz a texto de Microsoft?

Todos deberíamos estar de acuerdo en que utilizar el Servicio de Voz de Microsoft Azures no es algo fácil. Necesitas algunos conocimientos de programación y del Símbolo del sistema de Windows, y lo que es peor, tendrás que pagar cada vez que quieras convertir la voz en texto después de agotar los créditos gratuitos.

Afortunadamente, no hay escasez de convertidores gratuitos de voz a texto para principiantes. Por lo tanto, en esta parte, vamos a discutir algunas alternativas gratuitas de Microsoft Azure STT para principiantes.

1. Wondershare Filmora 11:gratis con un plan premium de 49 dólares

Empecemos con el mejor convertidor de voz a texto sin conexión para sistemas macOS y Windows: Filmora 11. Es un editor de video para crear videos premiados sin necesidad de tener conocimientos previos de edición. Solo tienes que subir tu video local y editarlo a tu gusto. Y sí, funciona con una gran cantidad de formatos de video.

Volviendo al tema de hoy, Filmora 11 utiliza una avanzada Inteligencia Artificial unida a un profundo Aprendizaje Automático para transcribir el audio de forma rápida y precisa. La función STT convierte el audio audible en textos editables o subtítulos con una sincronización super precisa. Esta herramienta es compatible con más de 16 idiomas, incluyendo inglés, francés, alemán, etc. Además, puedes descargar el texto extraído en formato SRT.

Sigue estos pasos para transcribir audio a texto con Filmora 11.

Paso 1: instala la última versión de Wondershare Filmora o actualiza tu versión a Filmora 11. Solo con la versión actualizada obtendrás las funciones STT y TTS. No obstante, inicia un Nuevo Proyecto.

micrsoft azure speech to text crear proyecto

Paso 2: a continuación, haz clic en Importar medios para subir el video o el archivo de audio que quieras convertir en texto. Después de subir el video, arrástralo a la línea de tiempo de edición y separa el audio del video. Para ello, haz clic con el botón derecho del ratón en el video y elige Separar audio. La idea es extraer los textos del archivo de audio.

micrsoft azure speech to text import media

Paso 3: ahora selecciona la pista de audio y haz clic en el icono de conversión de voz a texto. O bien, haz clic con el botón derecho del ratón en la pista de audio y selecciona Conversión de voz a texto. Verás una ventana emergente en la que seleccionarás el idioma y el modo de transcripción. Puedes transcribir un clip específico o toda la línea de tiempo. Haz clic en Aceptar para comenzar a escanear y transcribir el audio a texto.

Paso 4: después de un proceso de transcripción exitoso, verás que se añade una línea de tiempo de texto. Haz doble clic para ver las pistas de texto y editarlas. Puedes añadir una nueva pista de subtítulos, cambiar el texto, ajustar el tamaño, cambiar el color, etc. Si estás satisfecho con el texto extraído, haz clic con el botón derecho del ratón en la línea de tiempo de texto y haz clic en Exportar archivo de subtítulos. ¡Así de fácil!

micrsoft azure speech to text editar textos

2. Google Docs: gratis

micrsoft azure speech to text alternativa google docs

Si estás buscando un software gratuito de transcripción de voz, lo mejor es Google Docs. La mayoría de ustedes no saben que Google Docs puede convertir con precisión la voz en texto, lo que lo convierte en una herramienta muy útil si te resulta más fácil hablar que escribir. Como era de esperar, esta herramienta de transcripción de voz reconoce cientos de idiomas, como el inglés, francés, italiano, hindi, etc.

Pero aunque hace un trabajo bueno, un audio poco claro no te dará transcripciones precisas. Además, no cuenta con detalles como puntos, comas y otros signos de puntuación. Por lo tanto, utiliza una aplicación profesional como Filmora para transcribir tu audio a texto.

Pasos para convertir la voz en texto con Google Docs.

Paso 1: abre un nuevo documento en Google Docs y haz clic en Escritura de voz. El micrófono incorporado se iniciará automáticamente.

Paso 2: a continuación, haz clic en la flecha desplegable de idioma del micrófono para elegir el idioma de transcripción. Puedes dictar textos en inglés, español, francés, italiano, afrikáans y árabe, entre otros.

Paso 3: haz clic en el icono del Micrófono para empezar a dictar textos en Google Docs. Después de dictar suficientes textos, toca el icono rojo del Micrófono y edita tu texto. ¡Es así de sencillo!

3. Audtext: pago único de 60 dólares.

alternativa micrsoft azure speech to text audtext

Si el servicio de reconocimiento de voz de Google es demasiado lento para tu gusto, considera Audtext. Es un programa online muy bien valorado que utiliza tecnología de aprendizaje automático de última generación para transcribir audio a texto en más de 60 idiomas. Puedes entrenar fácilmente este programa para que identifique al orador en tu entrevista o archivo de podcast.

Mientras tanto, Audtext puede transcribir formatos típicos de video y audio, como MP3, WAV, M4A, MP4, MOV, etc. Y después de transcribir el audio a texto, aprovecha el editor de texto incorporado para retocar y hacer que tu texto sea presentable.

Descubramos cómo funciona este servicio STT.

Paso 1: crea una cuenta de transcripción en Audtext y haz clic en "Nueva Subida" para elegir el modo de transcripción. Puedes seleccionar la transcripción automática que utiliza IA o la transcripción humana profesional. Así que, vamos a elegir Automático.

Paso 2: arrastra y suelta tu archivo de video o audio en el programa y luego elige el idioma de transcripción. Después de añadir tu archivo, haz clic en Subir para escanearlo y transcribirlo, lo que debería llevar un tiempo.

Paso 3: por último, haz clic en el archivo de texto transcrito para editarlo con nuevos textos y puntuaciones en el editor incorporado. Puedes exportar tu transcripción en formatos .txt, .srt o .docx. También está disponible la exportación directa a Google Drive.

Palabras finales

Hasta este punto, deberías estar listo para empezar a utilizar Microsoft Cognitive Services Speech. La función de conversión de voz a texto te permite convertir un número ilimitado de voces en texto en tu computador. Sin embargo, el programa puede ser difícil de configurar si no eres un experto en tecnología.

En ese caso, utiliza una opción más sencilla como Google Docs para dictar textos en el editor de texto. También puedes considerar Filmora 11 para codificar cualquier archivo local de audio o video en texto editable. ¡Es hora de probar!

Descarga gratuita para Win 7 o posterior (64 bits)

Descarga gratuita para macOS 10.14 o posterior

Ideas para editar

Efectos especiales DIY

Inspírate con Filmora

Taller creativo

Centro de creadores

Plantillas en español

Sobre Nosotros

Contáctanos

Empresas

Affiliate

Preguntas frecuentes >

Guía de usuario >

Especificaciones técnicas >

Qué hay de Nuevo > >

Versión anterior >

Reseñas >

Editor de videos potente e intuitivo

Cómo usar el servicio de voz a texto de Microsoft Azure

En este artículo

Parte 1: ¿qué es Microsoft Azure y Speech Studio?

Parte 2: guía paso a paso para transcribir voz a texto con Microsoft Speech Studio

Parte 3: ¿cuáles son las alternativas gratuitas al servicio de voz a texto de Microsoft?

1. Wondershare Filmora 11:gratis con un plan premium de 49 dólares

2. Google Docs: gratis

3. Audtext: pago único de 60 dólares.

Palabras finales

Ideas para editar

Efectos especiales DIY

Inspírate con Filmora

Taller creativo

Centro de creadores

Plantillas en español

Sobre Nosotros

Contáctanos

Empresas

Affiliate

Preguntas frecuentes >

Guía de usuario >

Especificaciones técnicas >

Qué hay de Nuevo > >

Versión anterior >

Reseñas >

Editor de videos potente e intuitivo

Cómo usar el servicio de voz a texto de Microsoft Azure

En este artículo

Parte 1: ¿qué es Microsoft Azure y Speech Studio?

Parte 2: guía paso a paso para transcribir voz a texto con Microsoft Speech Studio

Parte 3: ¿cuáles son las alternativas gratuitas al servicio de voz a texto de Microsoft?

1. Wondershare Filmora 11:gratis con un plan premium de 49 dólares

2. Google Docs: gratis

3. Audtext: pago único de 60 dólares.

Palabras finales

Últimas Tendencias