Transacciones de la Asociación de Lingüística Computacional
Decodificación de textos de Anagrammed escritos en un lenguaje y secuencia de comandos desconocidos
Abstracto
El descifrado algorítmico es un excelente ejemplo de un problema verdaderamente no supervisado. El primer paso en el proceso de descifrado es la identificación del lenguaje cifrado. Proponemos tres métodos para determinar el idioma de origen de un documento cifrado con un cifrado de sustitución monoalfabético. El mejor método logra 97% de precisión en 380 idiomas. Luego presentamos un enfoque para decodificar cifras de sustitución anagramadas, en las que las letras dentro de las palabras se han transpuesto arbitrariamente. Obtiene una precisión de palabra de desencriptado promedio del 93% en un conjunto de 50 textos cifrados en 5 idiomas. Finalmente, informamos los resultados en el manuscrito Voynich, un cifrado no resuelto del siglo XV, que sugiere el hebreo como el idioma del documento.
Texto completo:
PDF (PRESENTADO EN ACL 2017)Refbacks
- Actualmente no hay refbacks.
No hay comentarios:
Publicar un comentario