- Resumen
- Planteamiento del problema
- Justificación de la investigación
- Propuesta
- Instituciones involucradas
- Equipo de investigación
- Resultados esperados
- Financiamiento
-
Corrector ortográfico morfológicamente informado para lenguas aglutinantes peruanas: Una contribución a la consolidación de programas de educación intercultural bilingüe en el contexto amazónico
183 propuesta_59657
Investigación aplicadaResumen
Los esfuerzos de revitalización de las lenguas nativas peruanas tienen una base fundamental en la normalización de su escritura, el cual se viene desarrollando progresivamente por parte del Gobierno a través del MINEDU. Este proceso puede ser sustancialmente apoyado por la tecnología, específicamente, aquellas tecnologías de lenguaje que permitan automatizar la corrección ortográfica de una lengua. Por ello, a partir de la inteligencia artificial, se propone la implementación de nuevos algoritmos para la revisión automática de la ortografía y selección de sugerencias en cuatro lenguas nativas peruanas, que se enseñan en el programa de educación intercultural bilingüe de Nopoki: Shipibo-Konibo, Asháninka, Yine, Yanesha. Asimismo, para que el algoritmo aprenda a decidir correctamente, requiere conocer a profundidad aspectos específicos de la lengua desde el dominio de la linguïstica y la educación. Es así que se van a construir recursos adicionales y relevantes, como bosquejos morfológicos y fonológicos, además de tipologías de errores cometidos sistemáticamente por estudiantes hablantes de las lenguas nativas objetivo. Los algoritmos serán embebidos en un prototipo funcional que pueda ser usado por los estudiantes y profesores hablantes de lenguas nativas, con la posibilidad de ofrecer retroalimentación clave a fin de preparar una futura transferencia tecnológica con aplicaciones más complejas para la educación bilingüe. Ante todo esto, es evidente que la colaboración multidisciplinaria entre informáticos, lingüistas y educadores es un componente esencial para el desarrollo del proyecto y, a partir de la Pontificia Universidad Católica del Perú (PUCP) y la Universidad Católica Sedes Sapientiae (UCSS), se propone establecer una base tecnológica para afianzar y mejorar los procesos de educación intercultural bilingüe en el contexto Amazónico peruano.
-
Corrector ortográfico morfológicamente informado para lenguas aglutinantes peruanas: Una contribución a la consolidación de programas de educación intercultural bilingüe en el contexto amazónico
183 propuesta_59657
Investigación aplicadaPlanteamiento del problema
Las lenguas nativas u originarias peruanas son de tradición principalmente oral. Por ese motivo, la estandarización y normalización de su escritura es una tarea compleja que dificulta la enseñanza de esta lengua en forma escrita para sus comunidades. Por ello, el esfuerzo del Ministerio de Educación (MINEDU) en la oficialización de los alfabetos para consolidar un sistema de escritura único por cada lengua es una tarea sustancial para contribuir con la calidad de vida de los hablantes. Asimismo, los alfabetos oficiales facilitan la preparación de un material educativo normalizado en un contexto de educación intercultural bilingüe, el cual es política de Estado (D. S. N.° 005-2017-MC, 2017).
Desde el punto de vista computacional, el proceso de normalización de un lenguaje está estrechamente relacionado a la corrección ortográfica automática, o cómo un programa puede identificar una escritura errónea y sugerir al usuario alternativas consideradas correctas o estandarizadas. Los sistemas de corrección ortográfico son funcionalidades básicas de las tecnologías de lenguaje, y son usadas ampliamente para el desarrollo de aplicaciones más complejas. En el ámbito educativo, las aplicaciones tecnológicas que se benefician ampliamente de los correctores ortográficos son los llamados CALL, o sistemas para la enseñanza de lenguas asistida por computador (por sus siglas en inglés). Sin embargo, es pertinente construir desde cero los elementos necesarios para el desarrollo de este tipo de aplicaciones de cada lengua en específico, ya que cada una tiene su propio vocabulario y propiedades a nivel morfológico, fonológico, entre otros. Esta tarea es más difícil cuando las lenguas son habladas por minorías, pues no tienen la atención necesaria de parte de la sociedad (académica, empresa, Estado) en el desarrollo de tecnologías útiles para apoyar su aprendizaje.
En el Perú, todas las lenguas originales se identifican como lenguas minoritarias o de escasos recursos computacionales, ya que cuentan con pocos o ningún tipo de datos anotados que puedan ser procesados directamente por algoritmos de máquina. Desde la PUCP, ya se han realizado esfuerzos para desarrollar tecnologías para lenguas como el Shipibo-Konibo, pero sigue siendo insuficiente ante la enorme variedad de lenguas existentes en el país (48). Solamente en Nopoki hay estudiantes que hablan 12 lenguas originarias diferentes: Asháninka, Asheninka, Matsiguenga, Nomatsiguenga, Yanesha, Yine, Shipibo-Konibo, Kakinte, Amawaka, Yaminawa, Kashinawa, Nahua, Kapanawa; y el centro solo cuenta, por el momento, con especialistas de educación para las siete primeras.
En este contexto, se plantea la siguiente pregunta de investigación multidisciplinaria: ¿las tecnologías de lenguaje pueden asistir en el proceso de normalización del sistema de escritura de las lenguas nativas peruanas? Esta interrogante se desagrega en otras preguntas para cada disciplina involucrada. Desde la informática, ¿es posible automatizar la revisión de la normalización de un texto escrito en lengua nativa?, mientras que, desde la lingüística, se plantea la siguiente interrogante: ¿cómo se puede describir y representar la compleja morfología aglutinante de las lenguas nativas peruanas para que pueda ser entendida y procesada por un computador? Asimismo, desde la pedagogía intercultural bilingüe, la pregunta es la siguiente: ¿qué tipos de errores son cometidos de forma sistemática por los estudiantes de un programa de educación bilingüe?
Es indispensable que se puedan desarrollar y sistematizar las iniciativas orientadas a la implementación de tecnologías de lenguaje que soporten el aprendizaje de una lengua, sobre todo en el Perú, un país multicultural y multilingüe. Este tipo de tecnologías puede ofrecer herramientas más complejas en el futuro para preparar a nuevos estudiantes y docentes bilingües.
-
Corrector ortográfico morfológicamente informado para lenguas aglutinantes peruanas: Una contribución a la consolidación de programas de educación intercultural bilingüe en el contexto amazónico
183 propuesta_59657
Investigación aplicadaJustificación de la investigación
La educación intercultural bilingüe es un componente fundamental en la inclusión de los hablantes de lenguas nativas peruanas. En el Perú, el MINEDU ha oficializado los alfabetos de diversas lenguas nativas, y esto compromete que los diferentes servicios educativos deban brindarse en la lengua materna de los estudiantes. Por ello, surgen programas de magisterio intercultural bilingüe, donde uno de los más relevantes es el que se encuentra en Nopiki, Filial de Atalaya de la UCSS. Asimismo, en el contexto educativo, la tecnología ahora es una herramienta fundamental en la enseñanza de cualquier lengua, debido a que permite agilizar y facilitar las funciones de los docentes.
El desarrollo del proyecto generará aportes tanto a nivel teórico o práctica en un enfoque multidisciplinario, entre los cuales se destacan:
- Nuevos algoritmos específicos (aporte teórico) para el tratamiento de la ortografía y normalización en cuatro lenguas originarias de la Amazonía peruana, lo que permitirá construir aplicaciones de mayor complejidad para soportar la educación bilingüe en el contexto amazónico (aporte práctico).
- Mayor comprensión de los sistemas morfológicos y fonéticos de diversas lenguas originarias de la Amazonía peruana (aporte teórico), lo que permitirá a los algoritmos computacionales poder entender dicho conocimiento a partir de anotaciones estandarizadas (aporte práctico). El alineamiento de los corpus a estándares universales (UniMorph) interesará a investigadores a nivel mundial.
- Identificación de los tipos de errores ocasionados por los estudiantes de pedagogía bilingüe (aporte teórico), lo que permitirá una mejor preparación de las metodologías de enseñanza para la escritura normalizada en los programas de educación bilingüe, además de soportar la capacidad de decisión de los algoritmos de corrección (aporte práctico).
A continuación, se desagregan los aportes por algunos productos:
- Tesis de posgrado en Informática (2) y Lingüística (1): la investigación de posgrado permitirá fortalecer las capacidades de nuevos investigadores para el continuo desarrollo de tecnologías de lenguaje.
- Artículos para envío a revistas (3) y conferencias internacionales (2): la investigación se va a difundir a la comunidad internacional. Asimismo, el poder anotar los recursos en estándares universales (UniMorph) permitirá que investigadores a nivel mundial también puedan experimentar con los datos, con el objetivo de seguir mejorando los algoritmos de corrección ortográfico posterior al cierre del proyecto.
- Algoritmos de corrección ortográfica (4) para lenguas nativas: al implementarse algoritmos basados en diccionarios usando Hunspell, se podrá integrar rápidamente a software de ofimática libres (LibreOffice) para que puedan ser usados por los estudiantes. Asimismo, el mejor algoritmo para cada lengua (a partir de la experimentación numérica) se embeberá en un prototipo web de prueba.
- Algoritmos de análisis morfológico, silabificación, modelado de lenguaje, generación de errores sintéticos: enriquecerán el área del procesamiento de lenguaje natural para lenguas peruanas, lo que permitirá consolidar un centro de investigación a nivel regional, y captar la atención de centros prestigiosos a nivel mundial para futuras colaboraciones.
Finalmente, es importante resaltar que este proyecto pretende ser solamente una etapa inicial de una serie de fases para el desarrollo de sistemas de información dedicados a la enseñanza del lenguaje (CALL). Las etapas siguientes implican una expansión en dos niveles. Primero, a nivel multilingüe, al abordar más lenguas originarias peruanas. Segundo, a nivel de algoritmos y aplicaciones, al poder afrontar problemas más complejos como la corrección gramatical automatizada. Todo esto estará acompañado de proyectos de transferencia tecnológica para que los prototipos puedan ser escalados a aplicaciones reales, que puedan ser usados por los estudiantes y docentes hablantes de lenguas originarias peruanas.
-
Corrector ortográfico morfológicamente informado para lenguas aglutinantes peruanas: Una contribución a la consolidación de programas de educación intercultural bilingüe en el contexto amazónico
183 propuesta_59657
Investigación aplicadaPropuesta
Modalidad de proyecto: Proyecto de investigación multidisciplinario
Son propuestas de investigación aplicada o desarrollo tecnológico con objetivos y actividades multidisciplinarias. Participan, por lo menos, dos grupos de investigación de diversas disciplinas, ya sea de la misma o de diferente entidad.
Los proyectos deben ser presentados de manera asociativa (con una o más entidades asociadas).
La conformación mínima es la siguiente:
- Un investigador principal
- Dos coinvestigadores (uno por cada grupo de investigación)
- Dos tesistas de posgrado
- Un gestor tecnológico
- Un coordinador administrativo
Nota: se debe contar con la participación de, por lo menos, un investigador de una institución proveniente de alguna región del interior del país.
Tipo de proyecto: Investigación aplicada
Subsector: Educación
Sector: General
Lugar de ejecución del proyecto: Lima – Ucayali
Fecha de inicio: 26/12/2018
Fecha de cierre: 26/03/2021
Plazo de ejecución (meses): 27
Objetivo principal
El objetivo principal es la implementación de un algoritmo de corrección ortográfico para las lenguas nativas peruanas de la Amazonía, que por su naturaleza aglutinadora de afijos en la formación de las palabras requieren un tratamiento especial para que el computador pueda entender y procesar sus sistemas morfológicos. Esto requiere la participación de un equipo multidisciplinario, conformado por informáticos, lingüistas y educadores de maestros bilingües para lenguas amazónicas. En consecuencia, este equipo plantea el desarrollo de un prototipo para cuatro correctores ortográficos de lenguas nativas incluidas en el programa de Educación Básica Bilingüe en Nopoki (Shipibo-Konibo, Asháninka, Yine, Yanesha).
El componente informático se enfoca en la investigación y desarrollo de un algoritmo inteligente que pueda resolver y ofrecer sugerencias de ortografía ante un texto escrito en lengua nativa. La capacidad de decisión del algoritmo inteligente es guiada por el conocimiento de la morfología y fonología provista por los recursos trabajados por los lingüistas, así como de la tipología de errores ortográficos provisto por los educadores de Nopoki. Asimismo, se propone ejecutar la primera fase de una transferencia tecnológica para el beneficio de los estudiantes y educadores del programa bilingüe, al desarrollar un prototipo de aplicación web para el uso del corrector ortográfico. Con esta herramienta preliminar, se pretende postular a fondos adicionales de innovación y transferencia de tecnología con impacto humanitario, las cuales ya han sido identificadas.
De esta forma, se propone contribuir a la consolidación de los programas de educación intercultural bilingüe en la Amazonía. Esta base tecnológica apoyará la sistematización del desarrollo de futuras aplicaciones inteligentes para la enseñanza bilingüe y el procesamiento de las lenguas nativas en el Perú, además de generar nuevos recursos para el análisis y estudio desde los campos de la lingüística y educación.
Objetivo específico 1
Implementar un modelo algorítmico de corrección ortográfico para lenguas nativas de la Amazonía peruana, comparando métodos basados en diccionarios y redes neuronales con modelos de lenguaje con procesamiento a nivel de subpalabras.
Objetivo específico 2
Desarrollar bosquejos morfológicos y fonológicos detallados de las lenguas objetivo a partir de la literatura existente y de datos de primera mano recogidos por el equipo.
Objetivo específico 3
Construir una tipología de errores ortográficos a partir de la experiencia en el programa de Educación Básica Bilingüe Intercultural de Nopoki.
Objetivo específico 4
Implementar una interfaz de programación de aplicaciones (API) y un prototipo web para la prueba del corrector ortográfico multilingüe.
-
Corrector ortográfico morfológicamente informado para lenguas aglutinantes peruanas: Una contribución a la consolidación de programas de educación intercultural bilingüe en el contexto amazónico
183 propuesta_59657
Investigación aplicadaInstituciones involucradas
Institución responsable del proyecto
Pontificia Universidad Católica del Perú
RUC: 20155945860
Tipo de entidad: Universidades que se encuentren licenciadas o en proceso de licenciamiento por la SUNEDU
Régimen: Privado
Tipo de organización: Sin fines de lucro
Departamento: Lima
Provincia: Lima
Distrito: San Miguel
Dependencias: Red Internacional de Estudios Interculturales (RIDEI), Grupo de Investigación de Inteligencia Artificial (IA – PUCP)
Instituciones asociadas
Universidad Católica Sedes Sapientiae
RUC: 20505378629
Tipo de entidad: Universidades que se encuentren licenciadas o en proceso de licenciamiento por la SUNEDU
Régimen: Privado
País: Perú
Departamento: Ucayali
Provincia: Atalaya
Distrito: Raymondi
-
Corrector ortográfico morfológicamente informado para lenguas aglutinantes peruanas: Una contribución a la consolidación de programas de educación intercultural bilingüe en el contexto amazónico
183 propuesta_59657
Investigación aplicadaEquipo de investigación
Investigador principal
Nombres: Felix Arturo
Apellido paterno: Oncevay
Apellido materno: Marcos
Grado académico: Magíster
Nombre del grado académico: Magíster en Informática
Entidad: Pontificia Universidad Católica del Perú
Dependencia: Grupo de Investigación de Inteligencia Artificial (IA – PUCP)
Coinvestigador
Nombres: Roberto Daniel
Apellido paterno: Zariquiey
Apellido materno: Biondi
Grado académico: Doctorado
Entidad: Pontificia Universidad Católica del Perú
Dependencia: Red Internacional de Estudios Interculturales (RIDEI)
Coinvestigador
Nombres: John Edward
Apellido paterno: Miller
Grado académico: Magíster
Entidad: Pontificia Universidad Católica del Perú
Dependencia: Grupo de Investigación de Inteligencia Artificial (IA – PUCP)
Coinvestigador
Nombres: Hilario
Apellido paterno: Castilla
Apellido materno: Cruz
Grado académico: Magíster
Entidad: Universidad Católica Sedes Sapientiae
Dependencia: Nopoki (UCSS Filial Atalaya)
Tesista
Nombres: Rodolfo Moises
Apellido paterno: Mercado
Apellido materno: Gonzales
Tipo de tesis: Maestría
Entidad: Pontificia Universidad Católica del Perú
Tesista
Nombres: Tesista no identificado
Apellido paterno: Tesista no identificado
Apellido materno: Tesista no identificado
Tipo de tesis: Maestría
Entidad: Pontificia Universidad Católica del Perú
Tesista
Nombres: Carlo André
Apellido paterno: Alva
Apellido materno: Cohello
Tipo de tesis: Maestría
Entidad: Pontificia Universidad Católica del Perú
Gestor tecnológico
Nombres: Lizeth
Apellido paterno: López
Apellido materno: Portal
Entidad: Pontificia Universidad Católica del Perú
Coordinador administrativo
Nombres: Kathia
Apellidos: Paredes Matos
Entidad: Pontificia Universidad Católica del Perú
Técnico
Nombres: Juan Rubén
Apellidos: Ruiz Zevallos
Entidad: Universidad Católica Sedes Sapientiae
-
Corrector ortográfico morfológicamente informado para lenguas aglutinantes peruanas: Una contribución a la consolidación de programas de educación intercultural bilingüe en el contexto amazónico
183 propuesta_59657
Investigación aplicadaResultados esperados
Meta Indicador de propósito 4 Nuevo conocimiento, producto o proceso de base científica y tecnológica, cuya aplicación contribuya a resolver problemas o aprovechar oportunidades relevantes para un sector priorizado. 3 Artículos científicos presentados o aceptados para publicación en revistas indizadas. 0 Tesis de pregrado que conlleven a la obtención de títulos o grados académicos en universidades peruanas. 3 Tesis de posgrado que conlleven a la obtención de títulos o grados académicos en universidades peruanas. 1 Evento de difusión que congregue a potenciales interesados en los resultados externos a las entidades participantes del proyecto. 1 Plan de implementación de los resultados de la investigación aplicada o paquete tecnológico. 0 Solicitudes de patentes de invención o modelos de utilidad (opcional). 2 Ponencias en congresos de alcance nacional y/o internacional (opcional). 1 Prototipos (opcional). -
Corrector ortográfico morfológicamente informado para lenguas aglutinantes peruanas: Una contribución a la consolidación de programas de educación intercultural bilingüe en el contexto amazónico
183 propuesta_59657
Investigación aplicadaFinanciamiento
Rubros financiables
- Recursos humanos (hasta 50% del monto financiado)
- Incentivo monetario para el investigador principal y coinvestigadores: no debe sobrepasar el máximo de S/ 2,000 mensuales por investigador.
- Pago a los tesistas: no debe sobrepasar el máximo de S/ 1,500 mensuales por tesista.
- Pago al personal técnico o asistente de investigación: no debe sobrepasar el máximo de S/ 1,000 mensuales por técnico.
- Honorarios o incentivos para un gestor tecnológico: no debe de sobrepasar el máximo de S/. 1,500 mensuales.
- Equipos y bienes duraderos (hasta 20% del monto financiado)
Corresponde a la adquisición de equipos menores para el proyecto de investigación.
- Materiales e insumos
- Materiales, insumos, reactivos, accesorios, componentes electrónicos o mecánicos, bienes no inventariables.
- Material bibliográfico, tales como manuales, bases de datos, libros especializados, otros, y/o suscripciones a redes de información (en físico o electrónico).
- Software especializado para el desarrollo de los proyectos de investigación.
- Viajes
Corresponde a los gastos de viajes relacionados a actividades propias del proyecto de investigación.
Los gastos que aplican para este rubro son los siguientes:
- Pasajes: terrestres, aéreos, nacionales e internacionales, en clase económica.
- Viáticos: comprenden los gastos por concepto de alimentación, hospedaje y movilidad (hacia y desde el lugar de embarque), así como el desplazamiento en el lugar donde se realizan las actividades. El concepto de viáticos es aplicable para estancias cuya duración sea menor a los quince (15) días calendario, considerando los topes máximos diarios detallados en el Anexo 2.
- Manutención: comprenden los gastos de alojamiento, alimentación y movilidad local durante su permanencia en el lugar sede del objeto del beneficio otorgado, o desplazamientos relacionados con el mismo. El concepto de manutención es aplicable siempre que se trate de una estancia cuya duración sea mayor o igual a quince (15) días calendario, considerando los topes máximos diarios detallados en la convocatoria.
- Seguro de viaje: el seguro es de carácter obligatorio y su valor debe estar de acuerdo al precio de mercado. La cobertura típicamente incluye gastos médicos de emergencia, muerte accidental, invalidez e imprevistos logísticos durante el viaje (retraso de vuelos, demora o pérdida de equipaje, robos, etc.). El precio del seguro puede variar en función a la edad, duración del viaje y el destino. Se puede financiar hasta un máximo de S/ 2,000.
- Servicios de no consultoría.
Corresponde a los gastos de contratación de personas naturales o jurídicas para la ejecución de actividades de índole técnica especializada, consideradas como críticas para lograr el buen resultado del proyecto de investigación: servicios de laboratorio, colección de datos, procesamiento de muestras, análisis y diseño.
- Otros servicios
Corresponde a los gastos de contratación de personas naturales o jurídicas para la ejecución de actividades complementarias del proyecto de investigación, tales como:
- Actividades de difusión:
- Gastos de organización de taller de cierre del proyecto.
- Costo de publicación de artículos en revistas indizadas.
- Costo de inscripción para participar en eventos o para discutir los resultados con personal interesado o calificado.
- Actividades complementarias de la investigación:
- Gastos de importación y desaduanaje de materiales, insumos o equipos relacionados al proyecto de investigación que se adquieran en el extranjero.
- Gastos relacionados a la obtención del título o grado.
- Gastos relacionados a la solicitud de patentes.
- Gastos de mantenimiento correctivo para los equipos adquiridos u otro equipo de laboratorio que deba usarse en el proyecto.
- Gastos de gestión (hasta 10% del monto financiado)
Corresponde al incentivo monetario para el coordinador administrativo, útiles de oficina y servicios de imprenta.
N.° Contrato 183-2018-FONDECYT-BM-IADT-MU N.° Propuesta 59657 Entidad Aporte no monetario (valorizado) Aporte monetario Aporte total S/ S/ S/ Pontificia Universidad Católica del Perú 115,100.00 0.00 115,100.00 Universidad Católica Sedes Sapientiae 20,250.00 0.00 20,250.00 FONDECYT 0.0 349,888.50 349,888.50 Aporte total 135,350.00 349,888.50 485,238.50