- Resumen
- Planteamiento del problema
- Justificación de la investigación
- Propuesta
- Instituciones involucradas
- Equipo de investigación
- Resultados esperados
- Financiamiento
-
Análisis de datos masivos en redes sociales para detección de tendencias estratégicas en asuntos relacionados a política y salud
Registro: N.° 034 propuesta_59870
Investigación aplicadaResumen
Los avances recientes de la Inteligencia Artificial (IA) han tenido impacto significativo en diversas industrias como la retail, defensa, manufactura, finanzas y advertising. Por otro lado, el impacto de la IA ha sido menor en cuestiones fundamentales que nuestra sociedad enfrenta hoy, tales como la educación, salud pública, desarrollo económico, seguridad pública y justicia. En ese sentido, este proyecto de investigación propone la aplicación de técnicas de Data science/Machine learning para realizar un análisis masivo de información, principalmente de redes sociales, en temáticas relacionadas a política y salud. A partir de este trabajo pretendemos ofrecer un conjunto de herramientas que tengan impacto en la toma de decisiones y que sirvan como fuente de análisis de la realidad nacional.
-
Análisis de datos masivos en redes sociales para detección de tendencias estratégicas en asuntos relacionados a política y salud
Registro: N.° 034 propuesta_59870
Investigación aplicadaPlanteamiento del problema
Actualmente, se generan enormes cantidades de datos sobre diversos temas de la realidad nacional, principalmente en redes sociales. Debido a la frecuencia y volumen con que estos datos son generados, resulta casi imposible extraer información sobre opiniones o tendencias de forma manual. El surgimiento de la tecnología computacional, principalmente basada en Inteligencia Artificial, nos ofrece una oportunidad para tratar estos datos y generar información, primordialmente sobre tópicos que reflejen temas de interés nacional.
En ese sentido, no existe en el Perú una plataforma que nos brinde información de tendencias sobre temas relevantes a nivel político y de salud. Las opiniones y comentarios de la gente sobre nuestra actualidad, en términos de política y salud, se encuentran dispersas en diversas fuentes existentes (redes sociales, blogs, websites). Asimismo, el tipo de dato generado es texto, no estructurado y con información mayormente cualitativa. También se generan datos sobre las interacciones de las personas, principalmente en las redes sociales, los cuales reflejan comportamientos y actitudes que son imposibles de mapear por medios tradicionales, debido, otra vez, al volumen con que se generan.
De esta forma, es difícil tener una noción de lo que es importante y relevante para la población en términos de política y salud. Pues si bien se tiene una percepción inicial de que ambos temas son importantes y generan interés en la mayoría de personas, no podemos identificar con exactitud las principales inquietudes y problemáticas, dado que no tenemos herramientas que respalden este análisis.
En términos científicos, se plantea el uso de algoritmos de Inteligencia Artificial para realizar este análisis automatizado. Al respecto, aunque hubo propuestas similares de realización, la mayor parte de investigaciones ha enfocado otras realidades, teniendo textos y redes en el idioma inglés como fuentes de análisis. El problema principal, consiste en determinar los mejores algoritmos que permitan realizar el análisis automatizado, sobre los tópicos de política y salud, en idioma español. Esto implica obtener resultados comparables con el estado del arte en las diversas tareas de clasificación automática que serán llevadas a cabo.
-
Análisis de datos masivos en redes sociales para detección de tendencias estratégicas en asuntos relacionados a política y salud
Registro: N.° 034 propuesta_59870
Investigación aplicadaJustificación de la investigación
En los últimos años ha surgido un área en la Inteligencia Artificial denominada Artificial Intelligence for social good, cuya principal preocupación es generar un impacto positivo en la sociedad a través de la aplicación de tecnología basada en algoritmos. En este proyecto seguimos ese enfoque; en particular, consideramos la aplicación de algoritmos de Inteligencia Artificial en temáticas que son relevantes en la realidad nacional como la política y la salud.
Desde el punto de vista científico, hay una serie de desafíos a enfrentar. Una de las primeras contribuciones que esperamos lograr es determinar un proceso a través del cual se puedan extraer datos de diversas fuentes, principalmente de redes sociales, de manera continua y escalable. Esto implica, en la definición de una arquitectura distribuida y paralela, que se permita la extracción de datos lo más cercanos a la realidad. Adicionalmente, se tiene el desafío científico de identificar de forma automatizada datos relacionados con política y salud, considerando que en redes sociales se tiene una enorme cantidad de tópicos disponibles.
Por otro lado, una vez conseguido los datos, existe el desafío científico de desarrollar algoritmos que nos permitan analizarlos, considerando que los datos obtenidos serán en su mayoría textos no estructurados. Aunque muchas propuestas han sido realizadas en el área de procesamiento de lenguaje natural, tales como sentiment analysis, question answering y machine translation, la mayor parte han sido propuestas para el idioma inglés, lo que ha resultado en que la mayor parte de algoritmos desarrollados para este idioma no hayan tenido el mismo desempeño en el idioma español. El desafío científico, en esta etapa, es desarrollar algoritmos para el análisis automatizado de texto que sean comparables con el estado del arte para el español.
Otra contribución significativa de este proyecto es la aplicación de un análisis complementario usando social network analysis. Al estudiar la dinámica de las interacciones entre personas será posible determinar tendencias de comportamiento actuales y, con ello, realizar un análisis predictivo de grupos. El desafío principal es adaptar este framework en el contexto de una realidad particular como la peruana, en las temáticas de política y salud, y en el idioma español.
Desde el punto de vista práctico, se tendrá una plataforma que servirá como barómetro de la sociedad en términos de política y salud. En términos de política, por ejemplo, permitirá mostrar perfiles de votación, principales influenciadores, tópicos de las propuestas principales, relaciones de causalidad entre regiones y predicción de votos. En términos de salud, por ejemplo, se podrá analizar la percepción general de las problemáticas de salud de la población, sus principales frustraciones y quejas.
En general, se espera tener un impacto en cómo las personas y los grupos de interés abordan la política y la salud como forma de expresión de la población en redes sociales. Al realizar esto de forma escalable se espera tener un espectro amplio de análisis que pueda contribuir en cómo ciertas políticas o acciones contribuyen o no al bienestar general.
-
Análisis de datos masivos en redes sociales para detección de tendencias estratégicas en asuntos relacionados a política y salud
Registro: N.° 034 propuesta_59870
Investigación aplicadaPropuesta
Modalidad de Proyecto: Proyecto de investigación semilla
Son propuestas donde el grupo de investigación desea iniciar o fortalecer el estudio. Está dirigido a regiones (a excepción de Lima Metropolitana y el Callao) y se busca fomentar la investigación y participación de nuevos investigadores.
- Un investigador principal
- Un tesista de pregrado o posgrado
- Un coordinador administrativo
Tipo de proyecto: Investigación aplicada
Subsector: Telecomunicaciones
Sector: General
Lugar de ejecución del proyecto: Arequipa
Fecha de inicio: 03/12/2018
Fecha de cierre: 03/04/2020
Plazo de ejecución (meses): 16
Objetivo Principal
Extraer datos masivos en redes sociales y, utilizando algoritmos de Inteligencia Artificial (Sentiment analysis, Named entity recognition y Social network analysis), realizar un análisis automatizado de opiniones, tendencias, visual y predictivo que servirá como barómetro de la sociedad en términos de política y salud.
Objetivo específico 1
Determinar el proceso que permita la extracción de datos sobre política y salud, de forma distribuida y paralela a partir de redes sociales, blogs y websites de noticias
Objetivo específico 2
Desarrollar algoritmos de procesamiento de lenguaje natural (Sentiment analysis y Named entity recognition), para analizar texto en español sobre política y salud en social media.
Objetivo específico 3
Desarrollar algoritmos de social network analysis para la identificación de tendencias en política y salud.
Objetivo específico 4
Desarrollar una plataforma web, para consultar y visualizar información sobre las temáticas de política y salud.
-
Análisis de datos masivos en redes sociales para detección de tendencias estratégicas en asuntos relacionados a política y salud
Registro: N.° 034 propuesta_59870
Investigación aplicadaInstituciones involucradas
Institución responsable del proyecto
Universidad Católica San Pablo
RUC: 20327998413
Tipo de Entidad: Universidades que se encuentren licenciadas o en proceso de licenciamiento por la SUNEDU
Régimen: Privado
Tipo de organización: Sin fines de lucro
Departamento: Arequipa
Provincia: Arequipa
Distrito: Arequipa
Dependencia: Departamento de Ciencia de la Computación
Institución asociada
Universidad de Buenos Aires
RUC: –
Tipo de Entidad: Universidades extranjeras
Régimen: Público
País: Argentina
Ciudad: Buenos Aires
-
Análisis de datos masivos en redes sociales para detección de tendencias estratégicas en asuntos relacionados a política y salud
Registro: N.° 034 propuesta_59870
Investigación aplicadaEquipo de investigación
Investigador Principal
Nombres JOSE EDUARDO
Apellido paterno: OCHOA
Apellido materno: LUNA
Grado académico: Doctorado
Nombre del grado académico –
Entidad Universidad Católica San Pablo
Dependencia Departamento de Ciencia de la Computación
Coinvestigadores
Nombres ALEX JESUS
Apellido paterno: CUADROS
Apellido materno: VARGAS
Grado académico: Doctorado
Entidad Universidad Católica San Pablo
Dependencia Departamento de Ciencia de la Computación
Nombres Viviana
Apellido paterno: Cotik
Apellido materno: Landau
Grado académico: Doctor
Entidad: Universidad de Buenos Aires
Dependencia: Departamento de Computación – Facultad de Ciencias Exactas y Naturales
Tesistas
Nombres: Tesista no identificado 4
Apellido paterno: –
Apellido materno: –
Tipo de tesis: Maestría
Entidad: Universidad Católica San Pablo
Nombres: Tesista no identificado 2
Apellido paterno: –
Apellido materno: –
Tipo de tesis: Título profesional
Entidad: Universidad Católica San Pablo
Nombres: Tesista no identificado 4
Apellido paterno: –
Apellido materno: –
Tipo de tesis: Título profesional
Entidad: Universidad Católica San Pablo
Coordinador administrativo
Nombres: Carlos Alberto
Apellido paterno: Bagazo
Apellido materno: Rosan
Entidad: Universidad Católica San Pablo
-
Análisis de datos masivos en redes sociales para detección de tendencias estratégicas en asuntos relacionados a política y salud
Registro: N.° 034 propuesta_59870
Investigación aplicadaResultados esperados
Meta Indicador de propósito 1 Nuevo conocimiento, producto o proceso de base científica y tecnológica, cuya aplicación contribuya a resolver problemas o aprovechar oportunidades relevantes para un sector priorizado. 2 Artículos científicos presentados o aceptados para publicación en revistas indizadas. 2 Tesis de pregrado que conlleven a la obtención de títulos o grados académicos en universidades peruanas. 1 Tesis de posgrado que conlleven a la obtención de títulos o grados académicos en universidades peruanas. 1 Evento de difusión que congregue a potenciales interesados en los resultados externos a las entidades participantes del proyecto. 0 Plan de implementación de los resultados de la investigación aplicada o paquete tecnológico. 0 Solicitudes de patentes de invención o modelos de utilidad (opcional). 1 Ponencias en congresos de alcance nacional y/o internacional (opcional). 1 Prototipos (opcional). -
Análisis de datos masivos en redes sociales para detección de tendencias estratégicas en asuntos relacionados a política y salud
Registro: N.° 034 propuesta_59870
Investigación aplicadaFinanciamiento
Rubros financiables
- Recursos humanos (hasta 50% del monto financiado)
- Incentivo monetario para el investigador principal y coinvestigadores: no debe sobrepasar el máximo de S/ 2,000 mensuales por investigador.
- Pago a los tesistas: no debe sobrepasar el máximo de S/ 1,500 mensuales por tesista.
- Pago al personal técnico o asistente de investigación: no debe sobrepasar el máximo de S/ 1,000 mensuales por técnico.
- Honorarios o incentivos para un gestor tecnológico: no debe de sobrepasar el máximo de S/. 1,500 mensuales.
- Equipos y bienes duraderos (hasta 20% del monto financiado)
Corresponde a la adquisición de equipos menores para el proyecto de investigación.
- Materiales e insumos
- Materiales, insumos, reactivos, accesorios, componentes electrónicos o mecánicos, bienes no inventariables.
- Material bibliográfico, tales como manuales, bases de datos, libros especializados, otros, y/o suscripciones a redes de información (en físico o electrónico).
- Software especializado para el desarrollo de los proyectos de investigación.
- Viajes
Corresponde a los gastos de viajes relacionados a actividades propias del proyecto de investigación.
Los gastos que aplican para este rubro son los siguientes:
- Pasajes: terrestres, aéreos, nacionales e internacionales, en clase económica.
- Viáticos: comprenden los gastos por concepto de alimentación, hospedaje y movilidad (hacia y desde el lugar de embarque), así como el desplazamiento en el lugar donde se realizan las actividades. El concepto de viáticos es aplicable para estancias cuya duración sea menor a los quince (15) días calendario, considerando los topes máximos diarios detallados en el Anexo 2.
- Manutención: comprenden los gastos de alojamiento, alimentación y movilidad local durante su permanencia en el lugar sede del objeto del beneficio otorgado, o desplazamientos relacionados con el mismo. El concepto de manutención es aplicable siempre que se trate de una estancia cuya duración sea mayor o igual a quince (15) días calendario, considerando los topes máximos diarios detallados en la convocatoria.
- Seguro de viaje: el seguro es de carácter obligatorio y su valor debe estar de acuerdo al precio de mercado. La cobertura típicamente incluye gastos médicos de emergencia, muerte accidental, invalidez e imprevistos logísticos durante el viaje (retraso de vuelos, demora o pérdida de equipaje, robos, etc.). El precio del seguro puede variar en función a la edad, duración del viaje y el destino. Se puede financiar hasta un máximo de S/ 2,000.
- Servicios de no consultoría.
Corresponde a los gastos de contratación de personas naturales o jurídicas para la ejecución de actividades de índole técnica especializada, consideradas como críticas para lograr el buen resultado del proyecto de investigación: servicios de laboratorio, colección de datos, procesamiento de muestras, análisis y diseño.
- Otros servicios
Corresponde a los gastos de contratación de personas naturales o jurídicas para la ejecución de actividades complementarias del proyecto de investigación, tales como:
- Actividades de difusión:
- Gastos de organización de taller de cierre del proyecto.
- Costo de publicación de artículos en revistas indizadas.
- Costo de inscripción para participar en eventos o para discutir los resultados con personal interesado o calificado.
- Actividades complementarias de la investigación:
- Gastos de importación y desaduanaje de materiales, insumos o equipos relacionados al proyecto de investigación que se adquieran en el extranjero.
- Gastos relacionados a la obtención del título o grado.
- Gastos relacionados a la solicitud de patentes.
- Gastos de mantenimiento correctivo para los equipos adquiridos u otro equipo de laboratorio que deba usarse en el proyecto.
- Gastos de gestión (hasta 10% del monto financiado)
Corresponde al incentivo monetario para el coordinador administrativo, útiles de oficina y servicios de imprenta.
N.° Contrato 034-2018-FONDECYT-BM-IADT-SE N.° Propuesta 59870 Entidad Aporte no monetario (valorizado) Aporte monetario Aporte total S/. S/. S/. Universidad Católica San Pablo 28,800.00 5,000.00 33,800.00 Universidad De Buenos Aires 1,000.00 0.00 1,000.00 FONDECYT 0.0 100,000.00 100,000.00 Aporte total 29,800.00 105,000.00 134,800.00