Lingüística computacional: ¿qué se dice en redes sociales?

Por Tomás Dávalos

Aguascalientes, Aguascalientes.(Agencia Informativa Conacyt).- Científicos mexicanos han elaborado un modelo de categorización de texto utilizando técnicas de vanguardia de aprendizaje computacional y procesamiento de lenguaje natural. Estos algoritmos desarrollados permiten clasificar la polaridad de un mensaje, así como determinar la edad, género y región a partir de la que escriben los usuarios de redes sociales. Con estos métodos, han participado en diversos concursos internacionales, obteniendo lugares destacados.

En este proyecto participan investigadores del Centro de Investigación e Innovación en Tecnologías de la Información y Comunicación (Infotec) y del Centro de Investigación en Geografía y Geomática (Centrogeo), quienes han desarrollado tres algoritmos para clasificación de texto: B4MSA, un clasificador de sentimientos multilenguaje; MicroTC, un método de categorización de texto; y EvoDAG, que basado en cómputo evolutivo funciona como integrador.

Daniela Moctezuma Ochoa, Eric Sadit Téllez Ávila, Mario Graff Guerrero y Sabino Miranda Jiménez, todos ellos adscritos al programa Cátedras Conacyt, forman parte de un equipo de investigación que estudia la aplicación de herramientas de aprendizaje computacional para procesamiento de lenguaje en grandes cantidades de datos, proceso que consta de modelado de texto y espacio vectorial, así como clasificación automática.

Modelado de texto

Al respecto, Eric Téllez comentó en entrevista para la Agencia Informativa Conacyt: “Lo primero que quisimos intentar fue el proceso tradicional: primero normalizar el texto, luego dividir los textos en palabras y puntuaciones, para después crear un modelo matemático para los clasificadores tradicionales. Sin embargo, el esquema típico tenía muchas deficiencias, ya que en redes sociales como Twitter, muchas personas introducen variantes de palabras, ya sea de manera intencionada como pueden ser los hashtags, o por errores, ya sea gramaticales u ortográficos”.

Sabino Miranda Jimenez Mario Graff Guerrero Daniela Moctezuma Ochoa y Eric Sadit Tellez Avila 1 Sabino Miranda Jiménez Mario Graff Guerrero Daniela Moctezuma Ochoa y Eric Sadit Téllez Ávila.Dado que la cantidad de errores en el texto es muy grande, las herramientas tradicionales no funcionan tan bien como deberían, esto es, en mayor medida, porque el enfoque tradicional supone que el texto se escribe de manera correcta, tanto ortográfica como sintácticamente. Esto no sucede en redes sociales, provocando que los modelos tradicionales tengan baja calidad en la resolución de tareas de clasificación. Por ello, comenzaron a experimentar con diferentes técnicas.

“Empezamos a ver otro tipo de transformaciones, le intentamos por simplicidad y cantidad de transformaciones, pero también por multiplicar el número de tokenizadores, esto es, en el cómo se divide un texto para poderlo analizar. Normalmente lo haces por palabras o pares de palabras, pero ahora fuimos un poco más allá, que es por subcadenas”, señaló.

Por su parte, Sabino Miranda detalló que al igual que el número de maneras de combinar las posibles subcadenas formadas a partir del texto, también se incrementa la robustez de los métodos. En este punto, ya no se consideran palabras a esas partes del texto, sino tokens o secuencia de caracteres de diferentes tamaños, también denominados q-gramas.

“Lo que haces normalmente después de la segmentación del texto es tratar de ver si lo que vas a comparar, q-gramas, se empareja con lo que ya conoces, es decir, otros q-gramas extraídos de textos definidos y etiquetados previamente como base de conocimiento. Los tokens (q-gramas), a diferencia de las palabras, permiten un margen de error, porque si escribes mal un carácter, las secuencias formadas pueden omitir el uso de ese carácter durante el proceso de segmentación, en contraste con una palabra mal escrita, entonces, el error en el texto se puede ir desvaneciendo y, en cierto sentido, se vuelve más robusto a los errores”, precisó.

Adicionalmente, el modelo es altamente paramétrico, por lo que las posibles configuraciones se cuentan en millones. Para ser práctico, el problema se plantea como un problema de optimización combinatoria, donde en poco tiempo se encuentra una solución competitiva a un problema que podría tomar años de cómputo para ser resuelto.

Todo esto diseñado para que la técnica general sea independiente del lenguaje, ya que no depende de un vocabulario predefinido ni tampoco de una manera de escribir. En la práctica, ha sido probado en varios lenguajes, como el árabe, español e inglés.

Espacio vectorial

Mario Graff sostuvo que el siguiente paso de este modelo de categorización consiste en transformar los símbolos en un espacio vectorial, así, una secuencia de números se asocia a una frase. De esta manera, el algoritmo puede utilizarse para distintas tareas —polaridad del mensaje o perfil de usuarios—, pues tiene la capacidad de autoconfigurarse para la asignación que se le brinde.

ling head 82117 “Utilizas un algoritmo de aprendizaje de máquina que aprende estos patrones y cuando le presentas un nuevo ejemplo te sabe decir a qué clase pertenece ese nuevo ejemplo. Todo este procedimiento hace que sea sencillo pasar de un idioma a otro, porque todas las competencias te dan un corpus inicial de entrenamiento, entonces te dan tuits etiquetados en el idioma, y entonces a partir de ahí aprende al algoritmo”, apuntó.

Con relación a los concursos, Daniela Moctezuma refirió que conforme definieron los algoritmos B4MSA, MicroTC y EvoDAG, comenzaron a inscribirse en competencias donde podrían aplicar su desarrollo en diferentes idiomas, como el árabe, español, inglés, italiano y portugués.

Comentó que ya han publicado varios artículos científicos; sin embargo, una competencia es más compleja, ya que hay un tercero que pone las reglas y todos deben acatarlas, además de que les permite medirse en igualdad de condiciones con científicos que están trabajando en tareas de lingüística computacional en distintas partes del mundo.

“Las competencias nos han ayudado un poco a ver la robustez de nuestro trabajo en diferentes tareas, no solo en polaridad sino también en perfilado de usuarios, esto es, saber el género de la persona que escribe, de qué lenguaje es y de qué lugar —español de España, de México, de Argentina, etcétera—. Sirve para mejorar, añadir otras técnicas de procesamiento, de clasificación, y es así como hemos estado participando en las competencias”, especificó.

Comparte tu opinión sobre este artículo

Comentarios

By Mi Patente 10 septiembre, 2017

Etiquetas: B4MSA, Centrogeo, Daniela Moctezuma Ochoa, Eric Sadit Téllez Ávila, INFOTEC, Mario Graff Guerrero, Sabino Miranda Jiménez, Tomás Dávalos in INNOVACIÓN, TECNOLOGÍA

CIENCIA Y CON…CIENCIA, INNOVACIÓN

Conocimiento neurocientífico mexicano fortalecido en Portugal

11 diciembre, 2018 Mi Patente

Por Pablo Miranda Ramírez Guadalajara, Jalisco. (Agencia Informativa Conacyt).- Orientados por su vocación científica, Yazmín Ramiro Cortés y Fatuel Tecuapetla cruzaron...

INNOVACIÓN, TECNOLOGÍA

Transforman residuos vinícolas en productos de alto valor agregado

19 agosto, 2018 Mi Patente

Por Karla Navarro Ensenada, Baja California. 8 (Agencia Informativa Conacyt).- En México, seis mil 474 hectáreas de superficie se destinan...

INNOVACIÓN, PROPIEDAD INTELECTUAL

Nueva tecnología para detección de cáncer cervicouterino

26 junio, 2017 Mi Patente

Por Israel Pérez Valencia Santiago de Querétaro, Querétaro. (Agencia Informativa Conacyt).- Investigadores del Grupo Gestión Inteligente S de RL diseñaron...

INNOVACIÓN, TECNOLOGÍA

¿Cómo se dice tecnología en otomí?

2 septiembre, 2017 Mi Patente

Por Dalia Patiño González Tonantzintla, Puebla. (Agencia Informativa Conacyt).- El gusanito que habla hñähñu (Ñotho razugue) es un juguete interactivo que...

CIENCIA Y CON…CIENCIA, INNOVACIÓN

En busca del gen poliembriónico del maíz

11 septiembre, 2017 Mi Patente

Por Felipe Sánchez Banda Saltillo, Coahuila. (Agencia Informativa Conacyt).– Científicos en el Departamento de Investigación en Alimentos (DIA) de la...

INNOVACIÓN, TECNOLOGÍA

Prueban en México supercomputadora de frontera para tratar el cáncer

17 noviembre, 2016 Mi Patente

Le otorga al especialista una segunda opción de tratamiento de cada uno de los pacientes después de analizar el historial...

Actualidad, Ciencia, INNOVACIÓN, Main Senior, PROPIEDAD INTELECTUAL, TECNOLOGÍA

¡Crean estudiantes plantilla antisecuestro!

21 junio, 2019 Editorial Mi patente

La idea de crear este producto surgió porque los alumnos vivieron la terrible experiencia de un secuestro familiar

CIENCIA Y CON…CIENCIA, INNOVACIÓN

Entomología forense: insectos en la escena del crimen

26 junio, 2016 Mi Patente

AUTOR: Claudia Karina Gómez FUENTE: CONACYT, AGENCIA INFORMATIVA CONACYT Tepic, Nayarit. (Agencia Informativa Conacyt).- La doctora en entomología forense e instructora de Cátedras...

CIENCIA Y CON…CIENCIA, INNOVACIÓN, TECNOLOGÍA

Obtienen mexicanos un producto con 7 veces más calcio que los complementos alimenticios tradicionales

12 abril, 2016 Mi Patente

FUENTE: AGENCIA ID Especialistas de centro de investigación logran que el mineral de forma iónica puede absorberse por el intestino y...

CIENCIA Y CON…CIENCIA, INNOVACIÓN

Diseñan software para atender reportes ciudadanos

25 octubre, 2016 Mi Patente

Aguascalientes, Aguascalientes. (Agencia Informativa Conacyt).- David Gonzalo Zapata Leal, director de Tecnologías de la Información y Comunicación del Ayuntamiento de Aguascalientes, informó...

INNOVACIÓN, TECNOLOGÍA

Culmina ciclo de detector sinaloense en el LHC; comienza nuevo reto

21 diciembre, 2018 Mi Patente

Por Janneth Aldecoa Culiacán, Sinaloa. (Agencia Informativa Conacyt).- La mañana del 10 de diciembre culminó el ciclo de dos detectores sinaloenses,...

CIENCIA Y CON…CIENCIA, INNOVACIÓN

Otorga publicación especializada en geociencia del petróleo premio a científico mexicano por investigación sobre sísmica 4D

25 septiembre, 2018 Mi Patente

El connacional ha trabajado en proyectos de 24 países y ha publicado 25 artículos para diversos foros y revistas científicas...

CIENCIA Y CON…CIENCIA, INNOVACIÓN, PROPIEDAD INTELECTUAL, TECNOLOGÍA

Innovadora tecnología biológica para tratar pañales desechables

8 marzo, 2016 Mi Patente

AUTOR: Yureli Cacho FUENTE: AGENCIA INFORMATIVA CONACYT Ciudad de México. 3 de marzo de 2016 (Agencia Informativa Conacyt).-Una...

CIENCIA Y CON…CIENCIA, INNOVACIÓN, PROPIEDAD INTELECTUAL, TECNOLOGÍA

Día Mundial de la Libertad de Prensa: las redes sociales, un espejo de la realidad

3 mayo, 2016 Mi Patente

AUTOR: Boletín de prensa FUENTE: AGENCIA INFORMATIVA CONACYT México, DF. (Agencia Informativa Conacyt).- En México, el 76.57 por ciento de las personas...

INNOVACIÓN, PROPIEDAD INTELECTUAL

Investigador construye microscopios de efecto túnel

19 enero, 2017 Mi Patente

Ensenada, Baja California. (Agencia Informativa Conacyt).-Como un trabajo paralelo a sus labores de investigación, el doctor José Valenzuela Benavides, investigador...

Modelado de texto

Espacio vectorial

Comparte tu opinión sobre este artículo

Entradas recientes

Llegaron las gomitas antiestrés, una creación de estudiantes del Tec de Monterrey

Revelan patente de Microsoft de computadora plegable

Buscan protección intelectual de diseños de mujeres indígenas

Alistan empresas patentes de marihuana

Presentan auto que funciona con agua salada, ¿es el fin de la gasolina?

Apuesta Jalisco con organismo a ser puntero en protección a propiedad intelectual

Avanza China en materia de propiedad intelectual; impulsan desarrollo integral

Elaboran alumnas mexicanas un helado para diabéticos

Crean jóvenes leoneses zapatos de sargazo

Apuesta IMPI a modernización para agilizar registro de marcas y patentes

¡Crean estudiantes plantilla antisecuestro!

Adidas y la eterna lucha por sus tres rayas

El arma de Huawei que usará contra Trump: 56 mil patentes

La ciencia no tiene género: en grandes avances científicos han participado mujeres

Ahora Facebook tendrá su criptomoneda llamada Libra

Universidad de Chapingo pone a disposición de agricultores patentes e innovaciones científicas

Descubre UNAM antibiótico para tuberculosis en veneno de alacrán

Nuevo parche dérmico mexicano evitará más amputaciones por pie diabético

Las marcas famosas y el furor del Licenciado Valeriano… ¿pero qué sucedió?

Verizon tendrá que pagar mil millones de dólares a Huawei en patentes

¿Abejas robots serán el futuro para Walmart? ¡Ya las patentó!

Destacan jóvenes de la UNAM en concurso de la NASA

¿Sabes cuánto pasa un mexicano en WhatsApp?

Presenta General Motors ¡llantas que no se ponchan!

UNAM desarrolla proyecto tecnológico para pronóstico del clima

Liberan recursos para científicos y estudiantes; no se restringirán viajes: Conacyt

Crea UNAM prototipo de casa sustentable ¡de 14 metros cuadrados!

Gana Apple patente de pantalla plegable para dispositivos móviles

Presentan 78 mil patentes de inteligencia artificial en 2018

¿Quieres estudiar en el extranjero? Consulta esta convocatoria del Fonca y Conacyt

Por veto, Huawei reduce producción de celulares

Ingresa UNAM a la Federación Internacional de Astronáutica

¿Sabías que hay una máquina que convierte el aire en agua? ¡Conócela!

México, el país con más especies en peligro de extinción: UNAM

Estudiante de la UNAM crea croquetas anticonceptivas para perritos callejeros

Uber desactivará cuentas de conductores con mala calificación

Hay recursos suficientes para becas e investigación: Conacyt

Supera Huawei en patentes 5G a empresas de Estados Unidos

Sorprende caída de meteorito en Uruapan

Alexa de Amazon podría escucharte antes de que le hables

Aumentar patentes en México beneficiaría al PIB

Coordina UNAM proyecto científico de cambio global y sustentabilidad

Trump da tregua de tres meses para el veto a Huawei

Ponen en marcha octavo parque eólico en Tamaulipas

Registra Apple nueva patente para su carro autónomo

Elimina AMLO condonación de impuestos

Jalisco, segundo estado en registro de marcas y patentes

Termina batalla legal de patentes entre Huawei y Samsung

Agiliza IMPI registro de marcas y patentes con notificaciones electrónicas

Supera Inversión Extranjera Directa los 10 mil millones de dólares durante el primer trimestre de 2019

La docencia, una especie de fuente de la juventud: Leonardo Lomelí

Llega Salmerón a la dirección general del CIESAS

Aprovechar la innovación, tarea pendiente en México: William Lee

Desafía China a Estados Unidos con oleada de patentes en tecnología

Refrendan México y Canadá cooperación en ciencia, tecnología e innovación

Dialoga directora de Conacyt con investigadores del programa Cátedras

Fabricante de electrodomésticos construye su primer auto eléctrico

Gran Bretaña pasa una semana sin usar electricidad generada por carbón; esto no ocurría desde hace 137 años

Estrena IMPI ventanilla virtual para agilizar registros de la industria del deporte

Busca Conacyt información para combatir sargazo; empresarios apuestan a la bioindustria para aprovechar el alga

La innovación requiere esfuerzo sostenido y compromiso: UNAM

Revelan patente de audífonos de Samsung con batería intercambiable

UNAM estrena récord de registro de patentes

Descubren astrofísicos ‘cúmulos globulares’; mexicana lidera equipo

Premian mejores patentes de la UNAM

Buscan patente de proceso para obtener biodiésel a partir de aceite de reúso

Logra NASA lanzamiento exitoso de nave con carga para la Estación Espacial

iPhone 11 podría desbloquearse al tocar cualquier parte de la pantalla

Comparte Toyota sus patentes de modelos híbridos

Aluminio defectuoso, causante de pérdidas por 700 millones de dólares a la NASA en lanzamientos fallidos

Energía limpia destrona al carbón en Estados Unidos

Desarrollan patente en la UG para reducir viscosidad del petróleo

Universidad de Guanajuato es octavo lugar en patentes

Se reduce inversión en propiedad intelectual en México

Invertirá gobierno federal 743 millones de pesos para financiar proyectos de ciencia básica

Lanzan Lego en Braille para ayudar a niños con discapacidad visual