19 May, 2022 Revista Digital sobre Patentes, Marcas y Propiedad Intelectual

Lingüística computacional: ¿qué se dice en redes sociales?

Por Tomás Dávalos

Aguascalientes, Aguascalientes.(Agencia Informativa Conacyt).- Científicos mexicanos han elaborado un modelo de categorización de texto utilizando técnicas de vanguardia de aprendizaje computacional y procesamiento de lenguaje natural. Estos algoritmos desarrollados permiten clasificar la polaridad de un mensaje, así como determinar la edad, género y región a partir de la que escriben los usuarios de redes sociales. Con estos métodos, han participado en diversos concursos internacionales, obteniendo lugares destacados.

En este proyecto participan investigadores del Centro de Investigación e Innovación en Tecnologías de la Información y Comunicación (Infotec) y del Centro de Investigación en Geografía y Geomática (Centrogeo), quienes han desarrollado tres algoritmos para clasificación de texto: B4MSA, un clasificador de sentimientos multilenguaje; MicroTC, un método de categorización de texto; y EvoDAG, que basado en cómputo evolutivo funciona como integrador.

Daniela Moctezuma Ochoa, Eric Sadit Téllez Ávila, Mario Graff Guerrero y Sabino Miranda Jiménez, todos ellos adscritos al programa Cátedras Conacyt, forman parte de un equipo de investigación que estudia la aplicación de herramientas de aprendizaje computacional para procesamiento de lenguaje en grandes cantidades de datos, proceso que consta de modelado de texto y espacio vectorial, así como clasificación automática.

Modelado de texto

Al respecto, Eric Téllez comentó en entrevista para la Agencia Informativa Conacyt: “Lo primero que quisimos intentar fue el proceso tradicional: primero normalizar el texto, luego dividir los textos en palabras y puntuaciones, para después crear un modelo matemático para los clasificadores tradicionales. Sin embargo, el esquema típico tenía muchas deficiencias, ya que en redes sociales como Twitter, muchas personas introducen variantes de palabras, ya sea de manera intencionada como pueden ser los hashtags, o por errores, ya sea gramaticales u ortográficos”.

Sabino Miranda Jimenez Mario Graff Guerrero Daniela Moctezuma Ochoa y Eric Sadit Tellez Avila 1Sabino Miranda Jiménez Mario Graff Guerrero Daniela Moctezuma Ochoa y Eric Sadit Téllez Ávila.Dado que la cantidad de errores en el texto es muy grande, las herramientas tradicionales no funcionan tan bien como deberían, esto es, en mayor medida, porque el enfoque tradicional supone que el texto se escribe de manera correcta, tanto ortográfica como sintácticamente. Esto no sucede en redes sociales, provocando que los modelos tradicionales tengan baja calidad en la resolución de tareas de clasificación. Por ello, comenzaron a experimentar con diferentes técnicas.

“Empezamos a ver otro tipo de transformaciones, le intentamos por simplicidad y cantidad de transformaciones, pero también por multiplicar el número de tokenizadores, esto es, en el cómo se divide un texto para poderlo analizar. Normalmente lo haces por palabras o pares de palabras, pero ahora fuimos un poco más allá, que es por subcadenas”, señaló.

Por su parte, Sabino Miranda detalló que al igual que el número de maneras de combinar las posibles subcadenas formadas a partir del texto, también se incrementa la robustez de los métodos. En este punto, ya no se consideran palabras a esas partes del texto, sino tokens o secuencia de caracteres de diferentes tamaños, también denominados q-gramas.

“Lo que haces normalmente después de la segmentación del texto es tratar de ver si lo que vas a comparar, q-gramas, se empareja con lo que ya conoces, es decir, otros q-gramas extraídos de textos definidos y etiquetados previamente como base de conocimiento. Los tokens (q-gramas), a diferencia de las palabras, permiten un margen de error, porque si escribes mal un carácter, las secuencias formadas pueden omitir el uso de ese carácter durante el proceso de segmentación, en contraste con una palabra mal escrita, entonces, el error en el texto se puede ir desvaneciendo y, en cierto sentido, se vuelve más robusto a los errores”, precisó.

Adicionalmente, el modelo es altamente paramétrico, por lo que las posibles configuraciones se cuentan en millones. Para ser práctico, el problema se plantea como un problema de optimización combinatoria, donde en poco tiempo se encuentra una solución competitiva a un problema que podría tomar años de cómputo para ser resuelto.

Todo esto diseñado para que la técnica general sea independiente del lenguaje, ya que no depende de un vocabulario predefinido ni tampoco de una manera de escribir. En la práctica, ha sido probado en varios lenguajes, como el árabe, español e inglés.

Espacio vectorial

Mario Graff sostuvo que el siguiente paso de este modelo de categorización consiste en transformar los símbolos en un espacio vectorial, así, una secuencia de números se asocia a una frase. De esta manera, el algoritmo puede utilizarse para distintas tareas —polaridad del mensaje o perfil de usuarios—, pues tiene la capacidad de autoconfigurarse para la asignación que se le brinde.

ling head 82117“Utilizas un algoritmo de aprendizaje de máquina que aprende estos patrones y cuando le presentas un nuevo ejemplo te sabe decir a qué clase pertenece ese nuevo ejemplo. Todo este procedimiento hace que sea sencillo pasar de un idioma a otro, porque todas las competencias te dan un corpus inicial de entrenamiento, entonces te dan tuits etiquetados en el idioma, y entonces a partir de ahí aprende al algoritmo”, apuntó.

Con relación a los concursos, Daniela Moctezuma refirió que conforme definieron los algoritmos B4MSA, MicroTC y EvoDAG, comenzaron a inscribirse en competencias donde podrían aplicar su desarrollo en diferentes idiomas, como el árabe, español, inglés, italiano y portugués.

Comentó que ya han publicado varios artículos científicos; sin embargo, una competencia es más compleja, ya que hay un tercero que pone las reglas y todos deben acatarlas, además de que les permite medirse en igualdad de condiciones con científicos que están trabajando en tareas de lingüística computacional en distintas partes del mundo.

“Las competencias nos han ayudado un poco a ver la robustez de nuestro trabajo en diferentes tareas, no solo en polaridad sino también en perfilado de usuarios, esto es, saber el género de la persona que escribe, de qué lenguaje es y de qué lugar —español de España, de México, de Argentina, etcétera—. Sirve para mejorar, añadir otras técnicas de procesamiento, de clasificación, y es así como hemos estado participando en las competencias”, especificó.

image icon01

Comparte tu opinión sobre este artículo

Comentarios

Related Posts

GeoRes: CICESE en AppStore

29 diciembre, 2016

29 diciembre, 2016

CENTRO DE INVESTIGACIÓN CIENTÍFICA Y DE EDUCACIÓN SUPERIOR DE ENSENADA, BAJA CALIFORNIA Boletín informativo No. 78/2016 Desarrollan aplicación para determinar...

El arma de Huawei que usará contra Trump: 56 mil patentes

19 junio, 2019

19 junio, 2019

Huawei no piensa quedarse atrás y también ha dado muestra del "arsenal" que tiene para luchar contra el gobierno de Donald Trump

¡Mueve los músculos y salva tus neuronas!

4 junio, 2017

4 junio, 2017

Por Karla Navarro Ensenada, Baja California.  (Agencia Informativa Conacyt).- ¿Puede un protocolo de ejercicios estimular la comunicación del cerebro con...

Participa en el III Concurso Estatal de Aparatos y Experimentos de Física 2017 de Coahuila

11 junio, 2017

11 junio, 2017

Por Felipe Sánchez Banda Saltillo, Coahuila.  (Agencia Informativa Conacyt).- En el marco de su 30 aniversario, la Facultad de Ciencias...

Universitarios crean híbrido de chayote contra el cáncer

26 julio, 2018

26 julio, 2018

El extracto crudo es agente antitumoral que no daña las células normales Tras 10 años de investigación, académicos de la...

Una de cada 10 mexicanas embarazadas desarrolla diabetes gestaciona

24 enero, 2017

24 enero, 2017

Por ley, toda mujer gestante debe realizarse, entre la semana 24 y 28 del embarazo, el estudio de tolerancia a...

Con dispositivo del IPN encenderás tu automóvil a través de la voz

10 enero, 2019

10 enero, 2019

FUENTE: Asociación Nacional de Universidades e Instituciones de Educación Superior, ANUIES, www.anuies.mx Esta tecnología reprograma el vehículo para arranque con...

Desde Australia, científico mexicano desarrolla software para preservar diversidad genética

2 diciembre, 2016

2 diciembre, 2016

Con su uso se logró recuperar y resguardar tres especies de agua dulce endémicas de la región australiana Con el...

Convoca la SEMARNAT a participar en el Premio al Mérito Ecológico 2017

16 abril, 2017

16 abril, 2017

SECRETARÍA DE MEDIO AMBIENTE Y RECURSOS NATURALES Coordinación General de Comunicación Social Comunicado de Prensa Núm. 34/17 Ciudad de México,...

Desarrollan inhibidores de corrosión a partir de líquidos iónicos

24 agosto, 2016

24 agosto, 2016

AUTOR: Armando Bonilla FUENTE: AGENCIA INFORMATIVA CONACYT Por Armando Bonilla Ciudad de México.  (Agencia Informativa Conacyt).- Si bien las tendencias apuntan...

Diseñan planta potabilizadora de agua para comunidades rurales en Tabasco

22 junio, 2016

22 junio, 2016

AUTOR: Janet Cacelín   FUENTE: CONACYT, AGENCIA INFORMATIVA CONACYTç Ciudad de México.  (Agencia Informativa Conacyt).- Al pensar en la problemática de la...

Mieloma Múltiple, el cáncer “invisible” de los mexicanos para las autoridades del país

24 octubre, 2018

24 octubre, 2018

Se estima que anualmente se presentan mil 200 casos nuevos, entre ellos mexicanos en edad productiva. Su atención es viable,...

Un nuevo modelo de vinculación en la industria de semiconductores

9 enero, 2017

9 enero, 2017

Ensenada, Baja California.  (Agencia Informativa Conacyt).-Un novedoso modelo de colaboración ha surgido del trabajo conjunto que, en materia de investigación...

Participa mexicano en España en innovador proyecto para tratar aguas residuales urbanas

27 abril, 2017

27 abril, 2017

Actualmente se implementan los llamados “humedales electrogénicos” en distintas zonas geográficas del mundo, entre ellas México El método mejora los...

Logran éxito científicos mexicanos al modificar PET para material de construcción

24 agosto, 2017

24 agosto, 2017

No solo eficientan sus características físicas, si no que con su empleo logran reducir costos de una obra El tereftalato...