Proyectos Universitarios
Análisis estilométrico para la detección de similitud textual
Gerardo Eugenio Sierra Martínez
Instituto de Ingeniería
Área de las Humanidades y de las Artes

Datos curatoriales

Nombre de la colección

Proyectos Universitarios PAPIIT (PAPIIT)

Responsables de la colección

Ing. César Núñez Hernández; L.I. Ivonne García Vázquez

Colección asociada

@collection_name_full1@

Responsables de la colección asociada

@collection_responsible@

Dependencia

Dirección de Desarrollo Académico, Dirección General de Asuntos del Personal Académico (DGAPA)

Institución

Universidad Nacional Autónoma de México (UNAM)

Identificador único (URN)

DGAPA:PAPIIT:IN400312

Datos del proyecto

Nombre del proyecto

Análisis estilométrico para la detección de similitud textual

Responsables

Gerardo Eugenio Sierra Martínez

Año de convocatoria

2012

Clave del proyecto

IN400312

Dependencia participante

Instituto de Ingeniería

Palabras clave

@keywords@

Área

Área de las Humanidades y de las Artes

Disciplina

Lingüística

Especialidad

Lingüística forense

Modalidad

a) Proyectos de investigación

Síntesis

Una de las áreas de investigación emergentes al interior del Grupo de Ingeniería Lingüística (GIL) es la Lingüística Forense (LF). Dos de las áreas más importantes de la lingüística forense son la detección de plagio y la atribución de autoría. Ambas áreas se relacionan directamente con la detección de similitud, pues para detectar plagio o atribuirle autoría a un texto es necesario compararlo con otros y determinar niveles de semejanza. Algunos ejemplos de casos en los que es necesario detectar similitud textual son la clasificación de textos científicos de acuerdo con su temática o su estilo, la existencia de una sospecha de plagio, la duda que puede tener un profesor acerca de la autoría de algún trabajo escolar o de identificar a un autor de entre varios posibles para encontrar al responsable de un texto sospechoso. Ahora bien, dada la gran cantidad de información textual en Internet y la alta frecuencia con la que se realizan copias ilegales de esta información, resulta necesario desarrollar métodos y herramientas computacionales que busquen, detecten y midan automáticamente similitud en repositorios textuales._x000D_ Si bien algunos de los métodos que se explorarán son independientes del lenguaje, el proyecto se enfocará a la detección de similitud textual en documentos en español. En particular, se investigará sobre los marcadores estilísticos para realizar búsqueda, comparación y medición de similitud textual. Asimismo, se plantea realizar investigación lingüística enfocada a obtener una clasificación de marcadores de estilo en la que se proponga, por un lado, una lista de marcadores estilísticos inherentes a todos los textos y, por otro, grupos de marcadores estilísticos dependientes de cuestiones determinadas como pueden ser: el género textual, el formato, el idioma, etc.

Contribución

Dentro de la lingüística forense, las áreas pertenecientes a la llamada estilística forense, como son la atribución de autoría y la detección de plagio, se han visto ampliamente beneficiadas por los avances en ingeniería lingüística y en lingüística computacional. Esto se debe a que tareas sumamente complejas se han agilizado con el desarrollo de sistemas computacionales especializados en diversas áreas. Es de suma importancia para la lingüística forense que sus métodos de análisis y sus resultados estén basados en el uso de métodos estadísticos objetivos y ya no de opiniones personales y subjetivas._x000D_ En este sentido, la estilometría permite la clasificación textual y la medición de similitud no solo en un nivel más profundo que el meramente textual, sino que ofrecen resultados confiables y exactos numéricamente hablando. La propuesta de este proyecto será capaz de detectar similitud en textos con alto grado de exactitud, detección que puede ser utilizada para fines forenses. Esto contribuirá con artículos científicos en el área de PLN, lingüística y lingüística forense. Toda esta producción se presentará en congresos nacionales e internacionales._x000D_ Asimismo, el proyecto contribuirá en la formación de alumnos desde licenciatura hasta posdoctorado, tanto en ingeniería como en lingüística y en derecho.

Información general

Cómo citar esta página

Dirección de Desarrollo Académico, Dirección General de Asuntos del Personal Académico (DGAPA). %%Análisis estilométrico para la detección de similitud textual%%, Proyectos Universitarios PAPIIT (PAPIIT). En %%Portal de datos abiertos UNAM%% (en línea), México, Universidad Nacional Autónoma de México.
Disponible en: http://datosabiertos.unam.mx/DGAPA:PAPIIT:IN400312
Fecha de actualización: 2017-03-13 00:00:00.0
Fecha de consulta:

Políticas de uso de los datos

@publication_policy@

Contacto de la colección

Para más información sobre los Proyectos PAPIIT, favor de escribir a: Dra. Claudia Cristina Mendoza Rosales, directora de Desarrollo Académico (DGAPA). Correo: ccmendoza #para# dgapa.unam.mx



* Descripción:



Correo electrónico: