Objetivo
textflow Este proyecto pretende el desarrollo de una plataforma para el análisis de textos, preferentemente para el español.
Niveles de integración (techtiers)
- Biblioteca
- Scripts para uso desde terminal
- API REST
- Componentes front-end no-code (podemos usar Streamlit)
- SaaS
Módulos
- Análisis de estructura: volumetría y tipos de datos (estructura de datos numéricos y no numéricos...)
- Análisis de calidad: duplicados, valores perdidos, outliers, información errónea o mal formateada, idioma inadecuado, longitud insuficiente...
- Análisis de contenido:
- A nivel de token: valores más frecuentes,
- A nivel de oración
- A nivel de texto
- A nivel de subgrupo (por categoría o clases)
- Análisis de contraste:
- Comparación entre subgrupos
- Características salientes
Características
Las secuencias se identifican con:
- Nivel
- Esquema
Toda colección pasa por un segmentador donde, para el flujo global, segmenta en niveles jerárquicos y asigna etiquetas a cada segmento. Por ejemplo, un segmentador simple genera, a partir de una colección, segmentos que son documentos y cuya etiqueta es el ID del documento. Otro segmentador puede actuar a nivel de documento y segmentar por párrafos, sin indicar etiqueta a esos segmentos (tendría un ID de posición y ya está) o por secciones en un artículo científico, y la etiqueta sería el título de la sección, etc.
- A nivel de token
- Etiquetado:
- NER
- POS_content
- POS_no_content
- POS_punkt
- Token especial (hashtag, URL, emoticonos y emojis gráficos o tradicionales)
- + cualquier otro (a partir de un lexicón u otro sistema)
- N-gramas de caracteres
- Longitud
- Lema
- Etiquetado:
- A niveles superiores
- Longitud
- Perplejidad
- Complejidad
- Codificación
- Estilometría
- N-gramas (palabras, lemas, n-gramas) y etiquetas (las etiquetas pueden verse como una nueva secuencia)
- Skip-grams de palabras
- Longitud de elementos en niveles inferiores (se puede elegir tipo de secuencia)
- Agregado sobre uno de cualquiera de los niveles inferiores o sobre nivel+etiqueta:
- Longitud: max, min, avg, mode, std
- Frecuencias de cada posible elemento inferior (según secuencia): n-gramas de palabras, de caracteres, skipgrams, POS_content, etc.
- Frecuencias inversas a un nivel inferior (ejem: nivel de documento), para ese nivel, de cada posible elemento inferior (según secuencia): palabras, n-gramas de palabras, de caracteres, skipgrams, POS_content, etc.
- Semántica:
- Análisis de emociones
- Análisis de sentimientos