Skip to content
  • P
    Projects
  • G
    Groups
  • S
    Snippets
  • Help

Jaime Collado / textflow

  • This project
    • Loading...
  • Sign in
Go to a project
  • Project
  • Repository
  • Issues 1
  • Merge Requests 0
  • Pipelines
  • Wiki
  • Snippets
  • Settings
  • Activity
  • Graph
  • Charts
  • Create a new issue
  • Jobs
  • Commits
  • Issue Boards
Home

Home

Last edited by Jaime Collado Apr 01, 2022
Page history

Objetivo

textflow Este proyecto pretende el desarrollo de una plataforma para el análisis de textos, preferentemente para el español.

Niveles de integración (techtiers)

  1. Biblioteca
  2. Scripts para uso desde terminal
  3. API REST
  4. Componentes front-end no-code (podemos usar Streamlit)
  5. SaaS

Módulos

  • Análisis de estructura: volumetría y tipos de datos (estructura de datos numéricos y no numéricos...)
  • Análisis de calidad: duplicados, valores perdidos, outliers, información errónea o mal formateada, idioma inadecuado, longitud insuficiente...
  • Análisis de contenido:
    • A nivel de token: valores más frecuentes,
    • A nivel de oración
    • A nivel de texto
    • A nivel de subgrupo (por categoría o clases)
  • Análisis de contraste:
    • Comparación entre subgrupos
    • Características salientes

Características

Las secuencias se identifican con:

  • Nivel
  • Esquema

Toda colección pasa por un segmentador donde, para el flujo global, segmenta en niveles jerárquicos y asigna etiquetas a cada segmento. Por ejemplo, un segmentador simple genera, a partir de una colección, segmentos que son documentos y cuya etiqueta es el ID del documento. Otro segmentador puede actuar a nivel de documento y segmentar por párrafos, sin indicar etiqueta a esos segmentos (tendría un ID de posición y ya está) o por secciones en un artículo científico, y la etiqueta sería el título de la sección, etc.

  • A nivel de token
    • Etiquetado:
      • NER
      • POS_content
      • POS_no_content
      • POS_punkt
      • Token especial (hashtag, URL, emoticonos y emojis gráficos o tradicionales)
      • + cualquier otro (a partir de un lexicón u otro sistema)
    • N-gramas de caracteres
    • Longitud
    • Lema
  • A niveles superiores
    • Longitud
    • Perplejidad
    • Complejidad
    • Codificación
    • Estilometría
    • N-gramas (palabras, lemas, n-gramas) y etiquetas (las etiquetas pueden verse como una nueva secuencia)
    • Skip-grams de palabras
    • Longitud de elementos en niveles inferiores (se puede elegir tipo de secuencia)
    • Agregado sobre uno de cualquiera de los niveles inferiores o sobre nivel+etiqueta:
      • Longitud: max, min, avg, mode, std
    • Frecuencias de cada posible elemento inferior (según secuencia): n-gramas de palabras, de caracteres, skipgrams, POS_content, etc.
    • Frecuencias inversas a un nivel inferior (ejem: nivel de documento), para ese nivel, de cada posible elemento inferior (según secuencia): palabras, n-gramas de palabras, de caracteres, skipgrams, POS_content, etc.
    • Semántica:
      • Análisis de emociones
      • Análisis de sentimientos

Referencias

  • https://medium.com/epfl-extension-school/advanced-exploratory-data-analysis-eda-with-python-536fa83c578a
  Clone repository
  • Home
  • Notas
More Pages
×

New Wiki Page

Tip: You can specify the full path for the new file. We will automatically create any missing directories.