Comienzo final preprocesamiento

parent e9d9b5b8
...@@ -42,44 +42,60 @@ def ordenaRegistros(reg, aux): ...@@ -42,44 +42,60 @@ def ordenaRegistros(reg, aux):
# Lee el fichero log # Lee el fichero log
def leerFicheroLog(ruta, espidering, extensionesAdmitidas, extensionesNoAdmitidas): def leerFicheroLog(ruta, espidering, extensionesAdmitidas, extensionesNoAdmitidas):
ret = obtenerRegistros(ruta, extensionesAdmitidas, extensionesNoAdmitidas)
# Compruebo si hay que hacer el e-Spidering
if espidering:
ret = eSpidering(ret)
print("Procesados ", len(ret), "registros")
return ret
# Obtengo los registros
def obtenerRegistros(ruta, extensionesAdmitidas, extensionesNoAdmitidas):
ret = [] ret = []
#Leo el fichero
# Leo el fichero
f = open(ruta, "r") f = open(ruta, "r")
total = 0
for linea in f: for linea in f:
total += 1
try: try:
#Obtengo el dato aux = Dato(linea)
aux=Dato(linea) ret = obtenerDato(ret, extensionesAdmitidas, extensionesNoAdmitidas, aux)
#Compruebo si el dato pertenece a una extension NO admitida finally:
admitir=True continue
f.close()
return ret
# Obtengo el dato de los registros dependiendo de qué extensiones procede
def obtenerDato(ret, extensionesAdmitidas, extensionesNoAdmitidas, aux):
# Compruebo si el dato pertenece a una extension NO admitida
admitir = True
for ext in extensionesNoAdmitidas: for ext in extensionesNoAdmitidas:
if ext in aux.url: if ext in aux.url:
admitir=False admitir = False
#Si no se corresponde con ninguna extension NO admitida, compruebo si hay que filtrar con las admitidas
# Si no se corresponde con ninguna extension NO admitida, compruebo si hay que filtrar con las admitidas
if admitir: if admitir:
if(len(extensionesAdmitidas)==0): if len(extensionesAdmitidas) == 0:
ret.append(aux) ret.append(aux)
else: else:
#Filtro con las admitidas # Filtro con las admitidas
for ext in extensionesAdmitidas: for ext in extensionesAdmitidas:
if ext in aux.url: if ext in aux.url:
ret.append(aux) ret.append(aux)
except:
continue
f.close()
#Compruebo si hay que hacer el e-Spidering
if espidering:
ret=eSpidering(ret)
print("Procesados ",len(ret), "registros")
return ret return ret
#
# Se leen los ficheros con spidering, sin extensiones, el ultimo valor da igual (V o F) si no hay extensiones
registros = leerFicheroLog("../access_log_Aug95_reducido", True, [], [])
#registros = identificacionUsuarios(registros)
informe = ("Host Remoto: {}. Marca de tiempo: {}")
print("Registros:") # Se leen los ficheros con spidering, sin extensiones, el ultimo valor da igual (V o F) si no hay extensiones
for i in registros: # registros = leerFicheroLog("../access_log_Aug95_reducido", True, [], [])
print(informe.format(i.hostRemoto, i.url)) # # registros = identificacionUsuarios(registros)
# informe = ("Host Remoto: {}. Url: {}")
#
# print("Registros:")
# for i in registros:
# print(informe.format(i.hostRemoto, i.url))
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or sign in to comment