Comienzo final preprocesamiento

parent e9d9b5b8
...@@ -42,44 +42,60 @@ def ordenaRegistros(reg, aux): ...@@ -42,44 +42,60 @@ def ordenaRegistros(reg, aux):
# Lee el fichero log # Lee el fichero log
def leerFicheroLog(ruta, espidering, extensionesAdmitidas, extensionesNoAdmitidas): def leerFicheroLog(ruta, espidering, extensionesAdmitidas, extensionesNoAdmitidas):
ret = obtenerRegistros(ruta, extensionesAdmitidas, extensionesNoAdmitidas)
# Compruebo si hay que hacer el e-Spidering
if espidering:
ret = eSpidering(ret)
print("Procesados ", len(ret), "registros")
return ret
# Obtengo los registros
def obtenerRegistros(ruta, extensionesAdmitidas, extensionesNoAdmitidas):
ret = [] ret = []
#Leo el fichero
# Leo el fichero
f = open(ruta, "r") f = open(ruta, "r")
total = 0
for linea in f: for linea in f:
total += 1
try: try:
#Obtengo el dato aux = Dato(linea)
aux=Dato(linea) ret = obtenerDato(ret, extensionesAdmitidas, extensionesNoAdmitidas, aux)
#Compruebo si el dato pertenece a una extension NO admitida finally:
admitir=True
for ext in extensionesNoAdmitidas:
if ext in aux.url:
admitir=False
#Si no se corresponde con ninguna extension NO admitida, compruebo si hay que filtrar con las admitidas
if admitir:
if(len(extensionesAdmitidas)==0):
ret.append(aux)
else:
#Filtro con las admitidas
for ext in extensionesAdmitidas:
if ext in aux.url:
ret.append(aux)
except:
continue continue
f.close() f.close()
#Compruebo si hay que hacer el e-Spidering
if espidering:
ret=eSpidering(ret)
print("Procesados ",len(ret), "registros")
return ret return ret
# Se leen los ficheros con spidering, sin extensiones, el ultimo valor da igual (V o F) si no hay extensiones # Obtengo el dato de los registros dependiendo de qué extensiones procede
registros = leerFicheroLog("../access_log_Aug95_reducido", True, [], []) def obtenerDato(ret, extensionesAdmitidas, extensionesNoAdmitidas, aux):
#registros = identificacionUsuarios(registros) # Compruebo si el dato pertenece a una extension NO admitida
informe = ("Host Remoto: {}. Marca de tiempo: {}") admitir = True
for ext in extensionesNoAdmitidas:
if ext in aux.url:
admitir = False
print("Registros:") # Si no se corresponde con ninguna extension NO admitida, compruebo si hay que filtrar con las admitidas
for i in registros: if admitir:
print(informe.format(i.hostRemoto, i.url)) if len(extensionesAdmitidas) == 0:
ret.append(aux)
else:
# Filtro con las admitidas
for ext in extensionesAdmitidas:
if ext in aux.url:
ret.append(aux)
return ret
#
# Se leen los ficheros con spidering, sin extensiones, el ultimo valor da igual (V o F) si no hay extensiones
# registros = leerFicheroLog("../access_log_Aug95_reducido", True, [], [])
# # registros = identificacionUsuarios(registros)
# informe = ("Host Remoto: {}. Url: {}")
#
# print("Registros:")
# for i in registros:
# print(informe.format(i.hostRemoto, i.url))
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or sign in to comment