Comienzo final preprocesamiento

parent e9d9b5b8
......@@ -42,44 +42,60 @@ def ordenaRegistros(reg, aux):
# Lee el fichero log
def leerFicheroLog(ruta, espidering, extensionesAdmitidas, extensionesNoAdmitidas):
ret = obtenerRegistros(ruta, extensionesAdmitidas, extensionesNoAdmitidas)
# Compruebo si hay que hacer el e-Spidering
if espidering:
ret = eSpidering(ret)
print("Procesados ", len(ret), "registros")
return ret
# Obtengo los registros
def obtenerRegistros(ruta, extensionesAdmitidas, extensionesNoAdmitidas):
ret = []
#Leo el fichero
# Leo el fichero
f = open(ruta, "r")
total = 0
for linea in f:
total += 1
try:
#Obtengo el dato
aux=Dato(linea)
#Compruebo si el dato pertenece a una extension NO admitida
admitir=True
for ext in extensionesNoAdmitidas:
if ext in aux.url:
admitir=False
#Si no se corresponde con ninguna extension NO admitida, compruebo si hay que filtrar con las admitidas
if admitir:
if(len(extensionesAdmitidas)==0):
ret.append(aux)
else:
#Filtro con las admitidas
for ext in extensionesAdmitidas:
if ext in aux.url:
ret.append(aux)
except:
aux = Dato(linea)
ret = obtenerDato(ret, extensionesAdmitidas, extensionesNoAdmitidas, aux)
finally:
continue
f.close()
#Compruebo si hay que hacer el e-Spidering
if espidering:
ret=eSpidering(ret)
print("Procesados ",len(ret), "registros")
return ret
# Se leen los ficheros con spidering, sin extensiones, el ultimo valor da igual (V o F) si no hay extensiones
registros = leerFicheroLog("../access_log_Aug95_reducido", True, [], [])
#registros = identificacionUsuarios(registros)
informe = ("Host Remoto: {}. Marca de tiempo: {}")
# Obtengo el dato de los registros dependiendo de qué extensiones procede
def obtenerDato(ret, extensionesAdmitidas, extensionesNoAdmitidas, aux):
# Compruebo si el dato pertenece a una extension NO admitida
admitir = True
for ext in extensionesNoAdmitidas:
if ext in aux.url:
admitir = False
print("Registros:")
for i in registros:
print(informe.format(i.hostRemoto, i.url))
# Si no se corresponde con ninguna extension NO admitida, compruebo si hay que filtrar con las admitidas
if admitir:
if len(extensionesAdmitidas) == 0:
ret.append(aux)
else:
# Filtro con las admitidas
for ext in extensionesAdmitidas:
if ext in aux.url:
ret.append(aux)
return ret
#
# Se leen los ficheros con spidering, sin extensiones, el ultimo valor da igual (V o F) si no hay extensiones
# registros = leerFicheroLog("../access_log_Aug95_reducido", True, [], [])
# # registros = identificacionUsuarios(registros)
# informe = ("Host Remoto: {}. Url: {}")
#
# print("Registros:")
# for i in registros:
# print(informe.format(i.hostRemoto, i.url))
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or sign in to comment