Skip to content

Instantly share code, notes, and snippets.

@catdevnull
Last active September 22, 2024 21:36
Show Gist options
  • Save catdevnull/587d5c63c4bab11b9798861c917db93b to your computer and use it in GitHub Desktop.
Save catdevnull/587d5c63c4bab11b9798861c917db93b to your computer and use it in GitHub Desktop.
Errores en el formato de los datos SEPA

Errores en el formato de los datos SEPA

FULL (OPERADORA DE ESTACIONES DE SERVICIOS SA, CUIT 30678774495)

Pone precios "0" en muchos de sus productos. ej en sepa_1_comercio-sepa-19_2024-09-21_09-05-11/productos.csv:

19|1|00959|7790895642081|1|Gase Coca Cola Lata 220 Ml|220|Ml|Coca Cola|0|0|1|l||||
19|1|00825|7790895642081|1|Gase Coca Cola Lata 220 Ml|220|Ml|Coca Cola|0|0|1|l||||
19|1|00857|7790895642081|1|Gase Coca Cola Lata 220 Ml|220|Ml|Coca Cola|0|0|1|l||||

numero de calle = 0

En todas las sucursales ponen sucursales_numero = "0", y ponen el numero dentro de sucursales_calle.

Vea (Cencosud)

numero de calle = 0

En todas las sucursales ponen sucursales_numero = "0", y ponen entre que calles está en sucursales_calle

Potigian

numero de calle = 0

En todas las sucursales ponen sucursales_numero = "0", y ponen el numero dentro de sucursales_calle.

NOTA: hay muchos otros comercios que no llenan sucursales_numero apropiadamente.

Libertad S.A. (CUIT 30612929455)

En los items que incluyen la string |RAPTOR 6X16X45 (como BAR PR/MANI AR|RAPTOR 6X16X45 EAN 7790580138554) no esta apropiadamente escapeado el caracter | como está especificado en el documento:

Se utilizarán comillas dobles (“”) para contener a aquellos valores que lo requieran por los siguientes motivos: [..]

  • Contienen el carácter barra vertical o “pipe” (“|”). Si un valor contiene el carácter utilizado como separador, debe encerrarse entre comillas dobles (“”) para indicar que el carácter no define una nueva columna, sino que es parte de un valor.

Alberdi S.A. (CUIT 30578411174)

Los valores productos_descripcion, productos_cantidad_presentacion y productos_unidad_medida_presentacion están separados por ; y no |.

id_sucursal no unico dentro de un mismo comercio

En los dataset de Alberdi S.A. (CUIT 30578411174), los id_sucursal son unicos solo dentro de un mismo id_bandera, no dentro del comercio.

El campo id_sucursal es un identificador único de la sucursal. El mismo es un código interno propio del comercio y debe ser estable a lo largo del tiempo. Lo indicado en este apartado también será de aplicación para las sucursales web.

id_producto que no son numeros

sepa_2_comercio-sepa-6_2024-09-12_01-05-12/productos.csv:

6|1|1|7,790127e+012|1|Pickles Vanoli Mixto Frasco 330Gr;330;GR|VANOLI|1846.25|5594.70|1|KG||||
6|1|1|7,790127e+012|1|Aceituna La Sierrita Verde Sachet 340Gr;340;GR|LA SIERRITA|1125.99|3311.74|1|KG||||
6|1|1|7,791624e+012|1|Secador Sacchi Goma  x 26 Cm;1;UN|SACCHI|4232.99|4232.99|1|UN||||
[...]

\t

Coto (CUIT 30548083156) incluye \t en los nombres de muchos productos. Esto está explicitado en el documento:

  • Requerimientos de los valores contenidos en las filas de datos. [..]
    • Los valores no pueden incluir tabulaciones, caracteres "/r", caracteres “/t” ni líneas adicionales.

También se puede encontrar esto en un dataset de Makro (CUIT 30589621499) sepa_lunes/sepa_2_comercio-sepa-61_2024-08-19_01-05-13/productos.csv.

Megatone (CUIT 30543659734)

Todos sus datasets de productos.csv hasta ahora solo incluyen la string Error: Information object returned an error. repetida varias veces. Masterclass en boludeo.

sucursales_domingohorario_atencion en vez de sucursales_domingo_horario_atencion

Lo que dice el titulo. Debería decir sucursales_domingo_horario_atencion pero está escrito como sucursales_domingohorario_atencion.

Rafaela Alimentos

Sucursales mal codificadas

El comercio Rafaela Alimentos (id_comercio 1001, CUIT 33500529909), con bandera LARIO, especifica las provincias de sus sucursales (sucursales_provincia) como Buenos Aires y Santa Fe (en el archivo Sucursales). Lo correcto es especficar AR-B y AR-S respectivamente.

EANs duplicados

En sepa_1_comercio-sepa-1001_2024-08-31_09-05-11, tienen multiples productos con exactamente el mismo EAN. Por ejemplo:

id_comercio|id_bandera|id_sucursal|id_producto|productos_ean|productos_descripcion|productos_cantidad_presentacion|productos_unidad_medida_presentacion|productos_marca|productos_precio_lista|productos_precio_referencia|productos_cantidad_referencia|productos_unidad_medida_referencia|productos_precio_unitario_promo1|productos_leyenda_promo1|productos_precio_unitario_promo2|productos_leyenda_promo2
[ .. ]
1001|1|2|2006073000006|1|CARRE CERDO ENFRIADO|1|kg|RAFAELA|7103.67|9234.77|1|kg||||
[ dos lineas después ]
1001|1|2|2006073000006|1|BONDIOLA ENFRIADA|1|kg|RAFAELA|9087.3|11813.49|1|kg||||

DORINKA SRL (CUIT 30678138300)

IDs de sucursales inexistentes

Al menos en sepa_2_comercio-sepa-11_2024-08-31_01-05-12, precios.csv referencia sucursales que no existen en sucursales.csv:

Comercio: 11, Bandera: 2, Sucursal: 1098
Comercio: 11, Bandera: 4, Sucursal: 4001
Comercio: 11, Bandera: 5, Sucursal: 1019

UTF-16 en vez de UTF-8

sepa_2_comercio-sepa-11_2024-09-02_01-05-12$ file * 
comercio.csv:   Unicode text, UTF-16, little-endian text, with CRLF line terminators
productos.csv:  Unicode text, UTF-16, little-endian text, with very long lines (399), with CRLF line terminators
sucursales.csv: Unicode text, UTF-16, little-endian text, with very long lines (501), with CRLF line terminators

Cosas arregladas (yay!)

Formato de CSV incorrecto

solo encontré este problema en 4cf559c6-8665-40c1-8149-4eb3ccf40622-revID-5de12e2b-3b53-4cb9-aa47-9442a9e17f83-sepa_lunes.zip (2024-08-19)

En los dataset de La Agricola Regional Cooperativa Limitada (CUIT 33504047089), Basualdo SA (CUIT 30707429468) y Hipermayorista Makro S.A (CUIT 30589621499) los headers estan muy distintos a lo que especifica el documento.

Existen valores que no estan especificados como id_dun_14, precio_unitario_bulto_por_unidad_venta_con_iva, precio_unitario_bulto_por_unidad_venta_sin_iva y faltan valores importantes que si estan especificados como productos_precio_lista.

id_comercio|id_bandera|id_sucursal|id_producto|productos_ean|id_dun_14|productos_descripcion|productos_marca|precio_unitario_bulto_por_unidad_venta_con_iva|precio_unitario_bulto_por_unidad_venta_sin_iva|unidad_venta|precio_bulto_con_iva|precio_bulto_sin_iva|productos_precio_unitario_con_iva_promo1|productos_precio_unitario_sin_iva_promo1|productos_leyenda_promo1|productos_precio_unitario_con_iva_promo2|productos_precio_unitario_sin_iva_promo2|productos_leyenda_promo2
@lavih7
Copy link

lavih7 commented Aug 26, 2024

LARIO - Sucursales mal codificadas

El comercio Rafaela Alimentos (id_comercio 1001, CUIT 33500529909), con bandera LARIO, especifica las provincias de sus sucursales (sucursales_provincia) como Buenos Aires y Santa Fe (en el archivo Sucursales). Lo correcto es especficar AR-B y AR-S respectivamente

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment