Errores en el formato de los datos SEPA
Pone precios "0" en muchos de sus productos. ej en sepa_1_comercio-sepa-19_2024-09-21_09-05-11/productos.csv
:
19|1|00959|7790895642081|1|Gase Coca Cola Lata 220 Ml|220|Ml|Coca Cola|0|0|1|l||||
19|1|00825|7790895642081|1|Gase Coca Cola Lata 220 Ml|220|Ml|Coca Cola|0|0|1|l||||
19|1|00857|7790895642081|1|Gase Coca Cola Lata 220 Ml|220|Ml|Coca Cola|0|0|1|l||||
En todas las sucursales ponen sucursales_numero
= "0", y ponen el numero dentro de sucursales_calle
.
En todas las sucursales ponen sucursales_numero
= "0", y ponen entre que calles está en sucursales_calle
En todas las sucursales ponen sucursales_numero
= "0", y ponen el numero dentro de sucursales_calle
.
NOTA: hay muchos otros comercios que no llenan sucursales_numero
apropiadamente.
En los items que incluyen la string |RAPTOR 6X16X45
(como BAR PR/MANI AR|RAPTOR 6X16X45
EAN 7790580138554
) no esta apropiadamente escapeado el caracter |
como está especificado en el documento:
Se utilizarán comillas dobles (“”) para contener a aquellos valores que lo requieran por los siguientes motivos: [..]
- Contienen el carácter barra vertical o “pipe” (“|”). Si un valor contiene el carácter utilizado como separador, debe encerrarse entre comillas dobles (“”) para indicar que el carácter no define una nueva columna, sino que es parte de un valor.
Los valores productos_descripcion
, productos_cantidad_presentacion
y productos_unidad_medida_presentacion
están separados por ;
y no |
.
En los dataset de Alberdi S.A. (CUIT 30578411174), los id_sucursal son unicos solo dentro de un mismo id_bandera, no dentro del comercio.
El campo id_sucursal es un identificador único de la sucursal. El mismo es un código interno propio del comercio y debe ser estable a lo largo del tiempo. Lo indicado en este apartado también será de aplicación para las sucursales web.
sepa_2_comercio-sepa-6_2024-09-12_01-05-12/productos.csv
:
6|1|1|7,790127e+012|1|Pickles Vanoli Mixto Frasco 330Gr;330;GR|VANOLI|1846.25|5594.70|1|KG||||
6|1|1|7,790127e+012|1|Aceituna La Sierrita Verde Sachet 340Gr;340;GR|LA SIERRITA|1125.99|3311.74|1|KG||||
6|1|1|7,791624e+012|1|Secador Sacchi Goma x 26 Cm;1;UN|SACCHI|4232.99|4232.99|1|UN||||
[...]
Coto (CUIT 30548083156) incluye \t
en los nombres de muchos productos. Esto está explicitado en el documento:
- Requerimientos de los valores contenidos en las filas de datos. [..]
- Los valores no pueden incluir tabulaciones, caracteres "/r", caracteres “/t” ni líneas adicionales.
También se puede encontrar esto en un dataset de Makro (CUIT 30589621499) sepa_lunes/sepa_2_comercio-sepa-61_2024-08-19_01-05-13/productos.csv
.
Todos sus datasets de productos.csv
hasta ahora solo incluyen la string Error: Information object returned an error.
repetida varias veces. Masterclass en boludeo.
Lo que dice el titulo. Debería decir sucursales_domingo_horario_atencion
pero está escrito como sucursales_domingohorario_atencion
.
El comercio Rafaela Alimentos (id_comercio 1001, CUIT 33500529909), con bandera LARIO, especifica las provincias de sus sucursales (sucursales_provincia) como Buenos Aires y Santa Fe (en el archivo Sucursales). Lo correcto es especficar AR-B y AR-S respectivamente.
En sepa_1_comercio-sepa-1001_2024-08-31_09-05-11
, tienen multiples productos con exactamente el mismo EAN. Por ejemplo:
id_comercio|id_bandera|id_sucursal|id_producto|productos_ean|productos_descripcion|productos_cantidad_presentacion|productos_unidad_medida_presentacion|productos_marca|productos_precio_lista|productos_precio_referencia|productos_cantidad_referencia|productos_unidad_medida_referencia|productos_precio_unitario_promo1|productos_leyenda_promo1|productos_precio_unitario_promo2|productos_leyenda_promo2
[ .. ]
1001|1|2|2006073000006|1|CARRE CERDO ENFRIADO|1|kg|RAFAELA|7103.67|9234.77|1|kg||||
[ dos lineas después ]
1001|1|2|2006073000006|1|BONDIOLA ENFRIADA|1|kg|RAFAELA|9087.3|11813.49|1|kg||||
Al menos en sepa_2_comercio-sepa-11_2024-08-31_01-05-12
, precios.csv
referencia sucursales que no existen en sucursales.csv
:
Comercio: 11, Bandera: 2, Sucursal: 1098
Comercio: 11, Bandera: 4, Sucursal: 4001
Comercio: 11, Bandera: 5, Sucursal: 1019
sepa_2_comercio-sepa-11_2024-09-02_01-05-12$ file *
comercio.csv: Unicode text, UTF-16, little-endian text, with CRLF line terminators
productos.csv: Unicode text, UTF-16, little-endian text, with very long lines (399), with CRLF line terminators
sucursales.csv: Unicode text, UTF-16, little-endian text, with very long lines (501), with CRLF line terminators
solo encontré este problema en 4cf559c6-8665-40c1-8149-4eb3ccf40622-revID-5de12e2b-3b53-4cb9-aa47-9442a9e17f83-sepa_lunes.zip (2024-08-19)
En los dataset de La Agricola Regional Cooperativa Limitada (CUIT 33504047089), Basualdo SA (CUIT 30707429468) y Hipermayorista Makro S.A (CUIT 30589621499) los headers estan muy distintos a lo que especifica el documento.
Existen valores que no estan especificados como id_dun_14
, precio_unitario_bulto_por_unidad_venta_con_iva
, precio_unitario_bulto_por_unidad_venta_sin_iva
y faltan valores importantes que si estan especificados como productos_precio_lista
.
id_comercio|id_bandera|id_sucursal|id_producto|productos_ean|id_dun_14|productos_descripcion|productos_marca|precio_unitario_bulto_por_unidad_venta_con_iva|precio_unitario_bulto_por_unidad_venta_sin_iva|unidad_venta|precio_bulto_con_iva|precio_bulto_sin_iva|productos_precio_unitario_con_iva_promo1|productos_precio_unitario_sin_iva_promo1|productos_leyenda_promo1|productos_precio_unitario_con_iva_promo2|productos_precio_unitario_sin_iva_promo2|productos_leyenda_promo2
LARIO - Sucursales mal codificadas
El comercio Rafaela Alimentos (
id_comercio
1001, CUIT 33500529909), con bandera LARIO, especifica las provincias de sus sucursales (sucursales_provincia
) como Buenos Aires y Santa Fe (en el archivo Sucursales). Lo correcto es especficar AR-B y AR-S respectivamente