Парсинг двух доноров с синхронизацей с одной эксель таблицей. Реализовать на любом языке на VPS-server (cent-os)
Доноры https://skygear. ru/ и http://stdin. ru. После парсинга синхронизировать эти товары с одним файлом эксель (не каждый парсинг новый файл — а всегда синхронизируем с одним эксель файлом).
Эксель файл здесь:
https://drive. /file/d/0BzrYgcB1tH-TX3dsbUtVS3RLQTA/view? usp=drive_web
В конце парсинга отправить отчет на почту:
- Обновлено 20000 товаров
- Осталось неизменным 15000 товаров
- Добавилось 100 товаров
- Пропало 50 товаров.
Соответственно эксель-файл, должен поменяться таким образом:
1) Для тех, которые обновились — меняем актуальную цену и остаток. Остальные колонки оставляем нетронутыми. Описания и тд будут переделываться для сео. Потому для старых товаров меняется только два параметра — цена и кол-во.
2) Для тех у которых ничего не изменилось (цена, остаток) - Ничего не делаем (только считаем такие товары для формирования отчета, который потом отправится на почту)
3) Товар пропал с сайтов доноров — таким товарам ставим остаток 0 и выделяем строку серым цветом.
4) Новый товар, которого еще нет в экселе — добавляем вниз и помечаем строку желтым. Соответсвенно при добавлении нового товара — нужно заполнить все возможные колонки экселя (описание и тд). А при повторном парсинге — обновляем только цену и кол-во (см. п1 или п2)
В результате должна быть постоянно обновляющееся экселька, с всегда актуальными данными.
Шаблон файла
https://drive. /file/d/0BzrYgcB1tH-TX3dsbUtVS3RLQTA/view? usp=drive_web
Детали парсинга:
1) Каждая комбинация товара (цвет, размер и тд), в экселе должно быть заполненно отдельной строчкой. Соответственно, если пропал один размер у товара — то эта строчка тоже должна отметиться остатком 0 и подсветиться серым.
http:///fdfwtp
2) По донору https://skygear. ru/, хочу обратить внимание, что таблицы встречаются в разном виде:
https://skygear. ru/products/107014/Osprey--Sumka-ryukzak-na-kolyosah-SoJourn/
https://skygear. ru/products/116954/Marmot--Vetrovka-genskaya-Wm-s-Stride-Jacket/
Речь идет о товаре по второй ссылке. Там таблица с выпадающими строками. Но не пугайтесь — пролистав вниз, вы увидите «Показать все модели». Там мы увидим уже знакомую нам таблицу со всеми комбинашками. Работаем с ней.
3) Категории, подкатегории заполняются в отдельные колонки (смотрите шаблон) и строго дублируют структуру доноров.
4) Описание в таблице должно быть в двух видах: с тегами донора и без тегов (то-есть надо почистить. Правда энтеры — перенос строки нужно оставить. Речь идет только о чистке <>).
С донора
http://stdin. ru/catalog/futbolki_i_polo/futbolka_macron_2035_0301_neon/
мы берем только описание. Таблицу хар-ик мы игнорируем, за исключением пунктов, которые следует заполнить в соответствующие ячейки экселя (бренд, цвет, пол, артикул и тд)
5) Бренд. С донора
https://skygear. ru/products/114351/Caterpillar--Chemodan-Caterpillar-Cube/
берется с названия в начале. На втором доноре бренд есть в таблице хар-ик.
6) Картинка. Заполняется ссылкой. В отдельную колонку «Фото (1 шт.)» заполняется главная картинка. Вторая и все последующие картинки заполняются в колонку «Доп. Фото» используя запятую в качестве разделителя.
7) Особенность заполнения Картинки на
https://skygear. ru/products/114351/Caterpillar--Chemodan-Caterpillar-Cube/
Обратите внимание на блок справа, в котором картинки разделены по цветам.
Соответственно у нас, каждому цвету, должна стоять актуальная картинка. Связь можно осуществить по названию цвета. Детально это логику рассказывать не буду — постарайтесь придумать сами.
8) Каждый донор заполняется в отдельный лист (смотрите шаблон). Пока два листа

9) Колонка «объем» заполняется только тогда, когда она есть в таблице
https://skygear. ru/products/114362/Caterpillar--Chemodan-Caterpillar-Roll-Cage-41L/
10) Колонка «размер» заполняется только тогда, когда она есть в таблице
https://skygear. ru/products/111268/Red-Fox--Spalniy-meshok-puhoviy-Rapid-a-03-komfort-9-/
11) Колонка «Модель» заполняется только тогда, когда в таблице есть «Название модели»
https://skygear. ru/products/111268/Red-Fox--Spalniy-meshok-puhoviy-Rapid-a-03-komfort-9-/
12) Наличие. Если у товара стоит статус «Уточняйте у менеджера»
https://skygear. ru/products/114339/Caterpillar--Chemodan-Caterpillar-Track-18-5/
то в эксельку заполням «Под заказ». В других случаях ставим +
Ну и повторюсь, если товар вовсе пропал, ставим 0 и строку красим в серый.
13) Цену и остаток для сайта skygear. ru, берем с сайта. А вот для сайта http://stdin. ru/, должно быть гибридное решение. Все данные берем с сайта, но цену и остаток тянем с XML
https://drive. /open? id=0BzrYgcB1tH-TTEx1LUVhaWVFbTg
14) Цену не важно с каких доноров вносим строго в колонку «Цена донора»
Основные порталы (построено редакторами)
