Парсинг двух доноров с синхронизацей с одной эксель таблицей. Реализовать на любом языке на VPS-server (cent-os)

Доноры https://skygear. ru/ и http://stdin. ru. После парсинга синхронизировать эти товары с одним файлом эксель (не каждый парсинг новый файл — а всегда синхронизируем с одним эксель файлом).

Эксель файл здесь:

https://drive. /file/d/0BzrYgcB1tH-TX3dsbUtVS3RLQTA/view? usp=drive_web

В конце парсинга отправить отчет на почту:

-  Обновлено 20000 товаров

-  Осталось неизменным 15000 товаров

-  Добавилось 100 товаров

-  Пропало 50 товаров.

Соответственно эксель-файл, должен поменяться таким образом:

1)  Для тех, которые обновились — меняем актуальную цену и остаток. Остальные колонки оставляем нетронутыми. Описания и тд будут переделываться для сео. Потому для старых товаров меняется только два параметра — цена и кол-во.

2)  Для тех у которых ничего не изменилось (цена, остаток) - Ничего не делаем (только считаем такие товары для формирования отчета, который потом отправится на почту)

3)  Товар пропал с сайтов доноров — таким товарам ставим остаток 0 и выделяем строку серым цветом.

4)  Новый товар, которого еще нет в экселе — добавляем вниз и помечаем строку желтым. Соответсвенно при добавлении нового товара — нужно заполнить все возможные колонки экселя (описание и тд). А при повторном парсинге — обновляем только цену и кол-во (см. п1 или п2)

В результате должна быть постоянно обновляющееся экселька, с всегда актуальными данными.

НЕ нашли? Не то? Что вы ищете?

Шаблон файла

https://drive. /file/d/0BzrYgcB1tH-TX3dsbUtVS3RLQTA/view? usp=drive_web

Детали парсинга:

1)  Каждая комбинация товара (цвет, размер и тд), в экселе должно быть заполненно отдельной строчкой. Соответственно, если пропал один размер у товара — то эта строчка тоже должна отметиться остатком 0 и подсветиться серым.

http:///fdfwtp

2)  По донору https://skygear. ru/, хочу обратить внимание, что таблицы встречаются в разном виде:

https://skygear. ru/products/107014/Osprey--Sumka-ryukzak-na-kolyosah-SoJourn/

https://skygear. ru/products/116954/Marmot--Vetrovka-genskaya-Wm-s-Stride-Jacket/

Речь идет о товаре по второй ссылке. Там таблица с выпадающими строками. Но не пугайтесь — пролистав вниз, вы увидите «Показать все модели». Там мы увидим уже знакомую нам таблицу со всеми комбинашками. Работаем с ней.

3)  Категории, подкатегории заполняются в отдельные колонки (смотрите шаблон) и строго дублируют структуру доноров.

4)  Описание в таблице должно быть в двух видах: с тегами донора и без тегов (то-есть надо почистить. Правда энтеры — перенос строки нужно оставить. Речь идет только о чистке <>).

С донора

http://stdin. ru/catalog/futbolki_i_polo/futbolka_macron_2035_0301_neon/

мы берем только описание. Таблицу хар-ик мы игнорируем, за исключением пунктов, которые следует заполнить в соответствующие ячейки экселя (бренд, цвет, пол, артикул и тд)

5)  Бренд. С донора

https://skygear. ru/products/114351/Caterpillar--Chemodan-Caterpillar-Cube/

берется с названия в начале. На втором доноре бренд есть в таблице хар-ик.

6)  Картинка. Заполняется ссылкой. В отдельную колонку «Фото (1 шт.)» заполняется главная картинка. Вторая и все последующие картинки заполняются в колонку «Доп. Фото» используя запятую в качестве разделителя.

7)  Особенность заполнения Картинки на

https://skygear. ru/products/114351/Caterpillar--Chemodan-Caterpillar-Cube/

Обратите внимание на блок справа, в котором картинки разделены по цветам.

Соответственно у нас, каждому цвету, должна стоять актуальная картинка. Связь можно осуществить по названию цвета. Детально это логику рассказывать не буду — постарайтесь придумать сами.

8)  Каждый донор заполняется в отдельный лист (смотрите шаблон). Пока два листа

\\Mac\Home\Desktop\Снимок экрана 2017-05-29 в 17.57.00.png

9)  Колонка «объем» заполняется только тогда, когда она есть в таблице

https://skygear. ru/products/114362/Caterpillar--Chemodan-Caterpillar-Roll-Cage-41L/

10) Колонка «размер» заполняется только тогда, когда она есть в таблице

https://skygear. ru/products/111268/Red-Fox--Spalniy-meshok-puhoviy-Rapid-a-03-komfort-9-/

11) Колонка «Модель» заполняется только тогда, когда в таблице есть «Название модели»

https://skygear. ru/products/111268/Red-Fox--Spalniy-meshok-puhoviy-Rapid-a-03-komfort-9-/

12) Наличие. Если у товара стоит статус «Уточняйте у менеджера»

https://skygear. ru/products/114339/Caterpillar--Chemodan-Caterpillar-Track-18-5/

то в эксельку заполням «Под заказ». В других случаях ставим +

Ну и повторюсь, если товар вовсе пропал, ставим 0 и строку красим в серый.

13) Цену и остаток для сайта skygear. ru, берем с сайта. А вот для сайта http://stdin. ru/, должно быть гибридное решение. Все данные берем с сайта, но цену и остаток тянем с XML

https://drive. /open? id=0BzrYgcB1tH-TTEx1LUVhaWVFbTg

14) Цену не важно с каких доноров вносим строго в колонку «Цена донора»

Основные порталы (построено редакторами)

Домашний очаг

ДомДачаСадоводствоДетиАктивность ребенкаИгрыКрасотаЖенщины(Беременность)СемьяХобби
Здоровье: • АнатомияБолезниВредные привычкиДиагностикаНародная медицинаПервая помощьПитаниеФармацевтика
История: СССРИстория РоссииРоссийская Империя
Окружающий мир: Животный мирДомашние животныеНасекомыеРастенияПриродаКатаклизмыКосмосКлиматСтихийные бедствия

Справочная информация

ДокументыЗаконыИзвещенияУтверждения документовДоговораЗапросы предложенийТехнические заданияПланы развитияДокументоведениеАналитикаМероприятияКонкурсыИтогиАдминистрации городовПриказыКонтрактыВыполнение работПротоколы рассмотрения заявокАукционыПроектыПротоколыБюджетные организации
МуниципалитетыРайоныОбразованияПрограммы
Отчеты: • по упоминаниямДокументная базаЦенные бумаги
Положения: • Финансовые документы
Постановления: • Рубрикатор по темамФинансыгорода Российской Федерациирегионыпо точным датам
Регламенты
Термины: • Научная терминологияФинансоваяЭкономическая
Время: • Даты2015 год2016 год
Документы в финансовой сферев инвестиционнойФинансовые документы - программы

Техника

АвиацияАвтоВычислительная техникаОборудование(Электрооборудование)РадиоТехнологии(Аудио-видео)(Компьютеры)

Общество

БезопасностьГражданские права и свободыИскусство(Музыка)Культура(Этика)Мировые именаПолитика(Геополитика)(Идеологические конфликты)ВластьЗаговоры и переворотыГражданская позицияМиграцияРелигии и верования(Конфессии)ХристианствоМифологияРазвлеченияМасс МедиаСпорт (Боевые искусства)ТранспортТуризм
Войны и конфликты: АрмияВоенная техникаЗвания и награды

Образование и наука

Наука: Контрольные работыНаучно-технический прогрессПедагогикаРабочие программыФакультетыМетодические рекомендацииШколаПрофессиональное образованиеМотивация учащихся
Предметы: БиологияГеографияГеологияИсторияЛитератураЛитературные жанрыЛитературные героиМатематикаМедицинаМузыкаПравоЖилищное правоЗемельное правоУголовное правоКодексыПсихология (Логика) • Русский языкСоциологияФизикаФилологияФилософияХимияЮриспруденция

Мир

Регионы: АзияАмерикаАфрикаЕвропаПрибалтикаЕвропейская политикаОкеанияГорода мира
Россия: • МоскваКавказ
Регионы РоссииПрограммы регионовЭкономика

Бизнес и финансы

Бизнес: • БанкиБогатство и благосостояниеКоррупция(Преступность)МаркетингМенеджментИнвестицииЦенные бумаги: • УправлениеОткрытые акционерные обществаПроектыДокументыЦенные бумаги - контрольЦенные бумаги - оценкиОблигацииДолгиВалютаНедвижимость(Аренда)ПрофессииРаботаТорговляУслугиФинансыСтрахованиеБюджетФинансовые услугиКредитыКомпанииГосударственные предприятияЭкономикаМакроэкономикаМикроэкономикаНалогиАудит
Промышленность: • МеталлургияНефтьСельское хозяйствоЭнергетика
СтроительствоАрхитектураИнтерьерПолы и перекрытияПроцесс строительстваСтроительные материалыТеплоизоляцияЭкстерьерОрганизация и управление производством