Class: Retailer::Extractors::Houzz

Inherits:

Base

Object
Base
Retailer::Extractors::Houzz

show all

Defined in:: app/services/retailer/extractors/houzz.rb

Overview

Houzz.com data extractor.
Uses JSON-LD structured data and specific selectors.
Supports URL discovery from search results.

URL format: https://www.houzz.com/products/product-slug/pidXXXXXX

Constant Summary collapse

RENDER_REQUIRED = Houzz product pages have JSON-LD in the initial HTML; could be a candidate for false in a follow-up after manual verification.

true

Class Method Summary collapse

.build_payload(url:) ⇒ Hash
Build Oxylabs payload for Houzz product scraping Uses 'universal' source with JS rendering.

Class Method Details

.build_payload(url:) ⇒ `Hash`

Build Oxylabs payload for Houzz product scraping
Uses 'universal' source with JS rendering.

Parameters:

url (String) —
Full product URL

Returns:

(Hash) —
Oxylabs API payload

# File 'app/services/retailer/extractors/houzz.rb', line 19

def self.build_payload(url:)
  {
    source: 'universal',
    url: url,
    render: render_value,
    context: [
      { key: 'follow_redirects', value: true }
    ]
  }.compact
end

Instance Method Details

#catalog_base_url ⇒ `Object` (protected)



48
49
50

# File 'app/services/retailer/extractors/houzz.rb', line 48

def catalog_base_url
  'https://www.houzz.com'
end

#extract(check, content) ⇒ `Object`

# File 'app/services/retailer/extractors/houzz.rb', line 30

def extract(check, content)
  return unless valid_html?(content)

  check.scraper_source = source_name
  check.currency = 'USD'

  doc = parse_html(content)

  # Determine if this is a search results page or product page
  if search_results_page?(content)
    extract_from_search_page(check, doc)
  else
    extract_from_product_page(check, doc, content)
  end
end