fix(*): start urls

2025-07-13 20:45:11 +02:00 · 2022-05-16 16:36:47 +02:00
parent 1259c837e3
commit 2d833679f7
7 changed files with 10 additions and 11 deletions
--- a/index.js
+++ b/index.js
@ -2,7 +2,6 @@ const se_scraper = require('./src/node_scraper.js');
 var Scraper = require('./src/modules/se_scraper');
 async function scrape(browser_config, scrape_config) {
    // scrape config overwrites the browser_config
    Object.assign(browser_config, scrape_config);
--- a/src/modules/bing.js
+++ b/src/modules/bing.js
@ -2,6 +2,8 @@ const cheerio = require('cheerio');
 const Scraper = require('./se_scraper');
 class BingScraper extends Scraper {
    defaultStartUrl = this.build_start_url('https://www.bing.com/search?') || 'https://www.bing.com/';
    async parse_async(html) {
--- a/src/modules/duckduckgo.js
+++ b/src/modules/duckduckgo.js
@ -4,6 +4,8 @@ const debug = require('debug')('se-scraper:DuckduckgoScraper');
 class DuckduckgoScraper extends Scraper {
    defaultStartUrl = 'https://duckduckgo.com/';
    parse(html) {
        debug('parse');
        // load the page source into cheerio
--- a/src/modules/google.js
+++ b/src/modules/google.js
@ -5,6 +5,8 @@ const Scraper = require('./se_scraper');
 class GoogleScraper extends Scraper {
    defaultStartUrl = 'https://www.google.com';
    constructor(...args) {
        super(...args);
    }
--- a/src/modules/infospace.js
+++ b/src/modules/infospace.js
@ -42,7 +42,7 @@ class InfospaceScraper extends Scraper {
    async load_start_page() {
        try {
-            this.last_response = await this.page.goto(this.this.startUrl);
+            this.last_response = await this.page.goto(this.startUrl);
            await this.page.waitForSelector('input[name="q"]', { timeout: 5000 });
        } catch (e) {
            return false;
--- a/src/modules/se_scraper.js
+++ b/src/modules/se_scraper.js
@ -387,15 +387,7 @@ module.exports = class Scraper {
    }
    get startUrl(){
-        const startUrls = {
+        return this.build_start_url(this.config.startUrl  || this.defaultStartUrl);
            google: 'https://www.google.com',
            duckduckgo:'https://duckduckgo.com/',
            bing:this.build_start_url('https://www.bing.com/search?') || 'https://www.bing.com/',
            infospace: this.build_start_url('http://search.infospace.com/search/web?') || 'http://infospace.com/index.html',
            yandex: 'https://yandex.com'
        }
        return this.config.startUrl  || startUrls[this.config.search_engine];
    }
    /**
--- a/src/modules/yandex.js
+++ b/src/modules/yandex.js
@ -4,6 +4,8 @@ const Scraper = require('./se_scraper');
 class YandexScraper extends Scraper {
    defaultStartUrl = 'https://yandex.com';
    constructor(...args) {
        super(...args);
    }