Semalt: 3 кроку да выскрабанне вэб-старонкі PHP

Скрабаванне па Інтэрнэце, званае таксама выманнем дадзеных у Інтэрнэце альбо ўборкай у Інтэрнэце, - гэта працэс вымання дадзеных з вэб-сайта ці блога. Затым гэтая інфармацыя выкарыстоўваецца для ўстаноўкі мета-тэгаў, мета-апісанняў, ключавых слоў і спасылак на сайт, паляпшаючы яго агульную прадукцыйнасць у выніках пошукавай сістэмы.

Для выскрабання дадзеных выкарыстоўваюцца дзве асноўныя методыкі:

  • Разбор дакументаў - уключае XML або HTML дакумент, які пераўтвараецца ў файлы DOM (Document Object Model). PHP дае нам вялікае пашырэнне DOM.
  • Рэгулярныя выразы - гэта спосаб скрабавання дадзеных з вэб-дакументаў у выглядзе рэгулярных выразаў.

Праблема са здымкамі дадзеных трэцяга боку звязана з аўтарскім правам, таму што вы не маеце дазволу на выкарыстанне гэтых дадзеных. Але з PHP вы можаце лёгка ачысціць дадзеныя без праблем, звязаных з аўтарскімі правамі альбо нізкай якасцю. Як праграміст PHP, вам могуць спатрэбіцца дадзеныя з розных сайтаў для мэт кадавання. Тут мы патлумачылі, як эфектыўна атрымліваць дадзеныя з іншых сайтаў, але перад гэтым вы павінны мець на ўвазе, што ў рэшце рэшт вы атрымаеце альбо файлы index.php, альбо scrape.js.

Крок 1. Стварыце форму для ўводу URL сайта:

Перш за ўсё, вы павінны стварыць форму ў index.php, націснуўшы кнопку "Адправіць" і ўвесці URL сайта для выскрабання дадзеных.

<form method = "post" name = "scrape_form" id = "scrap_form" acti>

Калі ласка, увядзіце URL сайта для ачысткі дадзеных

<type type = "input" name = "website_url" id = "website_url">

<type type = "submit" name = "submit" value = "Адправіць">

</form>

Steps2: Стварыце функцыю PHP, каб атрымаць дадзеныя сайта:

Другім крокам з'яўляецца стварэнне PHP scrapes у файле scrape.php, паколькі гэта дапаможа атрымаць дадзеныя і выкарыстоўваць бібліятэку URL. Гэта таксама дазволіць вам падключаць і мець зносіны з рознымі серверамі і пратаколамі без якіх-небудзь праблем.

функцыя scrapeSiteData ($ website_url) {

калі (! function_exists ('curl_init')) {

die ('CURL не ўсталяваны. Усталюйце і паспрабуйце яшчэ раз.');

}

$ curl = curl_init ();

curl_setopt ($ curl, CURLOPT_URL, $ website_url);

curl_setopt ($ curl, CURLOPT_RETURNTRANSFER, true);

$ output = curl_exec ($ curl);

curl_close ($ curl);

вярнуць $ выхад;

}

Тут мы бачым, ці правільна ўстаноўлена PHP cURL ці не. У вобласці функцый павінны быць выкарыстаны тры асноўныя CURL, а curl_init () дапаможа ініцыялізаваць сеансы, curl_exec () выканае яго, а curl_close () дапаможа закрыць злучэнне. Такія зменныя, як CURLOPT_URL, выкарыстоўваюцца для ўстанаўлення URL-сайтаў, якія нам трэба вычысціць. Другі CURLOPT_RETURNTRANSFER дапаможа захаваць вычышчаныя старонкі ў зменнай форме, а не ў форме па змаўчанні, якая ў канчатковым выніку адлюструе ўсю вэб-старонку.

Крок 3: Абрэзка канкрэтных дадзеных з вэб-сайта:

Прыйшоў час апрацоўваць функцыі вашага PHP-файла і выскрабаць канкрэтны раздзел вашай вэб-старонкі. Калі вы не хочаце, каб усе дадзеныя з канкрэтнага URL-сайта, вам варта рэдагаваць зменныя CURLOPT_RETURNTRANSFER і вылучыць раздзелы, якія трэба саскрэбці.

if (isset ($ _ POST ['прадставіць'])) {

$ html = scrapeWebsiteData ($ _ POST ['website_url']);

$ start_point = strpos ($ html, 'Апошнія паведамленні');

$ end_point = strpos ($ html, '', $ start_point);

$ length = $ end_point- $ start_point;

$ html = substr ($ html, $ start_point, $ length);

рэха $ html;

}

Мы прапануем вам распрацаваць асноўныя веды аб PHP і звычайных выразах, перш чым выкарыстоўваць любы з гэтых кодаў або выскарабаніць канкрэтны блог ці вэб-сайт у асабістых мэтах.

mass gmail