• 회원가입
  • 로그인
  • 구글아이디로 로그인

[PHP-서기] PHP 51 - 웹사이트크롤링 (= 사이트파싱) ★★★ (= 타사이트 특정부위 가져오기)

8,991  

Simple HTML DOM

 

소개
jQuery 문법으로 HTML 데이터 제어하는 라이브러리 .

 

다운로드 

https://sourceforge.net/projects/simplehtmldom/files/

 

매뉴얼

https://simplehtmldom.sourceforge.io/manual.htm

 


 

<?php

// PHP정보

//phpinfo();


// 파일정보 가져오기 허용설정

ini_set("allow_url_fopen",1);


// DAUM 사이트 가져오기

include "simple_html_dom.php";

$data = file_get_html("https://daum.net");


// DAUM 사이트 보여주기

//echo $data;



// 특정부분만 가져오기

$a = $data->find("ul.list_txt");

//echo $a; // Array



/*

// 텍스트만 가져오기 (실패)

foreach($a as $b) {

   echo $b->plaintext;

   echo "<br>";

}

*/


// 텍스트만 가져오기 (성공)

foreach($a as $ul) {

    $c = $ul->find("li");

    foreach($c as $li) {

        echo $li->plaintext;

        echo "<br>";

    }

}

 

관련글 (121120) https://sir.kr/pg_tip/12474 

 

Snoopy (스누피)

 

다운로드

https://sourceforge.net/projects/snoopy/

 


 

<?php

include "simple_html_dom.php";

include "Snoopy.class.php";

$snoopy = new Snoopy;

$snoopy->referer = 'https://naver.com'; // 가짜 리퍼러

$snoopy->fetch('https://naver.com'); // 크롤링할 사이트

$data = str_get_html($snoopy->results);

echo $data->plaintext; 

?>

 

※ str_get_html() 함수는 Simple HTML DOM 정의 함수.


 

include "Snoopy.class.php";

$snoopy = new Snoopy;

$url = "https://naver.com";

$snoopy->fetch($url);

$list_result = $snoopy->results;

echo $list_result;

 

서기 님


분류 제목
JS-생코 JS 66강 - 클로저 (closure) 2/4 : 클로저란?
JS-생코 JS 65강 - 클로저 (closure) 1/4 : 외부함수와 내부함수
JS-생코 JS 64강 - 값으로서 함수와 콜백 (4/4) : 비동기 콜백
JS-생코 JS 63강 - 값으로서 함수와 콜백 (3/4) : 콜백
JS-생코 JS 62강 - 값으로서 함수와 콜백 (2/4) : 함수의 용도 2
JS-생코 JS 61강 - 값으로서 함수와 콜백 (1/4) : 함수의 용도 1
JS-생코 JS 60강 - 유효범위 (5/5) : 정적 유효 범위
JS-생코 JS 59강 - 유효범위 (4/5) - 유효범위의 대상
JS-생코 JS 58강 - 유효범위 (3/5) : 전역변수를 사용하는 법
JS-생코 JS 57강 - 유효범위 (2/5) : 유효범위의 효용
JS-생코 JS 56강 - 유효범위 (1/5) : 전역변수와 지역변수
regex JS 55강 - 정규표현식 (7/7) : 치환
regex JS 54강 - 정규표현식 (6/7) : 캡처
regex JS 53강 - 정규표현식 (5/7) : 옵션
regex JS 52강 - 정규표현식 (4/7) : String 객체의 정규 표현식
regex JS 51강 - 정규표현식 (3/7) : RegExp 객체의 정규 표현식
regex JS 50강 - 정규표현식 (2/7) : 패턴만들기
regex JS 49강 - 정규 표현식 (1/7) : 오리엔테이션
JS-생코 JS 48강 - UI, API 그리고 문서 (2/2) : 문서보는법
JS-생코 JS 47강 - UI와 API
24/35
목록
찾아주셔서 감사합니다. Since 2012