코딩동강

[PHP-서기] PHP 51 - 웹사이트크롤링 (= 사이트파싱) ★★★ (= 타사이트 특정부위 가져오기)

7,825

Simple HTML DOM

 

소개
jQuery 문법으로 HTML 데이터 제어하는 라이브러리 .

 

다운로드 

https://sourceforge.net/projects/simplehtmldom/files/

 

매뉴얼

https://simplehtmldom.sourceforge.io/manual.htm

 


 

<?php

// PHP정보

//phpinfo();


// 파일정보 가져오기 허용설정

ini_set("allow_url_fopen",1);


// DAUM 사이트 가져오기

include "simple_html_dom.php";

$data = file_get_html("https://daum.net");


// DAUM 사이트 보여주기

//echo $data;



// 특정부분만 가져오기

$a = $data->find("ul.list_txt");

//echo $a; // Array



/*

// 텍스트만 가져오기 (실패)

foreach($a as $b) {

   echo $b->plaintext;

   echo "<br>";

}

*/


// 텍스트만 가져오기 (성공)

foreach($a as $ul) {

    $c = $ul->find("li");

    foreach($c as $li) {

        echo $li->plaintext;

        echo "<br>";

    }

}

 

관련글 (121120) https://sir.kr/pg_tip/12474 

 

Snoopy (스누피)

 

다운로드

https://sourceforge.net/projects/snoopy/

 


 

<?php

include "simple_html_dom.php";

include "Snoopy.class.php";

$snoopy = new Snoopy;

$snoopy->referer = 'https://naver.com'; // 가짜 리퍼러

$snoopy->fetch('https://naver.com'); // 크롤링할 사이트

$data = str_get_html($snoopy->results);

echo $data->plaintext; 

?>

 

※ str_get_html() 함수는 Simple HTML DOM 정의 함수.


 

include "Snoopy.class.php";

$snoopy = new Snoopy;

$url = "https://naver.com";

$snoopy->fetch($url);

$list_result = $snoopy->results;

echo $list_result;

 

서기 님


분류 제목
GO-터커 GO 40강 - Thread (쓰레드) 2
GO-터커 GO 39강 - Thread (쓰레드) 1
GO-터커 GO 38강 - GoLang의 Map
GO-터커 GO 37강 - Map 구현
GO-터커 GO 36강 - Map과 Hash의 관계
GO-터커 GO 35강 - Heap 이용한 문제 풀이
GO-터커 GO 34강 - Heap2
GO-터커 GO 33강 - Heap
GO-터커 GO 32강 - BST (이진트리와 이진검색 트리)
GO-터커 GO 31강 - Tree BFS 와 Dijkstra
GO-터커 GO 30강 - Tree DFS
GO-터커 GO 29강 - Tree
GO-터커 GO 28강 - Packaging 과 Stack, Queue
GO-터커 GO 27강 - Double Linked List
GO-터커 GO 26강 - Linked List
10/47
목록
  • 채팅방
  • 필독
1. 채팅창 헤드에서 접속자 확인 2. 닉네임 클릭해 1:1 채팅 가능 3. 닉네임 클릭해 귓속말 가능 4. 닉네임 클릭해 호출하기 가능 5. 우하단 클릭해 환경 설정 가능 6. 의뢰글 작성 후 의뢰 상담 가능 7. 질문글 작성 후 질문 상담 가능 8. 채팅방에 개인정보 입력 금지 9. 채팅방에 광고 욕설 비방 금지
 홈  PC버전 로그인 일본어
웹디자인언어
서버관리언어
고급코딩언어
그누보드 1
제작의뢰
Q&A 1
커뮤니티
웹유틸
회원센터
홈짱 PC버전 로그인