본문 바로가기
Java 강의

Java로 웹 크롤링 하기

by 자유코딩 2017. 11. 3.

안녕하세요 이번 글에서는 Java로 웹 크롤링하는 방법에 대해서 알아보도록 하겠습니다.

 

먼저 Jsoup 라이브러리를 다운로드 받습니다.

 

jsoup 라이브러리는 https://jsoup.org/에서 다운로드 받으실 수 있습니다.

 

 

다운로드를 클릭하고 다운로드를 시작합니다.

https://jsoup.org/download

 

jar 파일을 java 가 있는 곳에 다운로드 하시면 더 편합니다.

설치 경로 예시 ) C:\Program Files\Java\jdk1.8.0_144\lib

 

 

이제 다운로드 받은 jar 파일을 개발환경의 작업 경로에 추가 합니다.

 

 

 

 

 

Referenced Libraries 가 생성되고 jar파일이 추가된 것을 확인 할 수 있습니다.

 

 

그럼 이제 추가된 라이브러리를 사용해서 코드를 작성해보도록 하겠습니다.

 

코드입니다.

 

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
package Crawler;
 
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
//Jsoup 라이브러리를 import한다
 
public class Web {
    public static void main(String[] args) {
        try {
            Document doc = Jsoup.connect("http://dic.naver.com/").get();
            //Jsoup.connect에 URL을 적어서 읽는다
            //.get(); 메소드를 통해서 Document 타입의 변수 doc에 대입한다
            System.out.println(doc);//doc 에 담긴 내용을 출력한다
            
        } catch (IOException e) {
            e.printStackTrace();
        }    
    }
}
cs

 

 

웹 크롤링과 관련된 다른 라이브러리들도 다운로드 해보겠습니다.

 

 commons - logging - 1.2.jar

 httpclient - 4.5.3

 httpcore - 4.4.8

 

 

여기서 httpcore를 다운로드 받을 수 있습니다.

https://mvnrepository.com/artifact/org.apache.httpcomponents/httpcore/4.4.8

 

 

 

httpclient와 commons - logging 도 다운로드 받아 보겠습니다.

 

https://mvnrepository.com/artifact/org.apache.httpcomponents/httpclient

 

https://mvnrepository.com/artifact/commons-logging/commons-logging/1.2

 

 

 

이제 jar 파일을 글의 윗부분의 jsoup을 java project에 추가하는 것처럼 추가합니다.

 

 

댓글