안녕하세요 이번 글에서는 Java로 웹 크롤링하는 방법에 대해서 알아보도록 하겠습니다.
먼저 Jsoup 라이브러리를 다운로드 받습니다.
jsoup 라이브러리는 https://jsoup.org/에서 다운로드 받으실 수 있습니다.
다운로드를 클릭하고 다운로드를 시작합니다.
jar 파일을 java 가 있는 곳에 다운로드 하시면 더 편합니다.
설치 경로 예시 ) C:\Program Files\Java\jdk1.8.0_144\lib
이제 다운로드 받은 jar 파일을 개발환경의 작업 경로에 추가 합니다.
Referenced Libraries 가 생성되고 jar파일이 추가된 것을 확인 할 수 있습니다.
그럼 이제 추가된 라이브러리를 사용해서 코드를 작성해보도록 하겠습니다.
코드입니다.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20 |
package Crawler;
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
//Jsoup 라이브러리를 import한다
public class Web {
public static void main(String[] args) {
try {
Document doc = Jsoup.connect("http://dic.naver.com/").get();
//Jsoup.connect에 URL을 적어서 읽는다
//.get(); 메소드를 통해서 Document 타입의 변수 doc에 대입한다
System.out.println(doc);//doc 에 담긴 내용을 출력한다
} catch (IOException e) {
e.printStackTrace();
}
}
} |
cs |
웹 크롤링과 관련된 다른 라이브러리들도 다운로드 해보겠습니다.
commons - logging - 1.2.jar |
httpclient - 4.5.3 |
httpcore - 4.4.8 |
여기서 httpcore를 다운로드 받을 수 있습니다.
https://mvnrepository.com/artifact/org.apache.httpcomponents/httpcore/4.4.8
httpclient와 commons - logging 도 다운로드 받아 보겠습니다.
https://mvnrepository.com/artifact/org.apache.httpcomponents/httpclient
https://mvnrepository.com/artifact/commons-logging/commons-logging/1.2
이제 jar 파일을 글의 윗부분의 jsoup을 java project에 추가하는 것처럼 추가합니다.
'Java 강의' 카테고리의 다른 글
자바 빌더 패턴 Spring @Builder (0) | 2019.01.10 |
---|---|
자바 이벤트 객체 (0) | 2017.11.01 |
자바 GUI 이벤트 / java gui event (0) | 2017.10.31 |
객체 직렬화 하고 다시 가져오기 / java Serializable (0) | 2017.10.27 |
자바 스레드 레이스 컨디션 예제 / java thread race condition example (0) | 2017.10.25 |
댓글