본문 바로가기

모의해킹/정보수집 단계

정보수집 단계 - (8) archive.org의 활용

정보수집 단계 - (8) archive.org의 활용


검색엔진들은 저마다의 크롤러(crawler)를 사용하여 웹 페이지를 수집하여 카피한 웹 페이지를 저장한다.(=webcache)

이렇게 카피된 웹 페이지(=webcahce)들은 검색 index를 붙여 검색엔진이 참조하도록 하여 검색 서비스를 제공하게 한다.


archive.org도 위와 마찬가지로 크롤러를 사용하여 카피한 웹 페이지를 저장했다. 한가지 다른점은 과거부터 현재까지 수집한 모든 웹페이지를 저장해 놓았다는 것이다. 즉, 2003년 www.google.com 웹페이지와 2019년 www.google.com 웹페이지까지 시간대별로 크롤링한 결과가 있다.


이것을 이용하여 보안취약점을 발견할 수 있다. 과거에는 개인정보보호법도 없었고 지금처럼 보안수준이 높지 않았다. 이것을 이용하여 현재 해킹하고자 하는 웹 페이지(=www.test.com)의 과거에 크롤링된 결과를 찾아낸다.


Ex. 2003년 www.test.com


크롤링한 결과는 사진, 파일, hyperlink로 연결된 웹페이지까지 모든 정보를 가지고 있기 때문에 2003년에 크롤링한 결과에서 중요한 관리자 정보를 담은 excel 파일이나 해킹에 사용될 힌트를 얻을 수 있다.


이렇게 얻은 정보들을 바탕으로 현재 서비스중인 www.test.com을 해킹하는데 사용할 수 있다.