728x90
반응형

urllib.request 5

[Python] openpyxl로 excel 다루기03 (urllib, BeautifulSoup)

이번 포스트에서는 python에서 실제 웹 상에 존재하는 데이터들을 excel로 저장하는 방법에 대해서 알아보도록 하겠습니다. 이전 포스트에서는 DART의 RSS를 활용하여 웹 상의 데이터를 읽어오는 방법에 대해서 알아보았습니다. 이번에는 엑셀로 만들어진 url주소를 활용하여 웹상에 존재하는 특정 정보를 가지고 오는 방법에 대해서 알아보도록 하겠습니다. 따라서 아래의 세가지 라이브러리를 활용해보도록 하겠습니다. 01 urllib : url을 호출하고 데이터를 불러들입니다. 02 BeautifulSoup : html문서를 분석하고 파싱합니다. 03 openpyxl : 매트릭스 형태로 저장하기 위한 excel 파일을 작성합니다. 오늘의 예제는 KCI(Korea Citation Index; 한국학술인용색인*)..

ITStudy/Python 2021.02.24

[python] BeautifulSoup를 통한 크롤링 차단 시 해결 방법

이번시간에는 크롤링 시 차단되었을 경우의 대처방법 User Agent 지정에 대해서 알아보도록 하겠습니다. BeautifulSoup를 사용해서 웹을 크롤링하던 와중에 페이지에서 아무것도 받아오지 못하는 문제가 발생해서 당혹스러운 경우가 발생했습니다. 구글링 해보았을 때 다양한 경우에서 이러한 문제가 발생할 수 있는 것으로 보입니다. 그 중에서 가장 흔한 경우는 웹 서버측에서 크롤러를 로봇의 부적절한 접근으로 인식한 경우 문제가 발생할 수 있습니다(robots.txt 파일에서 제외의 경우). 이 경우 해결방법은 Header에 User Agent 정보를 기입하여 웹 서버로 페이지를 요청할 시에 같이 보내는 방법을 사용할 수 있습니다. User Agent란* HTTP 통신 시 브라우저가 웹서버에 연결을 시작할..

ITStudy/Python 2021.02.22

[Python] openpyxl로 excel 다루기02 (urllib, BeautifulSoup)

이번 포스트에서는 python에서 실제 웹 상에 존재하는 데이터들을 excel로 저장하는 방법에 대해서 알아보도록 하겠습니다. 따라서 아래의 세가지 라이브러리를 활용해보도록 하겠습니다. 01 urllib : url을 호출하고 데이터를 불러들입니다. 02 BeautifulSoup : html문서를 분석하고 파싱합니다. 03 openpyxl : 매트릭스 형태로 저장하기 위한 excel 파일을 작성합니다 . 예제는 urllib와 BeautifulSoup 포스트에서 활용한 DART(전자공시시스템* )의 RSS의 최근공시정보를 활용해보고자 합니다. RSS 최근공시 정보는 최근 50개의 공시(지분,펀드 제외)를 불러옵니다. * 상장법인 등이 공시서류를 인터넷으로 제출하고, 투자자 등 이용자는 제출 증시 인터넷을 통..

ITStudy/Python 2021.02.19

[Python] BeautifulSoup로 웹 데이터 분석 with DART

오늘은 웹 데이터 분석을 위해 BeautifulSoup에 대해서 간단하게 알아보도록 하겠습니다. BeautifulSoup는 HTML 및 XML 데이터 분석을 위한 Python 라이브러리입니다. 지난번에 알아본 urllib 라이브러리와 함께 예제로 활용했던 DART를 활용해보겠습니다. 1. BeautifulSoup 설치 BeautifulSoup는 python.org의 Document의 라이브러리에서 확인할 수 없고 PyPI(Python Package Index)에서 확인할 수 있습니다. 관련 URL> pypi.org/project/beautifulsoup4/ anaconda를 사용할 경우 자동으로 설치되어 있지만 Python만을 설치한 경우 별도의 설치가 필요합니다. #ln1: easy_install을 이..

ITStudy/Python 2021.02.01

[Python] urllib로 웹 데이터 핸들링 with DART

오늘은 파이썬 라이브러리 중 웹 데이터를 핸들링 할 수 있는 urllib에 대해서 알아보고자 합니다. urllib 중 urllib.request 모듈과 urllib.parse 모듈을 사용하여 간단하게 웹 페이지에 데이터를 요청하고 저장해보도록 하겠습니다. 오늘 사용할 예는 금융감독원에서 운영하고 있는 전자공시시스템(DART; Data Analysis, Retrieval and Transfer System)의 RSS를 통해 사용해 보도록 하겠습니다. 1. RSS RSS는 Rich Site Summary의 줄임말로 사이트에 직접 방문할 필요없이 RSS 리더를 활용하여 최신 정보를 활용할 수 있도록 해주는 콘텐츠입니다. DART에서는 RSS 리더를 통해 최근공시 혹은 회사별 공시를 확인 할 수 있도록 정보를 ..

ITStudy/Python 2021.01.31
728x90
반응형