728x90
반응형

urllib 4

[Python] openpyxl로 excel 다루기03 (urllib, BeautifulSoup)

이번 포스트에서는 python에서 실제 웹 상에 존재하는 데이터들을 excel로 저장하는 방법에 대해서 알아보도록 하겠습니다. 이전 포스트에서는 DART의 RSS를 활용하여 웹 상의 데이터를 읽어오는 방법에 대해서 알아보았습니다. 이번에는 엑셀로 만들어진 url주소를 활용하여 웹상에 존재하는 특정 정보를 가지고 오는 방법에 대해서 알아보도록 하겠습니다. 따라서 아래의 세가지 라이브러리를 활용해보도록 하겠습니다. 01 urllib : url을 호출하고 데이터를 불러들입니다. 02 BeautifulSoup : html문서를 분석하고 파싱합니다. 03 openpyxl : 매트릭스 형태로 저장하기 위한 excel 파일을 작성합니다. 오늘의 예제는 KCI(Korea Citation Index; 한국학술인용색인*)..

ITStudy/Python 2021.02.24

[Python] openpyxl로 excel 다루기02 (urllib, BeautifulSoup)

이번 포스트에서는 python에서 실제 웹 상에 존재하는 데이터들을 excel로 저장하는 방법에 대해서 알아보도록 하겠습니다. 따라서 아래의 세가지 라이브러리를 활용해보도록 하겠습니다. 01 urllib : url을 호출하고 데이터를 불러들입니다. 02 BeautifulSoup : html문서를 분석하고 파싱합니다. 03 openpyxl : 매트릭스 형태로 저장하기 위한 excel 파일을 작성합니다 . 예제는 urllib와 BeautifulSoup 포스트에서 활용한 DART(전자공시시스템* )의 RSS의 최근공시정보를 활용해보고자 합니다. RSS 최근공시 정보는 최근 50개의 공시(지분,펀드 제외)를 불러옵니다. * 상장법인 등이 공시서류를 인터넷으로 제출하고, 투자자 등 이용자는 제출 증시 인터넷을 통..

ITStudy/Python 2021.02.19

[Python] BeautifulSoup로 웹 데이터 분석 with DART

오늘은 웹 데이터 분석을 위해 BeautifulSoup에 대해서 간단하게 알아보도록 하겠습니다. BeautifulSoup는 HTML 및 XML 데이터 분석을 위한 Python 라이브러리입니다. 지난번에 알아본 urllib 라이브러리와 함께 예제로 활용했던 DART를 활용해보겠습니다. 1. BeautifulSoup 설치 BeautifulSoup는 python.org의 Document의 라이브러리에서 확인할 수 없고 PyPI(Python Package Index)에서 확인할 수 있습니다. 관련 URL> pypi.org/project/beautifulsoup4/ anaconda를 사용할 경우 자동으로 설치되어 있지만 Python만을 설치한 경우 별도의 설치가 필요합니다. #ln1: easy_install을 이..

ITStudy/Python 2021.02.01

[Python] urllib로 웹 데이터 핸들링 with DART

오늘은 파이썬 라이브러리 중 웹 데이터를 핸들링 할 수 있는 urllib에 대해서 알아보고자 합니다. urllib 중 urllib.request 모듈과 urllib.parse 모듈을 사용하여 간단하게 웹 페이지에 데이터를 요청하고 저장해보도록 하겠습니다. 오늘 사용할 예는 금융감독원에서 운영하고 있는 전자공시시스템(DART; Data Analysis, Retrieval and Transfer System)의 RSS를 통해 사용해 보도록 하겠습니다. 1. RSS RSS는 Rich Site Summary의 줄임말로 사이트에 직접 방문할 필요없이 RSS 리더를 활용하여 최신 정보를 활용할 수 있도록 해주는 콘텐츠입니다. DART에서는 RSS 리더를 통해 최근공시 혹은 회사별 공시를 확인 할 수 있도록 정보를 ..

ITStudy/Python 2021.01.31
728x90
반응형