일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 베타적락
- 관측가능성
- ai agent
- 백준
- next-stock
- spring event
- ipo 매매자동화
- 쿠키
- 완전탐색
- 이분탐색
- docker
- JPA
- 알람시스템
- 몽고 인덱스
- 구현
- 디버깅
- langgraph
- 누적합
- 크롤링
- BFS
- 추천 검색 기능
- 결제서비스
- dau 3만명
- 프로그래머스
- 아키텍쳐 개선
- gRPC
- 셀러리
- piplining
- 카카오
- AWS
- Today
- Total
목록크롤링 (2)
코딩관계론

1. 문제 정의처음 뉴스 데이터를 크롤링할 때, 하나의 고정 IP로 많은 요청을 보내면서 IP 제한이 걸려 원하는 데이터를 안정적으로 수집하지 못했습니다.2. 시도된 해결 방법2.1 프록시 서버 사용배경: IP 제한 회피를 위한 프록시 서버 활용문제점:비용 부담: 안정적인 프록시 IP는 고비용신뢰성 문제: 불안정한 연결로 인한 데이터 수집 불안정2.2 네이버 API 활용장점: 네이버 공식 API를 통한 안정적인 데이터 수집단점:날짜 제한: 특정 날짜 이후 뉴스는 제공되지 않음API 호출 제한: 호출 횟수 제한으로 완전한 데이터 확보 어려움초기에는 네이버 API를 사용했으나, 장기적으로 데이터 부족 현상이 심각했습니다.3. 서버리스 기반 크롤링 아키텍처 도입기존 방식의 한계를 극복하기 위해 AWS 서버리스..

소개이번 글에서는 네이버 주식 테마와 관련된 정보를 크롤링하는 작업에서 발생한 초기 작업 시간이 1분 30초로 길었던 문제를 개선하여 30초로 단축하는 방법에 대해 소개하겠습니다. 맨 처음에 문제라고 생각했던 부분은 request 부분이었습니다. requsts가 느려 뒤에 있는 작업도 느려진다고 생각해 time 함수를 통해서 검증을 시도했습니다.문제 검증 처음에는 request의 속도가 느려 뒷 작업이 밀리는 것으로 인지하고 있었습니다. 따라서 time 함수를 이용해 어떤 부분이 실제로 느려지는 확인이 필요해졌고, 아래 코드와 같이 time함수를 사용해 느려지는 부분을 체크했습니다. now = time.time() page_source = self.web.get_page("https://finance.n..