kok202
카프카 - 04 - 데이터 파이프라인

2020. 4. 14. 08:10[정리] 데이터베이스/[Message] Kafka

카프카를 활용한 데이터 파이프라인

카프카를 활용하기 위한 다양한 오픈소스들이 있다.

로그 데이터를 수집하는 간단한 워크 플로우는 아래와 같이 짤 수 있다.

파일비트 -> 카프카 -> 나이파이 -> ES -> 키바나

 

  1. 파일비트
    앨라스틱 서치에서 제공하는 경량 데이터 수집기이다.
    특정 로그 경로를 바라보게해서 input 으로 받고 카프카로 produce 할 수 있다.
  2. 나이파이
    데이터 흐름을 처리하기 위해서 데이터 처리에 특화된 기능의 솔루션
    나이아가라 폭포 + 파일즈 여서 나이파이다.
    다양한 프로세서를 가져다 사용할 수 있고 GUI 단에서 데이터 파이프라인을 연결할 수 있다.
    1. EvaluateJsonPath 프로세서 : JsonPath 에서 flow 파일 속성에 추가할 수 있고, flow 파일 자체로 기록할 수 있다.
    2. RouteOnAttribute 프로세서 : flow 파일 속성을 보고 데이터 파이프라인을 다르게 태울 수 있다. Property 중 DeliveryGuarantee 속성이 있는데 이부분은 프로듀서의 acks 설정이다.

 

 

 

메시지큐 클라우드

메시징 시스템은 카프카, 래빗엠큐, 큐피드 외에도 클라우드 형태로 서비스를 제공하는 제품도 있다.

카프카를 직접 운영하지 않는 조직이라면 이를 이용하는 것도 좋은 방안이다.

  1. 구글의 펍/섭
  2. 아마존의 키네시스
  3. 애저의 이벤트 허브
  4. 오라클의 이벤트허브