파일 콜렉션
- 반 정형, 비정형 데이터
- 파일 스트림 데이터를 끊임없이 동기화 하거나 적재해야 하므로 운영 및 유지관리에 어려움
어떻게 처리하는가?
- 이벤트 발생 시간, 데이터 수신 시간 기준으로 처리
- 지연된 데이터는 지표의 멱등성을 해칠 수 있기 때문에 별도로 처리하거나 버린다.
- Resilience (빠른 장애 인지 및 복구, 지연된 트랜잭션 등)한 방향으로 분산 환경에서의 고 가용성과 데이터 처리 수준에 초첨을 두어야한다.
- 모든 장비에서 장애가 나지 않게끔 하면 비용이 많이 듦
- 한 두대 정도 장애가 난다 해도 전체 시스템 서비스 제공에 문제 없게 끔 해야한다.
멱등성?
- 동일한 입력이 들어왔을 때 동일한 출력이 보장되는 성격
- 어제 수집된 데이터 처리하나, 일주일,이주일 후에 같은 데이터로 처리 하나 결과가 같게 나와야 한다.
Event time vs Processing time
Event time
- 실제 이벤트가 발생한 바로 그 시간
- 디바이스의 시간 : 모든 사람이 똑같을 수는 없다.
- 동시간의 시간을 측정하기 어렵다
처리 시간
- 이벤트 데이터가 시스템에 수신 혹은 관찰된 시점
모바일 장치 같은 경우는 실제 모바일 장치가 아닌 에뮬레이터일 수 있다.
Message Delivery Semantics
at-most-once
- 전송에 실패한 경우는 재시도 혹은 재전송을 하지 않고 유실될 수 있음.
exactly-once
- 정확하게 한 번의 메시지 전송을 보장
- 유실, 중복을 허용하지 않음
- 실패의 경우는 주기적으로 재시도를 하면 되지만, 지연 또는 타임아웃 발생 시 처리하기 어렵다.
at-least-once
- 중복은 허용하되 유실은 허용하지 않음
- 전송은 되었지만 Ack를 받지 못해 재전송 하는 것을 허용
이 문서는
jhy156456에 의해 작성되었습니다.
마지막 수정 날짜:2023-01-12 17:40:00