Data

· Data/Kafka
Partitioner란? partitioner는 kafka producer의 주요 개념 중 하나이다. partitioner를 알면 파티션을 더 효과적으로 쓸 수 있다. producer가 데이터를 보내면 무조건 partitioner를 통해 broker로 데이터가 전송된다. partitioner는 데이터를 topic의 어느 파티션에 넣을지 결정하는 역할을 한다. 파티션의 위치는 레코드에 포함된 메시지 키 또는 메시지 값에 따라 결정된다. producer를 사용할 때 partitioner를 따로 설정하지 않으면 UniformStickyPartitioner로 설정되는데 이 partitioner는 메시지 키가 있을 때와 없을 때 다르게 동작한다. 메시지 키의 유무 메시지 키가 있는 경우 → 메..
· Data/Kafka
Broker, Replication, In-Sync Replica Broker, Replication, ISR(In-Sync Replica)은 kafka 운영에 있어서 아주 중요한 역할을 한다. kafka 아키텍처의 핵심인 replication(복제)은 클러스터에서 서버에 장애가 생겼을 때 kafka의 가용성을 보장하는 가장 좋은 방법이다. Kafka Broker kafka broker란 kafka가 설치되어 있는 서버 단위이다. 보통 3개 이상의 broker를 구성해 사용하는 것을 권장한다. 만약 partition이 1개이고 replication이 1인 topic이 존재하며 broker가 3대라면 3대 중 1대에 해당 topic의 정보(데이터)가 저장된다. Kafka Replication replica..
· Data
pandas란 pandas는 데이터 조작 및 분석을 위한 python 라이브러리다. 엑셀 파일을 읽기 위해서는 pandas에서 제공하는 DataFrame(데이터 프레임)을 사용한다. pandas를 사용해 엑셀 파일을 읽어 생성한 DataFrame으로 원하는 조건의 데이터만 추출하거나 여러가지 데이터 조작을 쉽게 할 수 있게 된다. 라이브러리 설치 2개의 라이브러리 설치가 필요하다. pandas와 openpyxl를 설치한다. PyCharm IDE에서 쉽게 라이브러리 설치가 가능하다. 프로그램 상단의 File을 클릭해 Settings를 선택한다. interpreter를 검색하고 Python Interpreter를 선택한다. + 버튼을 클릭한다. 원하는 라이브러리 이름을 검색하고 선택 후 아래 Install ..
uuha
'Data' 카테고리의 글 목록