본문 바로가기
Spring|Spring-boot/Spring Batch

Spring Batch 아키텍처

by oncerun 2023. 5. 21.
반응형

괌에서 어제 돌아와서 너무 피곤한 상태입니다. 

 

오늘은 괌을 가기 전에 공부했던 스프링 배치에 대한 아키텍처에 대해 알아보고 왜 다음과 같이 설계되었는지도 알아보려고 합니다.

 

 

 

 

최근 소프트웨어 설계에 관한 책을 읽으면서 느끼는 것이 설계라는 것이 얼마나 힘들고 많은 고민을 통해 만들어진 것을 체감했습니다.

 

스프링에서도 여러 개발자가 머리를 맞대고 개발자에게 더 편리한 기능을 좋은 설계를 기반으로 제공하려고 많은 노력을 했기 때문에 이 노력을 엿볼 것입니다.

 

 

스프링 배치는 확장성과 diverse group of end users를 염두하고 설계되었다고 합니다. 

 

이러한 설계는 Application, Batch Core, Batch Infrastructure의 세 가지 주요 구성요소를 통해 이야기될 수 있습니다. 

 

위 아키텍처에서 Application은 Spring Batch를 사용하여 개발자가 작성한 배치 작업, 코드가 포함되어 있습니다. 

Spring Batch의 API를 이용해 필요에 따라 개발한 것을 의미합니다. 

 

Batch Core에는 배치 작업을 수행하기 위한 핵심 Runtime Class들이 포함되어 있다고 합니다. 

여기에는 JobLauncher, Job, Step에 대한 구현이 포함되어 있다고 합니다. 

 

Application, Batch Core는 모두 Batch Infrastructure 위에 구축되어 있는데요. 해당 인프라에는 ItemReader, ItemWriter와 같은 개발자와 핵심 프레임 워크가 모두 사용하는 클래스가 포함되어 있습니다.

 

 

https://github.com/sungil-yu/exampleBatch/commit/5549cd9ec752f886bfdedac6222d2cf26a3e1fd1

 

hello batch · yusungill/exampleBatch@5549cd9

Show file tree Showing 4 changed files with 55 additions and 2 deletions.

github.com

 

이 구조에서 JobLancher는 Job을 실행하고 Job을 Step을 실행하게 됩니다.

 

 

 

이 구조에서 Job이 Step을 담는 단순한 컨테이너로 보일 수 있지만 다양한 구성 옵션에 대해 알고 있어야 한다고 합니다. 

또한 실행 방법, 실행 중 메타 데이터를 저장하는 방법에 대해 많은 옵션을 고려해야 한다고 합니다. 

 

@Bean
public Job footballJob(JobRepository jobRepository) {
    return new JobBuilder("footballJob", jobRepository)
                     .start(playerLoad())
                     .next(gameLoad())
                     .next(playerSummarization())
                     .build();
}

 

Job은 JobRepository를 필요로 합니다.

JobRepository는 DB 또는 메모리에 스프링 배치를 실행할 수 있도록 메타데이터를 관리하는 클래스입니다.

 

위 예시 코드에서는 3개의 Step 인스턴스로 구성된 Job을 예시로 보여줍니다.

이러한 JobBuilder에서는 병렬화나, 흐름제어 등 다양한 요소도 포함될 수 있습니다.

 

이러한 다양한 옵션에 맞는 공식문서가 있습니다.

https://docs.spring.io/spring-batch/docs/current/reference/html/job.html#configureJob

 

 

Step은 Task 기반과 Chunk 기반으로 처리할 수 있습니다.

2023.05.14 - [Spring|Spring-boot/Spring Batch] - Spring Batch about 15 minutes

 

Spring Batch about 15 minutes

https://spring.io/guides/gs/batch-processing/ Getting Started | Creating a Batch Service A common paradigm in batch processing is to ingest data, transform it, and then pipe it out somewhere else. Here, you need to write a simple transformer that converts

chinggin.tistory.com

 

위 글에서는 Chunk기반으로 배치작업을 구성했습니다.

 

Chunk 기반의 Step을 정의할 때는 배치 처리 대상인 객체를 읽는 ItemReader를 사용하고, 읽은 객체를 ItemProcessor, ItemWriter에게 전달합니다. 

 

이후 ItemProcessor에서 사용자 정의에 맞게 조작하는 과정을 거칩니다. 만약 별다른 조작이 없다면 정의하지 않아도 됩니다. 이는 optional이며, 이 작업은 Reader나 Writer에서 할 수도 있지만 책임을 나누기 위해 사용할 수 있습니다.

 

가공되거나 필터링된 데이터를 마지막으로 처리하는 ItemWriter에게 전달합니다.

 

예를 들어 ItemWriter에서는 이러한 데이터를 데이터베이스에 쓰거나 업데이트할 수 있습니다.

 

JobExecutionListener를 사용하면 전처리나 후처리가 가능합니다.

 

 

Spring Batch에서는 Metadata 테이블을 라이브러리에서 제공해 줍니다.

https://docs.spring.io/spring-batch/docs/current/reference/html/schema-appendix.html#metaDataSchema

 

Meta-Data Schema

The Spring Batch Metadata tables closely match the domain objects that represent them in Java. For example, JobInstance, JobExecution, JobParameters, and StepExecution map to BATCH_JOB_INSTANCE, BATCH_JOB_EXECUTION, BATCH_JOB_EXECUTION_PARAMS, and BATCH_ST

docs.spring.io

 

 

테이블들은 대부분 배치에 대한 결과, 공유데이터, 파라미터에 정보를 관리합니다. 

DDL 스크립트는 spring batch가 제공해 줍니다. 이는 org.springframework.batch.core에 존재하며 이를 통해 mysql 데이터베이스에 테이블을 생성해 보겠습니다.

 

이 스크립트를 사용자 정의로 별도로 커스텀하여도 됩니다.

 

이 경우 스크립트의 생성 시점을 정의합니다.  

 

내장 디비를 사용하는 경우 embedded, 항상 실행하거나, 실행하지 않는 never 조건이 있습니다.

 

개발이나 테스트 환경에서는 always, 혹은 embedded로 설정하지만 운영환경에서는 사전에 만들어진 테이블을 이용할 것이기 때문에 never를 사용하는 것이 맞습니다.

 

 

데이터 베이스를 연결하도록 구성하고 배치 애플리케이션을 실행하면 공식문서에 나온 테이블들에 모든 메타 정보가 저장됩니다. 

 

여기서 확인해야 하는 부분은 BATCH_JOB_INSTANCE 테이블의 JOB_KEY입니다.

 

동일한 작업의 개별 인스턴스를 서로 고유하게 식별하는 키값으로 동일한 작업을 실행하였을 때 JobParameters도 반드시 달러기 때문에 이 값은 항상 달라집니다. 

 

다음은 Context의 범위를 알아보겠습니다.

https://github.com/sungil-yu/exampleBatch/commit/f94556b95570200a69ce7e6cee6f2cf821f4c32f

 

shared context · yusungill/exampleBatch@f94556b

Show file tree Showing 4 changed files with 99 additions and 0 deletions.

github.com

JobExecution Context는 하나의 Job 내부의 콘텍스트이기 때문에 각 Step끼리 데이터 공유가 가능하다.

다만 StepExecution은 하나의 Step에서만 데이터 공유가 가능하고, Step 끼리는 불가능하다는 점입니다.

 

 

Tasklet, Chunk 선택기로에 있다면

 

배치가 매우 간단하게 끝난다면 Tasklet을 통해 매우 쉽게 처리할 수 있다. 만약 tasklet을 통해 대량 처리를 하려고 한다면 더 복잡해질 수 있고,  tasklet에서 chunk 단위로 사용하는 것은 매우 비효율적이다.

만약 대용량 배치 처리가 필요한 경우 Chunk를 사용하는 것이 좋은 선택일 수 있다. 

 

 

Chunk를 사용하는 경우 다음과 같은 제네릭 chunk 설정을 한다.

 

.<String, String>chunk(10)

 

<Input, Output>의 타입인데, Input은 Reader에서 반환한 타입이고 OutPut은 ItemProcessor에서 반환한 타입이다.  물론 itemProcessor를 사용하지 않는다면 ItemReader의 타입이 될 것이다. 

 

ItemWriter는 chunk 단위를 받아서 처리하게 된다. 이는 itemReader, ItemProcessor가 하나씩 처리한 결과를 모아 chunk 단위로 처리하게 되는 구조이다. 

 

https://github.com/sungil-yu/exampleBatch/commit/bd5f2f8e2a05949e1813de92f0efbe4ea1ff0f61

 

chunk, tasklet · sungil-yu/exampleBatch@bd5f2f8

Showing 1 changed file with 97 additions and 0 deletions.

github.com

 

 

 

 

여기까지 아키텍처를 살펴보고, taskelt, chunk 단위의 사용법과 흐름, 데이터를 공유하는 방법과 각 테이블과 매핑되는 클래스들을 알아보았다.

 

 

반응형

'Spring|Spring-boot > Spring Batch' 카테고리의 다른 글

Spring Batch Test Code  (0) 2023.05.28
Batch 예제  (0) 2023.05.24
Spring Batch about 15 minutes  (0) 2023.05.14
Batch란  (1) 2023.05.14
Spring Batch JpaItemWriter  (0) 2021.03.06

댓글