아주대학교 미래모틸리티학과(기계공학과) 연구실과 협업하여 진행하는 프로젝트로, 100TB 규모의 자율주행 차량 주행 데이터를 효과적으로 관리하고 활용하는 데이터 서비스 플랫폼을 개발하고 있습니다. 사용자가 웹 인터페이스를 통해 복잡한 데이터를 쉽게 질의하고, 맞춤형 분석을 요청할 수 있으며, 빠르고 정확한 결과를 받아볼 수 있는 시스템을 구축하는 것이 목표입니다. 이를 위해 대용량 데이터 환경에서 효율적인 저장 구조, 실시간 쿼리 처리, 사용자 요청에 최적화된 응답 시스템 등 다양한 기술적 과제에 대한 연구를 함께 수행하고 있습니다.
기존의 Hadoop MapReduce 기반 배치 데이터 처리 방식을 Spark 기반의 병렬 처리 방식으로 재설계할 계획입니다. In-memory 방식을 활용한 Spark 기반 설계를 통해 기존 방식 대비 처리 시간을 50% 이상 단축하는 것을 목표로 합니다. 또한, 데이터 읽기/쓰기 속도 최적화를 위해 MongoDB의 WiredTiger 엔진과 RocksDB를 결합한 하이브리드 환경을 구축할 예정입니다. 이 구조에서는 데이터베이스 라우터를 통해 읽기와 쓰기 작업을 분리하고, 데이터 일관성을 유지하기 위한 동기화 메커니즘을 적용할 계획입니다.
데이터 전송 효율성 향상을 위해 스트리밍 기반 다운로드 방식을 도입하여 파일 전송 구조를 고도화할 계획입니다. 기존의 파일 복사 과정을 제거함으로써 디스크 I/O를 최소화하고, 파일 압축 및 전송 과정을 스트리밍 방식으로 연동하여 전체 다운로드 시간을 단축하고자 합니다. 또한 실시간 전송 환경에서 데이터 무결성을 보장하기 위해 MD5 해시 기반의 검증 체계를 구축하여 안전한 데이터 전송을 가능하게 할 예정입니다.
따라서, 본 프로젝트는 데이터 플랫폼 서비스 제공을 위해 필요한 연구를 수행하고, 그 연구 결과를 실제 서비스에 도입하여 검증합니다. 백엔드 엔지니어링 관점에서 마이크로 서비스, 분산 아키텍처, 메세징 시스템, 분산 큐 등 구현이 필요한 요소를 Kafka, RabbitMQ 등 분산 환경에서 주로 활용되는 프레임워크/라이브러리를 도입하여 해결하고자 합니다. 이 과정에서 발생 가능한 기술적인 한계를 극복하기 위해 시스템 부하 분산, 장애 복구, 데이터 일관성 유지 방안 등에 대한 연구도 병행할 계획입니다. 특히 대용량 데이터 처리 환경에서의 성능 최적화와 확장성 확보를 위한 아키텍처 설계에 중점을 두어 안정적이고 효율적인 데이터 플랫폼 구축을 목표로 합니다.