생몰정보
소속
직위
직업
활동분야
주기
서지
국회도서관 서비스 이용에 대한 안내를 해드립니다.
검색결과 (전체 1건)
원문 있는 자료 (1) 열기
원문 아이콘이 없는 경우 국회도서관 방문 시 책자로 이용 가능
목차보기더보기
표제지
요약
목차
I. 서론 10
II. 관련 연구 14
1. NGS(Next Generation Sequencing) 14
2. PCR(Polymerase Chain Reaction) 16
3. BWA(Borrow-wheeler Alignment Tool) 18
4. SAM 파일 형식 20
5. 중복 제거 기법 21
1) ParDRe 21
2) SAMBLASTER 22
6. 스파크 및 스파크 스트리밍 24
1) 스파크 24
2) 스파크 스트리밍 26
III. SDedup(Spark Streaming based De-duplication for DNA Reads) 28
1. SDedup 개요 28
2. 중복 제거 절차 31
1) 마이크로 배치 데이터 수신 32
2) Duplicate 검출을 위한 형태로 변환 32
3) Duplicate 검출 33
3. SDedup 구현 35
IV. 성능평가 37
1. 실험 환경 37
2. 성능 평가 방법 37
3. 실험 결과 39
V. 결론 41
참고문헌 43
Abstract 46
표 2-1. SAM 파일 형식의 필수 항목 20
표 2-2. 스파크에서 사용하는 RDD 연산 25
표 3-1. SAM 형식에 따른 클래스 구조 33
표 3-2. 제안하는 방법 알고리즘 35
표 3-3. 제안하는 중복 리드 검출 방법 알고리즘 36
표 4-1. 노드 별 사양 37
표 4-2. 실험 Dataset 크기 39
표 4-3. 실험 결과 40
그림 1-1. 제안하는 기존 도구 한계점 개선 방법 12
그림 2-1. NGS 파이프라인 15
그림 2-2. PCR에서 유전체 증폭 준비 과정 16
그림 2-3. PCR에서 유전체 증폭 과정 17
그림 2-4. PCR에서 유전체 데이터를 읽는 과정 17
그림 2-5. 레퍼런스 게놈 및 PCR 결과 데이터 18
그림 2-6. BWA index 수행 19
그림 2-7. SAMBLASTER에서 시그니쳐 계산 과정 23
그림 2-8. 맵 리듀스와 스파크 성능 비교 24
그림 3-1. 제안하는 중복 리드 검출 과정 28
그림 3-2. 기존 파이프라인 도구 간 입·출력 29
그림 3-3. 제안하는 중복 데이터 처리 방안 29
그림 3-4. SDedup을 위한 클러스터 구성도 30
그림 3-5. 마이크로 배치 입력 처리 과정 31
그림 4-1. 성능 평가 진행 과정 38
그림 4-2. 성능 평가를 위한 수행 시간 측정 방법 38
원문구축 및 2018년 이후 자료는 524호에서 직접 열람하십시요.
도서위치안내: / 서가번호:
우편복사 목록담기를 완료하였습니다.
* 표시는 필수사항 입니다.
* 주의: 국회도서관 이용자 모두에게 공유서재로 서비스 됩니다.
저장 되었습니다.
로그인을 하시려면 아이디와 비밀번호를 입력해주세요. 모바일 간편 열람증으로 입실한 경우 회원가입을 해야합니다.
공용 PC이므로 한번 더 로그인 해 주시기 바랍니다.
아이디 또는 비밀번호를 확인해주세요