• 제목/요약/키워드: 구간분할

검색결과 371건 처리시간 0.031초

선행스케줄링에서 배타적 자원접근 (Mutually Exclusive Resource Access in Pre-Scheduling)

  • 박학봉;한상철;김희헌;박민규;조성제;조유근
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (A)
    • /
    • pp.162-166
    • /
    • 2006
  • 선행스케줄링(pre-scheduling)은 정적인 작업(periodic job)과 동적인 작업(sporadic job)을 유연하게 처리하기 위해 제안된 스케줄링 방식이다. 이 방식은 오프라인 컴포넌트와 온라인 컴포넌트로 구성되며 오프라인 컴포넌트에서는 비주기적으로 도착하는 동적인 작업들을 고려하여 정적인 작업들을 여러 부분작업으로 분할하고, 그리고 각 부분작업들의 실행시간, 준비시간, 마감시간을 부여하고 실행순서를 결정한다. 온라인 컴포넌트에서는 이 정보들을 이용하여 정적인 작업들을 정해진 실행순서에 따라 스케줄하고, 동적인 작업이 도착하면 EDF(Earliest Deadline First) 스케줄링 방식으로 처리한다. 그러나 선행스케줄링에서는 자원공유문제를 고려하지 않고 실행시간을 부여하였으므로 여러 정적인 작업들이 하나의 자원을 공유할 경우에 배타적인 자원접근을 보장하지 못한다. 본 논문에서는 단일처리기 환경에서 여러 정적인 작업들의 자원공유를 고려하여 자원의 배타적 사용을 보장하는 선행스케줄 생성기법을 제시한다. 이 기법은 각 작업의 자원 방출시간을 예측하고 예측시간에 근거하여 각 작업의 자원사용구간이 중복되지 않도록 실행시간을 결정한다.

  • PDF

난류감소효과가 부유사의 농도분포에 미치는 영향 (Effect of turbulent damping on concentration profile of suspended sediment)

  • 손민우;변지선
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.260-260
    • /
    • 2021
  • 본 연구의 목적은 다양한 크기의 사립자들로 구성된 비균질 하상으로부터 부유된 유사의 연직방향 농도분포에 난류 감소효과가 미치는 영향을 살펴보는 것이다. 여기서 난류감소효과란 유사의 존재로 인해서 난류의 구조가 변화하는 것을 의미한다. 연구를 수행하기 위하여 난류감소 효과를 고려할 수 있는 비점착성 사립자의 유사이동 모형을 개발하였다. 유사이동 모형에서는 사립자 크기범위를 여러개의 계급구간으로 분할하여 하상재료의 입도분포를 고려할 수 있으며, 하상재료의 구성에 따른 부유사의 농도분포를 계산한다. 개발된 모형의 검증은 실험실 실험자료와의 비교를 통해 수행하였다. 유사이동 모형에서 난류감소 효과를 고려하지 않을 경우 농도와 유속의 연직분포가 과대산정 되는 것이 여러 연구에서 확인된 바 있다. 이에 본 연구에서는 한방향으로의 정류상태 흐름 조건과 다양한 크기가 혼재되어 존재하는 유사 조건을 가정하여 난류구조의 변화와 부유사 농도의 연직분포 변화를 살펴보았다. 연구결과로부터 난류감소 효과를 고려하지 않는 경우에는 부유사의 농도가 과다하게 산정되는 것으로 나타났으며, 불균질한 하상재료로 구성된 하천에서 부유사의 연직방향 유사농도를 정확하게 계산하기 위해서는 난류감소 효과에 대한 고려가 필요하다는 결론이 도출되었다.

  • PDF

통신 대역폭 논리영역 적용 기반의 네트워크 보안구간 안정화 연구 (A Study on Stabilizing a Network Security Zone Based on the Application of Logical Area to Communication Bandwidth)

  • 서우석
    • 한국산학기술학회논문지
    • /
    • 제16권5호
    • /
    • pp.3462-3468
    • /
    • 2015
  • 2014~2015년 현 시점에서 발생되고 있는 수많은 네트워크 장애와 침해는 ISP(Internet Service Provider)가 제공하는 통신라인 등을 통해 접근하는 공격성향의 불법접근이 문제의 근원으로 나타나고 있다. 이와 같은 네트워크 기반의 공격에 대비한 방어방법으로 네트워크 통신을 위한 안정화 구조와 이에 준하는 다양한 정책 및 물리적 보안 장치와 솔루션들이 구현되고 구축되고 있다. 따라서 통신 대역폭 상의 논리영역을 구성하는 등의 네트워크 보안구간을 확보하기 위한 기초 연구자료와 네트워크 보안시장의 또 다른 연구 주제인 통신라인의 확충을 위해 제시되는 과제를 제안하고 네트워크 통신 대역폭을 이용한 능동적인 통신 대역폭 연동 패러다임이 물리적 보안을 이끄는 한 영역으로 필요성이 대두되어 졌음을 인지하는 과정이 필요해 졌다. 추가적으로 현재 통신사들이 제공하는 통신용량을 기준으로 이를 세분화된 조직 영역으로 재분할하고 분할된 각 영역별 통신 용량의 논리적 가상화를 적용함으로써 가시적 보안구조 구성 형태의 자료들을 특정한 물리적 정보 범주에 모두 제한하는 것이 필요하다. 이는 기존의 물리적 구조를 논리영역 적용 기반의 네트워크 보안구간을 제안함으로써 물리적 네트워크 통신 구조를 설계하는 기초자료로 제공 되어질 것이다.

플라스틱온실 내부 환경 인자 다중센서 설치 위치 최적화 전략 (Strategies about Optimal Measurement Matrix of Environment Factors Inside Plastic Greenhouse)

  • 이정규;강동현;오상훈;이동훈
    • 생물환경조절학회지
    • /
    • 제29권2호
    • /
    • pp.161-170
    • /
    • 2020
  • 국내 시설 농업의 99.2%를 차지하는 플라스틱온실의 내부 환경인자는 외부 환경의 변화에 민감하게 반응하고 온실 공간 내부에서 편차가 발생한다. 온도, 습도, CO2, 광도의 환경인자를 계측하기 위한 지점을 3 × 3 × 5로 구성하여 데이터를 취득하고 내부 공간을 수직, 수평적인 측면으로 분할하여 환경 인자의 분포를 확인하였다. 계측지점의 최적점을 선정하고자 계측 공간을 수직, 수평적인 방향으로 분할하고, 측정 데이터와 이를 활용한 예측지점의 선형회귀분석 결과로 성능평가를 실시하였다. 일반적인 상황에서는 온도와 습도 인자의 경우 1개의 센서로 플라스틱온실 내부 환경의 계측이 가능할 수 있으나, 특정구간의 경우 다수의 센서를 활용하여 내부공간의 정밀성을 확보하는 것이 필요하다. CO2의 경우 실험기간 내의 계측 매트릭스의 증가에도 불구하고 변이를 정의하는데 한계가 있음을 발견하였다. 조도 분포의 경우 일출 이후 지속적으로 회귀분석 결과가 작아짐을 발견하였다. 구조물의 간섭 등을 고려해 동일한 수평적인 방향에서 미계측 지점의 결정계수가 감소하였고, 센서 매트릭스 배치를 작물 높이 위로 위치하여 다수의 센서 노드 설치로 개선 가능하다고 예상된다. 외부 환경의 변화에 따라 온실 내부 환경이 불규칙하게 변화되며, 이 구간은 시설의 규격을 고려하여 계측 매트릭스를 구성해야 한다. 반대로 안정적인 구간에서는 최소한의 센서 노드로 내부 환경의 예측이 가능한 것을 확인할 수 있었다. 결과적으로 측정하고자 하는 환경인자와 시설의 구조 등 연구 및 재배자의 목적에 맞는 계측 매트릭스 위치 선정의 유동성이 요구되며, 덕트의 개폐위치를 조절하여 필요한 곳에 에너지를 투입하는 국소냉난방 및 생육제어 모델링 설계에 적용 가능하다고 판단된다.

Ginkgo Biloba Extract가 C3H 마우스 섬유육종의 분할 방사선치료에 미치는 영향 (The Effect of Ginkgo Biloba Extract on the Fractionsted Radiation Therapy in C3H Mouse Fibrosarcoma)

  • 김종훈;하성환;박찬일
    • Radiation Oncology Journal
    • /
    • 제20권2호
    • /
    • pp.155-164
    • /
    • 2002
  • 목적 : Ginkgo biloba extract (GBE)는 혈액순환개선효과가 있어 기존의 방사선민감제와 달리 혈류저항이 높은 악성종양에서 저산소세포 분획을 줄일 수 있으나 아직까지는 실제 임상에서 사용되는 저선량 분할 방사선조사시에도 GBE가 방사선조사 효과의 증대를 나타내는지 밝혀지지 않았다. 이에 본 연구에서는 저선량 분할 방사선조사시 GBE가 방사선조사효과증대를 나타내는지, 또한 정상조직과 악성종양의 혈류량 분포에 어떠한 영향을 미치는지 알아보고자 하였다. 대상 및 방법 : 통상적인 범위의 저산소세포 분획을 가진 C3H 마우스의 섬유육종(FSall)을 마우스 우측하지에 이식한 후 종양직경이 7 mm에 도달하였을 때 마우스 체중 kg당 100 mg의 GBE를 방사선조사 25시간 전과 매회 1시간 전에 복강내 투여 후 방사선을 조사하였다. 3 Gy 내지 12 Gy의 방사선을 일회 조사시 GBE투여군과 방사선단독조사군의 종양성장지연기간을 비교하여 GBE에 의한 방사선효과 증강율을 구하였다. 3 Gy씩 10회의 분할 방사선조사시 방사선 단독조사군의 방사선량-종양성장지연기간(tumor growth delay, TGD)의 관계식을 구하여 두 실험군의 선형회귀직선 기울기의 비율, 즉 GBE에 의한 방사선효과 증강율을 구하였다. 같은 종양을 이용하여 레이저 도플러 혈류측정기로 정상근육과 종양의 혈류량을 측정함으로써 저혈류 분포의 차이가 존재하는지 확인하였고, GBE 투여에 의한 혈류량분포의 변화 여부를 관찰하였다. 결과 : 3 Gy 내지 12 Gy의 방사선을 일회 조사시 GBE투여군의 종양성장지연기간이 방사선단독조사군에 비하여 의미있게 증가되었으며(p<0.05), GBE에 의한 방사선효과 증강율은 3일 종양성장지연 기준으로 1.16이었다. 3 Gy씩 10회의 분할 방사선조사시 방사선 단독조사군의 방사선량-종양성장지연기간(tumor growth delay, TGD)의 관계는 TGD $(days)=0.26{\times}D$ (Gy)+0.13, GBE 병용군의 경우 TGD $(days)=0.30{\times}D$ (Gy)+0.13이었고 두 실험군의 직선 기울기의 비율, 즉 GBE에 의한 방사선효과 증강율은 1.19 ($95\%$ 신뢰구간: $1.13\~1.27$)로 나타났다. 같은 종양을 이용하여 레이저 도플러 혈류측정기로 혈류량을 측정한 결과, 혈류량의 분포는 모두 Poisson 분포와 비슷한 양상을 보였다. 정상근육의 혈류량은 평균 10.15 mL/100 g/min, 종양의 혈류량은 평균 7.78 mL/100 g/min으로 종양의 평균 혈류량이 근육에 비하여 낮게 나타났고(p=0.001), 2 mL/100 g/min 이하의 저혈류 분포는 정상근육에 비하여 종양에서 높게 나타났다($0.5\%$$5.2\%$, p=0.005). 정상근육에서는 GBE 투여에 의하여 혈류량 분포에 큰 변화가 없었던 반면, 종양에서는 2 mL/100 g/min 이하의 저혈류량 분포가 감소하였고, 평균 혈류량은 $23.5\%$ 증가되었다(p=0.0004). 결론 : GBE는 방사선 일회 조사시 뿐만 아니라 분할조사시에도 방사선치료의 효과를 유의하게 증가시켰다. 또한 정상근육에 비하여 종양의 혈류량을 선택적으로 증가시킴이 확인되었다.

러프집합분석을 이용한 매매시점 결정 (Rough Set Analysis for Stock Market Timing)

  • 허진영;김경재;한인구
    • 지능정보연구
    • /
    • 제16권3호
    • /
    • pp.77-97
    • /
    • 2010
  • 매매시점결정은 금융시장에서 초과수익을 얻기 위해 사용되는 투자전략이다. 일반적으로, 매매시점 결정은 거래를 통한 초과수익을 얻기 위해 언제 매매할 것인지를 결정하는 것을 의미한다. 몇몇 연구자들은 러프집합분석이 매매시점결정에 적합한 도구라고 주장하였는데, 그 이유는 이 분석방법이 통제함수를 이용하여 시장의 패턴이 불확실할 때에는 거래를 위한 신호를 생성하지 않는다는 점 때문이었다. 러프집합은 분석을 위해 범주형 데이터만을 이용하므로, 분석에 사용되는 데이터는 연속형의 수치값을 이산화하여야 한다. 이산화란 연속형 수치값의 범주화 구간을 결정하기 위한 적절한 "경계값"을 찾는 것이다. 각각의 구간 내에서의 모든 값은 같은 값으로 변환된다. 일반적으로, 러프집합 분석에서의 데이터 이산화 방법은 등분위 이산화, 전문가 지식에 의한 이산화, 최소 엔트로피 기준 이산화, Na$\ddot{i}$ve and Boolean reasoning 이산화 등의 네 가지로 구분된다. 등분위 이산화는 구간의 수를 고정하고 각 변수의 히스토그램을 확인한 후, 각각의 구간에 같은 숫자의 표본이 배정되도록 경계값을 결정한다. 전문가 지식에 의한 이산화는 전문가와의 인터뷰 또는 선행연구 조사를 통해 얻어진 해당 분야 전문가의 지식에 따라 경계값을 정한다. 최소 엔트로피 기준 이산화는 각 범주의 엔트로피 측정값이 최적화 되도록 각 변수의 값을 재귀분할 하는 방식으로 알고리즘을 진행한다. Na$\ddot{i}$ve and Boolean reasoning 이산화는 Na$\ddot{i}$ve scaling 후에 그로 인해 분할된 범주값을 Boolean reasoning 방법으로 종속변수 값에 대해 최적화된 이산화 경계값을 구하는 방법이다. 비록 러프집합분석이 매매시점결정에 유망할 것으로 판단되지만, 러프집합분석을 이용한 거래를 통한 성과에 미치는 여러 이산화 방법의 효과에 대한 연구는 거의 이루어지지 않았다. 본 연구에서는 러프집합분석을 이용한 주식시장 매매시점결정 모형을 구성함에 있어서 다양한 이산화 방법론을 비교할 것이다. 연구에 사용된 데이터는 1996년 5월부터 1998년 10월까지의 KOSPI 200데이터이다. KOSPI 200은 한국 주식시장에서 최초의 파생상품인 KOSPI 200 선물의 기저 지수이다. KOSPI 200은 제조업, 건설업, 통신업, 전기와 가스업, 유통과 서비스업, 금융업 등에서 유동성과 해당 산업 내의 위상 등을 기준으로 선택된 200개 주식으로 구성된 시장가치 가중지수이다. 표본의 총 개수는 660거래일이다. 또한, 본 연구에서는 유명한 기술적 지표를 독립변수로 사용한다. 실험 결과, 학습용 표본에서는 Na$\ddot{i}$ve and Boolean reasoning 이산화 방법이 가장 수익성이 높았으나, 검증용 표본에서는 전문가 지식에 의한 이산화가 가장 수익성이 높은 방법이었다. 또한, 전문가 지식에 의한 이산화가 학습용과 검증용 데이터 모두에서 안정적인 성과를 나타내었다. 본 연구에서는 러프집합분석과 의사결정 나무분석의 비교도 수행하였으며, 의사결정나무분석은 C4.5를 이용하였다. 실험결과, 전문가 지식에 의한 이산화를 이용한 러프집합분석이 C4.5보다 수익성이 높은 매매규칙을 생성하는 것으로 나타났다.

지표환경변화 추적을 위한 훕스굴 시추사업 현황

  • 김정찬;김주용;양동윤;남욱현
    • 한국제4기학회:학술대회논문집
    • /
    • 한국제4기학회 2004년도 하계학술대회
    • /
    • pp.49-50
    • /
    • 2004
  • 푸른 진주라 불리는 훕스굴호는 러시아 국경에 인접한 몽고 북부의 청정호수로 해발 약 1,645m 지점에 위치한다. 훕스굴호의 길이는 약 136km이고, 폭은 20-40km이며, 최대수심은 약 262m 이다. 이 호수의 물은 세계에서 가장 깨끗한 담수 중 하나로 몽고 지표수원의 약 70%를 공급하고 있다. 훕스굴호는 바이칼 열곡대내에 형성된 일종의 구조호로 약 240만년 내지 400만년전에 형성된 것으로 추정되고 있다. 훕스굴호는 자연공원으로 지정되어 보호되고 있으며, 따라서 호수의 유역은 다행스럽게도 인간활동에 오염되거나 교란되지 않아 다양하고 흥미로운 육상/수성 생물상을 보유하고 있으며, 퇴적물 기록 역시 후기 신생대 동안의 중앙아시아의 지구환경 및 기후변화 연구에 매우 적합하다. 바이칼 시추사업 (Baikal Drilling Project)은 신생대 후기 동안의 중앙아시아의 지구조진화 및 전지구적 기후변화를 규명하기 위해 미국, 러시아, 일본, 독일 등이 참여한 다국가 공동사업이다. 바이칼 시추사업 연구팀은 지난 15년간 많은 노력과 예산을 투자하여 바이칼 호로부터 총 1,600m에 이르는 방대한 양의 퇴적물 코아를 성공적으로 회수하였고, 이 시료를 이용하여 후기 신생대 동안의 중부 유라시아 대륙의 고기후/고환경 진화과정을 성공적으로 규명하였다. 바이칼 시추사업이 성공적으로 진행됨에 따라, 이 사업에 참여했던 러시아와 일본의 과학자들은 바이칼호의 서쪽에 위치한 몽고 북부의 훕스굴에도 많은 관심을 가지게 되었으며, 동시에 바이칼 시추사업의 후속사업으로 훕스굴 시추사업을 새롭게 추진하게 되었다. 한편, 대륙내부에서의 제4기 지구환경 및 기후 변화 과정에 많은 관심을 가지고 연구해 오던 한국지질자원연구원도 2003년에 정식 회원으로 훕스굴 시추사업에 합류하였다. 훕스굴 시추사업 연구팀은 몽고의 지질광물자원연구소 (대표연구기관), 러시아의 지구화학연구소, 일본의 나고야대학교 그리고 한국의 지질자원연구원 등 4개국의 연구기관으로 구성되어 있다. 이들 4개 연구기관은 시추획득 및 기초연구 수행에 필요한 연구비를 현금 혹은 현물 (장비 포함)의 형태로 공동부담하고 있으며, 따라서 획득한 시추코아에 대해서도 각 연구기관이 전 구간에 대해 동일하게 25%의 소유권을 가지고 있다. 훕스굴 시추사업은 2008년까지 수행될 계획이며, 시추작업은 2005년까지 완료될 계획이다. 연구 진행과 관련하여, 공동연구의 명분을 높이고 분석의 효율성을 높이기 위해서 시료채취 및 기초자료 획득은 4개국의 연구원이 모여 공동으로 수행한 후의 결과물을 서로 공유하고, 자세한 전문분야 연구는 각 국의 대표기관이 독립적으로 수행하는 방식을 택하였다. 훕스굴에 대한 제1차 시추작업은 2004년 3월 말에 실시하였다. 시추작업 결과, 약 80m의 시추 코아가 성공적으로 회수되어 현재 러시아 이르쿠츠크 지구화학연구소에 보관중이다. 이 시추코아는 2004년 8월 중순경에 4개국 연구팀원들에 의해 공동으로 기재된 후에 분할될 계획이다. 분할된 시료는 국내로 운반되어 다양한 전문분야별 연구에 이용될 것이다. 한편, 제2차 시추작업은 2004년 12월에서 2005년 2월 사이에 실시될 계획이다. 수백만년에 이르는 장기간에 걸쳐 지구환경변화 기록이 보존되어 있는 훕스굴호에 대한 시추사업은 후기 신생대 동안 유라시아 대륙 중부에서 일어난 지구환경 및 기후변화를 이해함과 동시에 이러한 변화가 육상생태계 및 지표지질환경에 미친 영향을 이해하는데 크게 기여할 것이다.

  • PDF

움직임과 영상 패턴 서술자를 이용한 중복 동영상 검출 (Detecting near-duplication Video Using Motion and Image Pattern Descriptor)

  • 진주경;나상일;정동석
    • 대한전자공학회논문지SP
    • /
    • 제48권4호
    • /
    • pp.107-115
    • /
    • 2011
  • 본 논문은 대용량 동영상을 관리하기 위한 빠르고 효율적인 내용기반 중복 동영상 검출 알고리즘을 제안한다. 효율적인 중복 동영상 검출을 위해 대용량의 동영상을 처리하기 쉬운 작은 단위로 나누는 동영상 장면 전환 기반 분할 기술을 적용하였다. 동영상 서비스 및 저작권 보호 관련 사업모델의 경우, 필요한 기술은 아주 작은 구간의 동영상이나 한 장의 영상 을 검색하기보다는 상당한 길이 이상 일치하는 동영상을 파악하는 기술이 필요하다. 이러한 중복 동영상 검출을 위해 본 논문에서 동영상을 장면 전환을 기준으로 분할하여, 나누어진 장면 내에서 움직임 분포 서술자와 대표 프레임을 선택하여 프레임 서술자를 추출한다. 움직임 분포 서술자는 동영상 디코딩 과정에서 얻어지는 매크로 블록의 움직임 벡터를 이용한 장면 내 움직임 분포 히스토그램을 구성하였다. 움직임 분포 서술자는 정합시 고속 정합이 가능하도록 필터링 역할을 한다. 반면 움직임 정보만는 낮은 변별력을 가진다. 이를 높이기 위해 움직임 분포 서술자를 이용하여 정합된 장면간에 선택된 대표 프레임의 패턴 서술자를 이용하여 동영상의 중복 여부를 최종 판단한다. 제안된 방법은 실제 동영상 서비스 환경에서 우수한 인식률과 낮은 오인식률을 가질 뿐만아니라 실제 적용이 가능할 정도의 빠른 정합 속도를 얻을 수 있었다.

지구통계기법과 표면파 다중채널분석을 이용한 포항 지반의 SPT-N value 교차검증 (Cross-Validation of SPT-N Values in Pohang Ground Using Geostatistics and Surface Wave Multi-Channel Analysis)

  • 김경오;한희수
    • 한국산학기술학회논문지
    • /
    • 제21권10호
    • /
    • pp.393-405
    • /
    • 2020
  • 지반 및 기초의 안정성 평가, 지진의 액상화 평가 등을 위해서 지반강도 및 지하수 높이 등 다양한 지반정보가 필요하다. 대한민국에서 행해지는 표준관입시험(Standard Penetration Test, SPT) 결과는 국토지반정보포털시스템에 등록하게 되어있다. 비시추지역의 지반정보가 필요할 경우, 지구통계기법(Geostatistics)들을 응용할 수 있다. 본 논문은 경험적 베이지안 크리깅(Empirical Bayesian Kriging, EBK)과 역거리 가중치법(Inverse Distance Weighting Method, IDWM)을 이용하여 비시추지역의 지반정보를 구할 경우의 타당성에 관한 것이다. 이 기법들을 이용하기 위해 공간 보간에 범용적으로 적용되는 Esri사의 ArcGIS Pro 프로그램을 사용하였다. 본 해석에 사용된 지구통계기법들의 정확성을 검토하기 위하여, 표준관입시험에서 구한 시추지역 지반의 강도 정수 및 지하수의 높이를 해석기법의 결과와 교차 검증하였다. 또한, 지구물리학적 기법인 표면파 다중채널분석(Multichannel Analysis of Surface Waves, MASW)조사를 추가 수행하여, 본 해석에 사용된 기법들을 재검증하였다. 포항 북구 지역을 1.0km×1.0km로 분할하여 총 111개의 구역으로 분할하였으며, 경험적 베이지안 크리깅(EBK) 및 역거리 가중치법(IDWM)을 통한 표준관입시험치 및 지하수위에 대한 교차검증을 수행한 결과, 두 기법 모두 적합한 것으로 나타났다. 표면파 다중채널분석(MASW)은 대략적인 구간 영역을 제시하여, SPT N값의 분포양상과 지하수위를 명확히 파악하기 곤란하였다.

클래스 불균형 문제를 해결하기 위한 개선된 집중 샘플링 (Improved Focused Sampling for Class Imbalance Problem)

  • 김만선;양형정;김수형;챠위핑
    • 정보처리학회논문지B
    • /
    • 제14B권4호
    • /
    • pp.287-294
    • /
    • 2007
  • 실세계의 문제에서 많은 기계학습의 알고리즘들은 데이터의 클래스 불균형 문제에 어려움을 겪는다. 이러한 클래스 불균형 문제를 해결하기 위하여 데이터의 비율을 변경하거나 좀 더 나은 샘플링 전략으로 극복하려는 연구들이 제안되었다. 그러나 데이터의 비율을 변경하는 연구에서는 전체 데이터 분포의 특성을 고려하지 못하고, 샘플링 전략을 제안하는 연구에서는 여러 가지 제한 조건을 고려해야만 한다. 본 논문에서는 위의 두가지 방법의 장점을 모두 포함하는 개선된 집중 샘플링 방법을 제안한다. 제안된 방법에서는 클래스 불균형 문제를 해결하기 위해 학습에 유용한 데이터들을 샘플링하는데 스코어링에 기반한 데이터 분할 방법을 이용한다. 즉, 입력 데이터들에 대해 SOM(Self Organizing Map)의 학습 결과로 얻은 BMU(Best Matching Unit)와의 거리를 계산하고, 이 거리론 스코어라 한다. 측정된 스코어는 오름차순으로 정렬되며, 이 과정에서 입력 데이터의 분포가 재 표현되고, 재 표현된 분포는 전체 데이터의 특성을 대표하게 된다. 그 결과로 얻은 데이터들 중에서 유용하지 못한 데이터들에 대해 제거하는 과정을 수행하여 새로운 학습 데이터 셋을 얻는다. 새로운 학습 데이터 생성 과정에서는 재 표현된 분포의 결과를 두 구간(upper, lower)으로 분할하는데, 두 추간 사이의 데이터들은 유용하지 못한 패턴들로 간주되어 학습에 이용되지 않는다. 본 논문에서 제안한 방법은 클래스 불균형의 비율 감수 훈련 데이터의 크기 감소, 과적합의 방지 등 몇 가지 장점을 보인다. 제안한 방법으로 샘플링된 데이터에 kNN 을 적용하여, 분류 실험한 결과 심한 불균형이 있는 ecoli 데이터의 분류 성능이 최대 2.27배 향상되었다.