• 제목/요약/키워드: 이웃해 탐색 기법

검색결과 78건 처리시간 0.023초

비용기반 스케줄링 : Part II, 작업간 비용 전파 알고리즘 (Cost-Based Directed Scheduling : Part II, An Inter-Job Cost Propagation Algorithm)

  • 서민수;김재경
    • 지능정보연구
    • /
    • 제14권1호
    • /
    • pp.117-129
    • /
    • 2008
  • 현실세계의 복잡한 스케줄링 문제를 해결하기 위하여 AI기반의 비용기반 휴리스틱 방법들이 많이 제시되어 왔다. 하지만 다양한 작업(job)을 대상으로 하는 작업간 비용 전파 알고리즘(CPA)에 관한 연구는 부족한 상황이다. 그러한 CPA없이 스케줄링을 한다는 것은 지역적이고 불충분한 정보에 기반하므로 전체 비용을 최소화 하는 목적을 달성하는데 많은 어려움이 있었다. 전체 비용을 최소화 하기 위하여는 작업내 CPA와 작업간 CPA, 두 종류의 CPA가 필요하다. 작업내에서 변화가 생긴 비용에 관한 정보는 작업간 CPA를 통하여 연결된 이웃 작업으로 전파된다. 작업내 CPA는 이전 연구 [7] 주제이고, 이번 연구에서는 작업간 CPA와 이러한 비용 정보를 기반으로 전체 비용을 최소화 하는 비용기반 휴리스틱 스케줄링 기법을 제안한다. 즉, 이번 연구에서는 탐색 과정에서 각 activity의 비용 함수를 만들고 개선하는 작업간 CPA를 개발하고, 비용 정보를 일시적인 제약조건하의 전체 네트워크에 전파하는 방법을 개발하였다. 이러한 비용 전파 알고리듬을 이용함으로써 전체 스케줄링 비용을 최소화하는 다양한 비용기반 휴리스틱 기법들을 제시하였다.

  • PDF

MapReduce 환경에서 재그룹핑을 이용한 Locality Sensitive Hashing 기반의 K-Nearest Neighbor 그래프 생성 알고리즘의 개선 (An Improvement in K-NN Graph Construction using re-grouping with Locality Sensitive Hashing on MapReduce)

  • 이인희;오혜성;김형주
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권11호
    • /
    • pp.681-688
    • /
    • 2015
  • k-Nearest Neighbor(k-NN)그래프는 모든 노드에 대한 k-NN 정보를 나타내는 데이터 구조로써, 협업 필터링, 유사도 탐색과 여러 정보검색 및 추천 시스템에서 k-NN그래프를 활용하고 있다. 이러한 장점에도 불구하고 brute-force방법의 k-NN그래프 생성 방법은 $O(n^2)$의 시간복잡도를 갖기 때문에 빅데이터 셋에 대해서는 처리가 곤란하다. 따라서, 고차원, 희소 데이터에 효율적인 Locality Sensitive Hashing 기법을 (key, value)기반의 분산환경인 MapReduce환경에서 사용하여 k-NN그래프를 생성하는 알고리즘이 연구되고 있다. Locality Sensitive Hashing 기법을 사용하여 사용자를 이웃후보 그룹으로 만들고 후보내의 쌍에 대해서만 brute-force하게 유사도를 계산하는 two-stage 방법을 MapReduce환경에서 사용하였다. 특히, 그래프 생성과정 중 유사도 계산하는 부분이 가장 많은 시간이 소요되므로 후보 그룹을 어떻게 만드는 것인지가 중요하다. 기존의 방법은 사이즈가 큰 후보그룹을 방지하는데 한계점이 있다. 본 논문에서는 효율적인 k-NN 그래프 생성을 위하여 사이즈가 큰 후보그룹을 재구성하는 알고리즘을 제시하였다. 실험을 통해 본 논문에서 제안한 알고리즘이 그래프의 정확성, Scan Rate측면에서 좋은 성능을 보임을 확인하였다.

데이터마이닝 기법을 활용한 불법주차 영향요인 분석 (A Study on the Analysis Effect Factors of Illegal Parking Using Data Mining Techniques)

  • 이창희;김명수;서소민
    • 한국ITS학회 논문지
    • /
    • 제13권4호
    • /
    • pp.63-72
    • /
    • 2014
  • 우리나라는 급속한 경제발전과 고속성장으로 생활수준이 향상되면서 자동차 수요가 급격히 증가함에 따라 교통혼잡, 교통사고, 주차문제 등의 문제가 발생되고 있다. 자동차 증가로 인한 주차문제 중 불법주차는 교통혼잡을 야기하고 주차공간으로 인한 이웃간 분쟁의 원인이 되어 사회적 문제로 대두되고 있다. 이에 본 연구에서는 지방 광역시중 승용차 수단분담률이 높음에도 불구하고 불법주차 단속건수가 상대적을 적은 대전광역시를 대상으로 주차조사를 실시하였으며 불법주차에 대한 원론적인 문제를 파악하기 위해 의사결정나무모형 Exhaustive CHAID분석을 통하여 운전자들의 주차행위에 있어 불법주차를 선택하는 과정과 그에 따른 영향요인을 탐색하여 불법주차의 원인을 파악하고 해결하는 방안을 제시하고자 한다. 분석결과 불법주차를 선택하는 영향요인으로는 거리, 단속경험, 직업, 이용시간대 순으로 영향을 미치는 것으로 나타났으며 예측 모형은 최종적으로 4가지 노드가 도출되었다. 분석결과에 따른 불법주차의 해결방안으로는 공영주차장의 추가설치와 생계유지 및 조업차량의 주차공간 확보가 우선되어야 하고 불법주차 단속강화와 시민의식 고취를 위한 캠페인의 활성화가 필요하다.

패치 특징 코어세트 기반의 흉부 X-Ray 영상에서의 병변 유무 감지 (Leision Detection in Chest X-ray Images based on Coreset of Patch Feature)

  • 김현빈;전준철
    • 인터넷정보학회논문지
    • /
    • 제23권3호
    • /
    • pp.35-45
    • /
    • 2022
  • 현대에도 일부 소외된 지역에서는 의료 인력의 부족으로 인해 위·중증 환자에 대한 치료가 지연되는 경우가 많다. 의료 데이터에 대한 분석을 자동화하여 의료 서비스의 접근성 문제 및 의료 인력 부족을 해소하고자 하는 연구가 계속되고 있다. 컴퓨터 비전 기반의 진료 자동화는 훈련 목적에 대한 데이터 수집 및 라벨링 작업에서 많은 비용이 요구된다. 이러한 점은 희귀질환이나 시각적으로 뚜렷하게 정의하기 어려운 병리적 특징 및 기전을 구분하는 작업에서 두드러진다. 이상 탐지는 비지도 학습 전략을 채택함으로써 데이터 수집 비용을 크게 절감할 수 있는 방법으로 주목된다. 본 논문에서는 기존의 이상 탐지 기법들을 기반으로, 흉부 X-RAY 영상에 대해 이상 탐지를 수행하는 방법을 다음과 같이 제안한다. (1) 최적 해상도로 샘플링된 의료 영상의 색상 범위를 정규화한다. (2) 무병변 영상으로부터 패치 단위로 구분된 중간 수준 특징 집합을 추출하여 그 중 높은 표현력을 가진 일부 특징 벡터들을 선정한다. (3) 최근접 이웃 탐색 알고리즘을 기반으로 미리 선정된 무병변(정상) 특징 벡터들과의 차이를 측정한다. 본 논문에서는 PA 방식으로 촬영된 흉부 X-RAY 영상들에 대한 제안 시스템의 이상 탐지 성능을 세부 조건에 따라 상세히 측정하여 제시한다. PadChest 데이터세트로부터 추출한 서브세트에 대해 0.705 분류 AUROC를 보임으로써 의료 영상에 대한 이상 탐지 적용의 효과를 입증하였다. 제안 시스템은 의료 기관의 임상 진단 워크플로우를 개선하는 데에 유용하게 사용될 수 있으며, 의료 서비스 접근성이 낮은 지역에서의 조기 진단을 효율적으로 지원할 수 있다.

다중 피크의 영역 성장 기법에 의한 전기영동 젤의 영상 분석 ((Image Analysis of Electrophoresis Gels by using Region Growing with Multiple Peaks))

  • 김영원;전병환
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권5_6호
    • /
    • pp.444-453
    • /
    • 2003
  • 최근 생명공학(BT)에 대한 관심이 집중되면서, 새로운 생리활성 물질을 찾거나 유전자 정보를 분석하기 위한 목적으로 전기영동 젤의 영상 분석 기술에 대한 요구가 급증하고 있다. 이를 위해서는 젤 영상의 레인에서 각 밴드의 위치와 양을 정확히 측정해야 한다. 기존 연구에서는 주로 레인의 프로파일에서 피크를 탐색하는 접근방법을 사용하는데, 이 피크의 위치는 밴드에 있는 최대 자기 화소의 위치도 아니고 더욱이 밴드 무게중심의 위치도 아니기 때문에 밴드의 대표 위치로 인정하기 어렵다. 또한, 피크 추출을 쉽게 하기 위해 다양한 영상 향상 처리를 적용하기 때문에 밴드의 양을 측정하기에는 부적절한 경우가 많다. 본 논문에서는 영상의 상대적인 밝기를 변화시키지 않으면서 먼저 밴드의 영역을 추출한 후, 밴드 영역의 밝기 합으로 양을 구하고 이의 무게중심을 밴드 위치로 정하는 방식을 채택한다. 실제로, 먼저 젤 영상 히스토그램에 엔트로피기반 임계치를 설정하여 레인을 추출한 후, 밴드 영역 추출을 위해 서로 다른 세 가지 방법을 시도한다. 첫째, 추출된 레인을 이등분하는 중심선을 탐색하여 피크와 밸리를 찾고, 피크의 상하 밸리를 각 밴드의 최소 포함 박스영역으로 지정하는 방법(MER), 둘째, 앞의 방법에서와 같이 구한 피크를 영역 성장의 시드로 사용하여 이웃하는 밴드와의 중첩을 해결하면서 밴드 영역을 추출하는 방법(RG-1), 셋째, 이와 달리 레인을 삼등분하는 두 탐색선에서 피크를 찾고 동일한 밴드에 속하는 피크 쌍을 결정한 후 영역을 성장하는 방법(RG-2)을 제안한다. 이상의 세 방법을 비교하기 위해 밴드의 위치 및 양을 측정한 결과, 밴드 위치의 평균 오차는 레인의 길이를 단위 크기로 정규화 할 때, MER 방법이 6%, RG-1 방법이 3%, RG-2 방법이 1%로 나타났다. 또한, 밴드 양의 평균 오차는 레인 내 밴드들의 양의 합을 단위 크기로 정규화 할 때, MER 방법이 8%, RG-1 방법이 5%, RG-2 방법이 2%로 나타났다. 결과적으로, RG-2 방법이 밴드의 위치 및 양 추출에 있어서 정확도가 가장 높은 것으로 판명되었다.

빅데이터 기반 추천시스템 구현을 위한 다중 프로파일 앙상블 기법 (A Multimodal Profile Ensemble Approach to Development of Recommender Systems Using Big Data)

  • 김민정;조윤호
    • 지능정보연구
    • /
    • 제21권4호
    • /
    • pp.93-110
    • /
    • 2015
  • 기존의 협업필터링 추천시스템 연구는 상품에 대한 고객의 평점(rating)이나 구매 여부 데이터로부터 하나의 프로파일을 생성하고 이를 기반으로 추천 성능을 향상시킬 수 있는 새로운 알고리즘을 개발하는 위주로 진행되어 왔다. 그러나 빅데이터 환경이 도래하면서 기업이 수집할 수 있는 고객 데이터가 풍부해지고 다양해짐에 따라, 보다 정확하게 고객의 선호도나 행태를 파악하는 것이 가능하게 되었고 이러한 데이터, 즉 퍼스널 빅데이터(personal big data)를 추천시스템에 활용하는 연구의 필요성이 대두되고 있다. 본 연구에서는 마케팅의 시장세분화 이론에 근거하여 퍼스널 빅데이터로부터 고객의 선호도나 행태를 다양한 관점에서 표현할 수 있는 5종의 다중 프로파일(multimodal profile)을 개발하고, 이를 활용하여 협업필터링 추천시스템의 성능을 개선하고자 한다. 제안하는 5종의 다중 프로파일은 프로파일 통합 유사도, 개별 프로파일 유사도 평균, 개별 프로파일 유사도 가중 평균이라는 세 가지 앙상블 기법을 통해 협업필터링의 이웃(neighborhood) 탐색과정에 적용된다. 실제 퍼스널 빅데이터에 본 연구에서 제안하는 방법론을 적용한 결과, 단일 프로파일을 사용하는 협업필터링 알고리즘보다 추천 성능이 상당히 개선되었으며 앙상블 방법 중에서는 개별 프로파일 유사도 가중 평균 기법이 가장 높은 추천 성능을 보여주었다. 본 연구는 빅데이터 환경에서 추천시스템을 개발하고자 할 때, 어떠한 성격의 데이터로부터 고객의 특성을 규명하는 프로파일을 만들고 이를 어떻게 결합하여 사용하는 것이 효과적인 지 처음으로 제안하였다는 점에서 그 의의가 있다.

부도예측을 위한 KNN 앙상블 모형의 동시 최적화 (Investigating Dynamic Mutation Process of Issues Using Unstructured Text Analysis)

  • 민성환
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.139-157
    • /
    • 2016
  • 앙상블 분류기란 개별 분류기보다 더 좋은 성과를 내기 위해 다수의 분류기를 결합하는 것을 의미한다. 이와 같은 앙상블 분류기는 단일 분류기의 일반화 성능을 향상시키는데 매우 유용한 것으로 알려져 있다. 랜덤 서브스페이스 앙상블 기법은 각각의 기저 분류기들을 위해 원 입력 변수 집합으로부터 랜덤하게 입력 변수 집합을 선택하며 이를 통해 기저 분류기들을 다양화 시키는 기법이다. k-최근접 이웃(KNN: k nearest neighbor)을 기저 분류기로 하는 랜덤 서브스페이스 앙상블 모형의 성과는 단일 모형의 성과를 개선시키는 데 효과적인 것으로 알려져 있으며, 이와 같은 랜덤 서브스페이스 앙상블의 성과는 각 기저 분류기를 위해 랜덤하게 선택된 입력 변수 집합과 KNN의 파라미터 k의 값이 중요한 영향을 미친다. 하지만, 단일 모형을 위한 k의 최적 선택이나 단일 모형을 위한 입력 변수 집합의 최적 선택에 관한 연구는 있었지만 KNN을 기저 분류기로 하는 앙상블 모형에서 이들의 최적화와 관련된 연구는 없는 것이 현실이다. 이에 본 연구에서는 KNN을 기저 분류기로 하는 앙상블 모형의 성과 개선을 위해 각 기저 분류기들의 k 파라미터 값과 입력 변수 집합을 동시에 최적화하는 새로운 형태의 앙상블 모형을 제안하였다. 본 논문에서 제안한 방법은 앙상블을 구성하게 될 각각의 KNN 기저 분류기들에 대해 최적의 앙상블 성과가 나올 수 있도록 각각의 기저 분류기가 사용할 파라미터 k의 값과 입력 변수를 유전자 알고리즘을 이용해 탐색하였다. 제안한 모형의 검증을 위해 국내 기업의 부도 예측 관련 데이터를 가지고 다양한 실험을 하였으며, 실험 결과 제안한 모형이 기존의 앙상블 모형보다 기저 분류기의 다양화와 예측 성과 개선에 효과적임을 알 수 있었다.

기계학습을 이용한 단일 관련자극 P300기반 숨김정보검사 (One-probe P300 based concealed information test with machine learning)

  • 김혁;김현택
    • 인지과학
    • /
    • 제35권1호
    • /
    • pp.49-95
    • /
    • 2024
  • 국내 형사소송절차에서 진술의 진위여부 확인을 위해 사용하는 도구는 폴리그래프검사, 진술타당도분석, P300 기반 숨김정보검사 등이 있고, 이 중에서 폴리그래프검사의 사용빈도가 다른 도구들에 비하여 높다. 하지만, 검사결과를 뒷받침해 줄 수 있는 근거의 부족으로 인하여 재판과정에서 증거채택 가능성이 낮다. 폴리그래프검사를 뒷받침해 줄 수 있는 방법으로, 사전연구가 풍부한 P300기반 숨김정보검사가 주목을 받아 왔지만, 기존의 검사기법은 두 가지 제한점이 있어 실제 사건에서의 활용도는 낮은 편이다. 첫째, 검사에 필요한 관련자극만 3개 또는 6개 등, 사전에 노출되지 않은 정보가 다수 필요하기 때문에 실제 사건에서 사용 가능성이 낮다. 둘째, 기존의 P300기반 숨김정보검사 프로토콜에서는 관련자극과 무관련자극에 대한 P300요소 전위값을 명확하게 구분하기 위하여 오드볼패러다임을 사용하기 때문에 무관련자극에 대한 P300요소 전위값이 과소 추정될 가능성이 있다. 본 연구에서는 검사의 사용 가능성을 높이기 위하여 사전에 노출되지 않은 정보가 단 하나만 있어도 검사가 가능한 단일 관련자극을 사용하는 수정된 P300기반 숨김정보검사 프로토콜을 탐색하였고, 오드볼패러다임 사용으로 인한 무관련자극에 대한 P300요소 전위값이 과소 추정되는 문제를 보완하기 위하여 다양한 기계학습의 분류 알고리즘을 비교하였다. 연구결과 단일 관련자극으로 여성과 남성의 얼굴자극을 사용할 경우, 자극은 400ms 지속시간으로 60회 제시하고, 절단값을 유죄집단은 90%로 무죄집단은 30%로 하여 정점-정점 방법으로 P300요소 전위값을 분석하는 것이 적합함을 확인하였다. 단어자극의 경우, 지속시간을 300ms로 60회 제시하고, P300요소 전위값 분석방법은 얼굴자극과 동일하게 시행하는 것이 적합하다는 것을 확인하였다. 또한 관련자극과 무관련자극에 대한 정점-정점 P300요소 전위값을 6가지 기계학습 분류 알고리즘을 사용하여 분석한 결과, 로지스틱 회귀(LR), 선형 판별 분석(LDA), K-최근접 이웃(KNN) 알고리즘이 관련자극과 무관련자극의 분류에 적합하다는 것을 확인하였다.