• 제목/요약/키워드: 알고리즘 분류체계

검색결과 126건 처리시간 0.023초

전통문화 콘텐츠 표준체계를 활용한 자동 텍스트 분류 시스템 (A System for Automatic Classification of Traditional Culture Texts)

  • 허윤아;이동엽;김규경;유원희;임희석
    • 한국융합학회논문지
    • /
    • 제8권12호
    • /
    • pp.39-47
    • /
    • 2017
  • 한국 문화의 역사, 전통과 관련된 디지털 웹 문서가 증가하게 되었다. 하지만 창작자 또는 전통 문화와 관련된 소재를 찾는 사용자들은 정보를 검색해도 결과가 충분하지 않았으며 원하는 정보를 얻지 못하는 경우가 나타나고 있다. 이런 효과적인 정보를 접하기 위해서는 문서 분류가 필요하다. 과거에 문서 분류는 작업자가 수작업으로 문서 분류하여 시간과 비용이 많이 소비하는 어려움이 있었지만, 최근 기계학습 기반으로 한 자동 문서 분류를 통해 효율적인 문서 분류가 이루어진다. 이에 본 논문은 전통문화 콘텐츠를 체계적인 분류체계로 구성한 한민족정보문화마당 데이터를 기반으로 전통문화 콘텐츠 자동 텍스트 분류 모델을 개발한다. 본 연구는 한민족정보문화마당 텍스트 데이터에 대해 단어 빈도수를 추출하기 위해 TF-IDF모델, Bag-of-Words 모델, TF-IDF/Bag-of-Words를 결합한 모델을 적용하여 각각 SVM 분류 알고리즘을 사용하여 전통문화 콘텐츠 자동 텍스트 분류 모델을 개발하여 성능평가를 확인하였다.

빅데이터 환경에서 텍스트마이닝 기법을 활용한 공공문서 분류체계의 적용사례 연구 (Case Study on Public Document Classification System That Utilizes Text-Mining Technique in BigData Environment)

  • 심장섭;이강욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 추계학술대회
    • /
    • pp.1085-1089
    • /
    • 2015
  • 과거의 텍스트마이닝기법은 텍스트 자체의 복잡성과 텍스트 내에 산재한 변수의 자유도 때문에 분석 알고리즘을 구현하는데 어려움이 있었다. 의미 있는 정보를 얻기 위하여 어렵게 알고리즘을 구현했다고 하더라도, 기계적으로 텍스트 분석에 소요되는 시간이 텍스트를 사람이 직접 읽어 분석 하는 것보다 많은 시간이 요구 되었다. 그러나 최근 하드웨어와 분석 알고리즘의 발전과 함께 빅데이터라는 기술이 등장하였으며, 앞에서 설명한 제약사항을 극복할 수 있게 되었고, 텍스트마이닝을 통한 분석이 현실세계에서 그 가치를 충분히 인정받고 있다. 만약, 텍스트의 탐색 수준에서 벗어나 마이닝을 통하여 분석이 가능하다면 텍스트 분석에 소비되는 인적, 물적 자원의 비용을 절감할 수 있기 때문에 공공분야에서 절실히 요구되는 창조적인 일에 더 많은 자원을 효과적으로 활용할 수 있을 것이다. 이에 본 논문에서는 인적 자원이 수작업으로 하는 공공분야 문서 분류의 결과값과 빅데이터 환경에서 텍스트마이닝기반의 문서내 단어 빈도수(TF-IDF)와 문서간 코사인 유사도(Cosine Similarity)를 활용한 공공분야 문서분류의 결과값을 비교하여 평가한다.

  • PDF

피싱 웹사이트 URL의 수준별 특징 모델링을 위한 컨볼루션 신경망과 게이트 순환신경망의 퓨전 신경망

  • 부석준;김혜정
    • 정보보호학회지
    • /
    • 제29권3호
    • /
    • pp.29-36
    • /
    • 2019
  • 폭발적으로 성장하는 소셜 미디어 서비스로 인해 개인간의 연결이 강화된 환경에서는 URL로써 전파되는 피싱 공격의 위험성이 크게 강조된다. 최근 텍스트 분류 및 모델링 분야에서 그 성능을 입증받은 딥러닝 알고리즘은 피싱 URL의 구문적, 의미적 특징을 각각 모델링하기에 적절하지만, 기존에 사용하는 규칙 기반 앙상블 방법으로는 문자와 단어로부터 추출되는 특징간의 비선형적인 관계를 효과적으로 융합하는데 한계가 있다. 본 논문에서는 피싱 URL의 구문적, 의미적 특징을 체계적으로 융합하기 위한 컨볼루션 신경망 기반의 퓨전 신경망을 제안하고 기계학습 방법 중 최고의 분류정확도 (0.9804)를 달성하였다. 학습 및 테스트 데이터셋으로 45,000건의 정상 URL과 15,000건의 피싱 URL을 수집하였고, 정량적 검증으로 10겹 교차검증과 ROC커브, 정성적 검증으로 오분류 케이스와 딥러닝 내부 파라미터를 시각화하여 분석하였다.

상황인식기반 선형회귀의 적응적 가중치를 적용한 클러스터링 (Clustering with Adaptive weighting of Context-aware Linear regression)

  • 이강환
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.271-273
    • /
    • 2021
  • 본 논문은 이동노드의 클러스터링내에서 보다 효율적인클러스터링을 제공하고 유지하기위한 딥러닝의 선형회귀적 적응적 보정가중치에 따른 군집적 알고리즘을 제안한다. 대부분의 클러스터링 군집데이터를 처리함에 있어 상호관계에 따른 분류체계가 제공된다. 이러한 경우 이웃한 이동노드중 목적노드와는 연결가능성이 가장높은 이동노드를 클러스터내에서 중계노드로 선택해야 한다. 본 연구에서는 이러한 상황정보를 이해하고 동적이동노드간 속도와 방향속성정보간의 상관관계의 친밀도를 고려한 자율학습기반의 회귀적 모델에서 적응적 가중치에 따른 분류를 제시한다. 본 논문에서는 이러한 상황정보를 이해하고 클러스터링을 유지할 수 있는 자율학습기반의 적응적 가중치에 따른 딥러닝 모델을 제시 한다.

  • PDF

도시부 ATIS 적용을 위한 다중 표지 덩굴망 알고리즘의 개발 (A Development of dynamic Multi-labelling Vine Algorithm for Urban ATIS Application)

  • 박상준
    • 대한교통학회:학술대회논문집
    • /
    • 대한교통학회 1998년도 Proceedings 제34회 추계 학술발표회
    • /
    • pp.161-170
    • /
    • 1998
  • 기존에 건설된 교통시설의 운영효율을 극대화하기 위한 지능형 교통체계의 한 분야인 ATIS는 도로를 이용하는 통행자에게 편리성을 제공하는 동시에 도로를 효율적으로 운영할 수 있는 정보체계이다. ATIS 체계하에서 통행자에게 신뢰성 있는 정보를 제공하기 위해서는 교차로서의 회전에 의한 지체를 정확하게 반영함은 물론이고 실시간으로 변화하는 교통상황을 반영할 수 있는 동적인 최단경로 탐색 알고리즘이 요구된다. 하지만 기존에 발표된 동적인 최단경로 탐색 알고리즘은 회전에 대한 정보를 반영하지 못하며 정적인 최단경로 탐색 알고리즘은 회전에 대한 정보를 반영하지 못하며 정적인 탐색알고리즘 조차 회전에 대한 정보를 정확히 반영하지 못한다. 본 연구에서는 이러한 이유에서 알고리즘 내부에서 회전을 반영하기 위해 수정형 덩굴망 알고리즘의 표지기법을 이용하여 동적인 최단경로 탐색알고리즘을 개발하였다. 본 연구에서 개발한 동적 최단경로 탐색 알고리즘은 정적인 상태의 수정형 덩굴망 알고리즘에 시간에 따라 변화하는 교통상황을 반영하기 위해 시간에 대한 변수를 추가하였다. 이렇게 해서 알고리즘은 시간대별로 변화하는 통행시간을 고려하여 최단 경로를 탐색하게 되며 출발시점을 기준으로 표지를 설정하여 모든 앞선 시간에 대해 경로를 고려하도록 하였다. 매 단계에서 전 노드를 추적하여 회전에 관한 정보를 반영하도록 하였다. 따라서 본 연구에서 개발한 최단경로 탐색 알고리즘은 교차로에서의 회전에 대한 정보와 통행금지 등을 정확히 반영하며 실시간으로 변화하는 통행시간을 반영함으로써 신뢰성 있는 노선 정보를 ATIS를 이용하는 통행자들에게 제공하는데 활용될 수 있는 기법이다.적으로 세부적 차종분류로 접근한다.의 영향들을 고려함으로써 가로망 설계 과정에서 가로망의 상반된 역할인 이동성과 접근성의 비교가 가능한 보다 현실적인 가로망 설계 모형을 구축하고자 한다. 지금까지 소개된 가로망 설계모형들은 용량변화에 대한 설계변수의 형태에 따라 이산적 가로망 설계 모형과 연속적 가로망 설계모형으로 나뉘어지게 된다. 본 논문의 경우, 계산속도의 향상 측면에서는 연속적 가로망 설계 모형을 도입할 수 있지만, 이때 요구되는 도로용량이 이산적인 변수(차선 수)로 결정되어야만 신호제어 변수를 결정할 수 있기 때문에, 이산적 가로망 설계 모형이 사용된다. 하지만, 이산적 설계모형의 경우 조합최적화 문제이므로 정확한 최적해를 구하기 위해서는 상당한 시간이 소요되며, 경우에 따라서는 국부 최적해에 빠지게 된다. 이러한 문제를 극복하기 위해, 우선 이상적 모형의 근사화, 혹은 조합최적화문제를 위해 개발된 Simulated Annealing기법의 적용, 연속적 모형의 변수를 이산화하는 방법 등 다양한 모형들을 고려해 본 뒤, 적절한 모형을 적용할 것이다. 가로망 설계 모형에서 신호제어를 고려하기 위해서는 주어진 가로망에 대한 통행 배정과정에서 고려되는 통행시간을 링크통행시간과 교차로 지체시간을 동시에 고려해야 하는데, 이러한 문제의 해결을 위해서 최근 활발히 논의되고 있는 교차로에서의 신호제어에 대응하는 통행배정 모형을 도입하여 고려하고자 한다. 이를 위해서 지금까지 연구되어온 Global Solution Approach와 Iterative Approach를 비교, 검토한 뒤 모형에 보다 알맞은 방법을 선택한다. 차량의 교차로 통행을 고려하는 perf

  • PDF

Na$ddot{i}$ve-Bayesian Classifier를 이 용한 전자 카탈로그 자동 분류 시스템 (Extending Na$ddot{i}$ve Bayesian Classifier for Catalog Classification Systems)

  • 서광훈;이경종;김현철;이태희;이상구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.91-93
    • /
    • 2004
  • B2B Marketplace상에서의 거래에서 나타나는 주요한 특징은 다품종 및 대량의 물품 거래가 n:n거래 관계에 놓여있다는 점과 거래자가 원활한 거래 및 기업 내 관리를 위해 각자의 전자 카탈로그를 이용한 거래를 원한다는 정이다. 하지만 개별적인 전자 카탈로그 사용과 미흡한 표준안은 전자 카탈로그 상호 연계의 걸림돌이 되어 시장 형성의 걸림돌이 되고 있다. B2B Marketplace는 표준 분류체계를 중심으로 거래 대상 상품을 재분류하여 구매 당사자간의 거래 대상 물품에 대한 상호 애핑을 지원하는 방법 등으로 이를 충족시키려 하고 있다. 하지만 요청되는 다량의 물품에 대해 매번 분류를 수행해야 하는 고비용의 작업이라는 문제점이 있다. 본 논문에서는 이를 극복하기 위하여 기계학습 기법을 이용한 전자 카탈로그 상품 자동분류기를 모델링하고 이를 구현하는 것에 초점을 두었다. 상품의 속성별로 분류에 끼치는 영향력이 다론 것이라는데 착안하여 전자 카탈로그를 상품 단위로 재 모델링 하였으며 속성별 정보가 풍부하지 못한 정물 극복하기 위하여 속성값을 어휘 단위로 구분한 데이터를 추가 하는 확장 모델을 정의하였다. 또한 해당 모델을 학습시키기 위한 알고리즘으로는 속성별로 다른 가중치를 부여 할 수 있도록 확장된 Naive Bayesian Classifier를 고안하였다. 그리고 이론 B2B Market Place상의 실 데이터에 적용하여 고안된 모델의 유효성을 검증하였다.

  • PDF

인공표식의 면적을 이용하는 영상 기반 헤드 트랙커 설계 (Design of the Vision Based Head Tracker Using Area of Artificial Mark)

  • 김종훈;이대우;조겸래
    • 한국항공우주학회지
    • /
    • 제34권7호
    • /
    • pp.63-70
    • /
    • 2006
  • 본 논문은 영상기반 헤드 트랙커에 인공 표식의 면적을 이용하는 연구를 기술하였다. 헤드 트랙커 체계는 병진운동과 회전운동으로 구성되어 있으며, 이들은 웹 카메라에 의하여 감지되었다. 감지된 영상은 영상처리 기법과 인공 신경망에 의하여 운동에 따른 결과를 만들게 된다. 헤드 트랙커가 사용될 항공기의 조종석의 특성상 병진운동은 헬멧의 특정 색을 추적하게 하였다. 회전 운동은 인공 신경망을 이용하여 추적하였으며, 헬멧에 표시된 두 가지 색의 면적 비율을 입력 값으로 사용하였다. 여기서 역전파 알고리즘과 RBFN을 사용하였다. 두 알고리즘은 머리의 움직임과 같은 비선형 체계를 분류하고 추적하는데 용이한 알고리즘으로 역전파 알고리즘은 피드백 특성을, RBFN은 확률적 특성을 이용한다. 본 논문에서는 회전운동에 어느 알고리즘이 더 적합한 알고리즘인지 비교하였다.

군집분석 및 커뮤니티 분석 기법을 활용한 직무분석 사례 연구 (A Case Study on Job Analysis Utilizing Cluster Analysis and Community Analysis)

  • 조일현
    • 컴퓨터교육학회논문지
    • /
    • 제7권1호
    • /
    • pp.151-165
    • /
    • 2004
  • 본 연구의 목적은 군집 분석(Cluster Analysis) 및 사회연결망 분석 기법의 일종인 커뮤니티(Community)기법을 활용한 직무 분석 사례를 소개하고 그 결과를 음미해 보는데 있다. 이러한 작업을 통해 기존에 활용되던 직무분석 기법을 보완할 수 있는 계량적 방법론을 구안해냄으로써 궁극적으로 역량기반 커리큘럼의 개발 및 교수체제 설계 시 보다 분석적, 과학적인 준거 자료를 확보할 수 있을 것으로 기대하였다. 본 연구를 위한 직무분석 자료는 국내 대규모 제조업체인 S사에서 인터뷰 및 설문을 통해 수집되었다. 이 자료를 활용하여 실시된 군집 분석의 결과 직무들 간의 유사성에 대한 군집 분석 결과는 공식적인 직무 분류체계와 상당한 차이를 보이고 있음이 판명되었다. 이는 조사된 모든 측면에서 일관되게 확인되었으며, 각 측면별로 다소 상이한 클러스터링 패턴을 보이고 있었다. 군집 분석에 이어 직무들 간의 상호 연결관계 네트워크에 대한 사회연결망분석이 실시되었는데, 그 결과 명확한 중심-주변 구조와 함께 클러스터링 구조를 갖고 있음을 확인할 수 있는데, 이는 공식적인 직무분류체계에서 예상할 수 있는 것과도 다르고 또한 직무 간 내용적 유사성 구조와도 차이가 있는 독특한 패턴을 보이고 있음을 보이고 있는 결과였다. 이러한 연구 결과를 통해서 직무분석을 위한 새로운 분석 알고리즘으로서 군질 분석 및 커뮤니티 분석 기법의 유용성이 확인되었다. 나아가 향후 교육체계 설계를 위해 선행되는 직무분석 시 유의할 점들을 논의하였다.

  • PDF

전자 카탈로그 자동분류에서 $Na\ddot{i}ve-Bayesian$ Classifier 데이터 모델 확장 (Extending Data Model of $Na\ddot{i}ve-Bayesian$ Classifier in e-Catalog Classification)

  • 김성환;김현철;이태희;이상구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.100-102
    • /
    • 2005
  • 인터넷 환경에서의 B2B Market Place의 출현은 판매자와 구매자와의 다자간 거래를 가능하게 하였다. 이러한 기반에서 상품정보를 포함하는 전자 카탈로그의 활용은 나날이 증가하고 있다. 그러나 동일한 상품에 대한 분류체계와 기준이 다르므로 전자카탈로그에 대한 재분류는 고비용을 초래하는 필수 불가결한 문제로 남게 되었다. 본 연구에서는 이러한 문제를 해결하기 위해 기계학습 기법을 이용한 $Na\ddot{i}ve$ Bayesian classifier 모델을 사용하였다 학습 데이터를 생성해야 하는 $Na\ddot{i}ve$ Bayesian 알고리즘 적용 시 전자 카탈로그는 일반 문서보다 상대적으로 학습 정보가 적으므로 데이터 모델의 확장을 통해 학습 정보를 생성하여 이러한 단점을 보완하였다. 전자 카탈로그 자동분류에 있어서 효과적이고 풍부한 양의 학습 데이터를 생성하는 것이 분류 정확도 향상에 중요한 영향을 미침을 실험을 통해 확인하였다.

  • PDF

제약만족 최적화 문제를 위한 백트래킹 탐색의 구조화 (A Backtracking Search Framework for Constraint Satisfaction Optimization Problems)

  • 손석원
    • 정보처리학회논문지A
    • /
    • 제18A권3호
    • /
    • pp.115-122
    • /
    • 2011
  • 모든 제약만족 최적화 문제의 해를 구하는 일반화된 알고리즘을 구하는 것은 매우 어렵다. 그러나 결정 변수의 특성에 따라 세분화된 문제는 해를 위한 알고리즘을 구하기에 더 쉽다는 가정을 할 수 있다. 이와 같은 가정 하에 문제를 세분화 시키는 문제분류규칙을 제안하고 세분화된 문제의 특성에 맞는 백트래킹 알고리즘을 개발한다. 백트래킹을 이용한 깊이우선탐색에서 해를 빨리 찾기 위한 방법 중 하나는 탐색되는 노드의 순서를 효과적으로 배열하는 것이다. 정적 특성이 우세한 무선 센서 네트워크의 클러스터 헤드 위치문제와 동적 및 정적 특성의 혼합특성을 갖는 RFID 리더 간섭 최소화 문제를 선택하여 최적의 변수 순서화 알고리즘을 개발하고 기존의 방법과 비교하였다. 결과적으로 문제를 세분화시킴으로써 체계적인 탐색을 위한 백트래킹의 구조화를 실현하였다. 또한 개발된 백트래킹 알고리즘의 성능이 우수함을 보였다.