• 제목/요약/키워드: 이웃 문서

검색결과 21건 처리시간 0.027초

텍스트 마이닝 기법을 이용한 컴퓨터 네트워크의 침입 탐지 (Using Text Mining Techniques for Intrusion Detection Problem in Computer Network)

  • 오승준;원민관
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권5호
    • /
    • pp.27-32
    • /
    • 2005
  • 최근 들어 데이터 마이닝 기법을 컴퓨터 네트워크의 침입 탐지에 적용하려는 많은 연구가 진행되고 있다. 본 논문에서는 침입 탐지 분야에서 프로그램 행위가 정상적인지 비정상적인지를 분류하기 위한 방법을 연구한다. 이를 위해, 택스트 마이닝 기법중의 하나인 k 최근접 이웃 (kNN) 분류기를 이용한 새로운 방법을 제안한다. 본 논문에서는 택스트 분류 기법을 적용하기 위해 각각의 시스템 호출을 단어로 간주하고, 시스템 호출의 집합들을 문서로 간주한다. 이러한 문서들은 kNN 분류기를 이용하여 분류된다. 간단한 예제를 통하여 제안하는 절차를 소개한다.

  • PDF

문서 영상 내 테이블 영역에서의 단어 추출 (Word Extraction from Table Regions in Document Images)

  • 정창부;김수형
    • 정보처리학회논문지B
    • /
    • 제12B권4호
    • /
    • pp.369-378
    • /
    • 2005
  • 문서 영상은 문서 구조 분석을 통하여 텍스트, 그림, 테이블 등의 세부 영역으로 분할 및 분류되는데, 테이블 영역에 있는 단어는 다른 영역의 단어보다 의미가 있기 때문에 주제어 검색과 같은 응용 분야에서 중요한 역할을 한다. 본 논문에서는 문서 영상의 테이블 영역에 존재하는 문자 성분을 단어단위로 추출하는 방법을 제안한다. 테이블 영역에서의 단어 추출은 실질적으로 테이블을 구성하는 셀 영역에서 단어를 추출하는 것이기 때문에 정확한 셀 추출 과정이 필요하다. 셀 추출은 연결 요소를 분석하여 테이블 프레임을 찾아내고, 교차점 검출은 전체가 아닌 테이블 프레임에 대해서만 수행한다. 잘못 검출된 교차점은 이웃하는 교차점과의 관계를 이용하여 수정하고, 최종 교차점 정보를 이용하여 셀을 추출한다. 추출된 셀 내부에 있는 텍스트 영역은 셀 추출 과정에서 분석한 문자성분의 연결 요소 정보를 재사용하여 결정하고, 결정된 텍스트 영역은 투영 프로파일을 분석하여 문자연로 분리된다. 마지막으로 분리된 문자열에 대하여 갭 군집화와 특수 기호 검출을 수행함으로써 단어 분리를 수행한다. 제안 방법의 성능 평가를 위하여 한글 논문 영상으로부터 추출한 총 In개의 테이블 영상에 대해 실험한 결과, $99.16\%$의 단어 추출 성공률을 얻을 수 있었다.

Topographic non-negative matrix factorization에 기반한 텍스트 문서로부터의 토픽 가시화 (Topographic Non-negative Matrix Factorization for Topic Visualization from Text Documents)

  • 장정호;엄재홍;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.324-329
    • /
    • 2006
  • Non-negative matrix factorization(NMF) 기법은 음이 아닌 값으로 구성된 데이터를 두 종류의 양의 행렬의 곱의 형식으로 분할하는 데이터 분석기법으로서, 텍스트마이닝, 바이오인포매틱스, 멀티미디어 데이터 분석 등에 활용되었다. 본 연구에서는 기본 NMF 기법에 기반하여 텍스트 문서로부터 토픽을 추출하고 동시에 이를 가시적으로 도시하기 위한 Topographic NMF (TNMF) 기법을 제안한다. TNMF에 의한 토픽 가시화는 데이터를 전체적인 관점에서 보다 직관적으로 파악하는데 도움이 될 수 있다. TNMF는 생성모델 관점에서 볼 때, 2개의 은닉층을 갖는 계층적 모델로 표현할 수 있으며, 상위 은닉층에서 하위 은닉층으로의 연결은 토픽공간상에서 토픽간의 전이확률 또는 이웃함수를 정의한다. TNMF에서의 학습은 전이확률값의 연속적 스케줄링 과정 속에서 반복적 파리미터 갱신 과정을 통해 학습이 이루어지는데, 파라미터 갱신은 기본 NMF 기반 학습 과정으로부터 유사한 형태로 유도될 수 있음을 보인다. 추가적으로 Probabilistic LSA에 기초한 토픽 가시화 기법 및 희소(sparse)한 해(解) 도출을 목적으로 한 non-smooth NMF 기법과의 연관성을 분석, 제시한다. NIPS 학회 논문 데이터에 대한 실험을 통해 제안된 방법론이 문서 내에 내재된 토픽들을 효과적으로 가시화 할 수 있음을 제시한다.

  • PDF

이질성 학습을 통한 문서 분류의 정확성 향상 기법 (Improving the Accuracy of Document Classification by Learning Heterogeneity)

  • 윌리엄;현윤진;김남규
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.21-44
    • /
    • 2018
  • 최근 인터넷 기술의 발전과 함께 스마트 기기가 대중화됨에 따라 방대한 양의 텍스트 데이터가 쏟아져 나오고 있으며, 이러한 텍스트 데이터는 뉴스, 블로그, 소셜미디어 등 다양한 미디어 매체를 통해 생산 및 유통되고 있다. 이처럼 손쉽게 방대한 양의 정보를 획득할 수 있게 됨에 따라 보다 효율적으로 문서를 관리하기 위한 문서 분류의 필요성이 급증하였다. 문서 분류는 텍스트 문서를 둘 이상의 카테고리 혹은 클래스로 정의하여 분류하는 것을 의미하며, K-근접 이웃(K-Nearest Neighbor), 나이브 베이지안 알고리즘(Naïve Bayes Algorithm), SVM(Support Vector Machine), 의사결정나무(Decision Tree), 인공신경망(Artificial Neural Network) 등 다양한 기술들이 문서 분류에 활용되고 있다. 특히, 문서 분류는 문맥에 사용된 단어 및 문서 분류를 위해 추출된 형질에 따라 분류 모델의 성능이 달라질 뿐만 아니라, 문서 분류기 구축에 사용된 학습데이터의 질에 따라 문서 분류의 성능이 크게 좌우된다. 하지만 현실세계에서 사용되는 대부분의 데이터는 많은 노이즈(Noise)를 포함하고 있으며, 이러한 데이터의 학습을 통해 생성된 분류 모형은 노이즈의 정도에 따라 정확도 측면의 성능이 영향을 받게 된다. 이에 본 연구에서는 노이즈를 인위적으로 삽입하여 문서 분류기의 견고성을 강화하고 이를 통해 분류의 정확도를 향상시킬 수 있는 방안을 제안하고자 한다. 즉, 분류의 대상이 되는 원 문서와 전혀 다른 특징을 갖는 이질적인 데이터소스로부터 추출한 형질을 원 문서에 일종의 노이즈의 형태로 삽입하여 이질성 학습을 수행하고, 도출된 분류 규칙 중 문서 분류기의 정확도 향상에 기여하는 분류 규칙만을 추출하여 적용하는 방식의 규칙 선별 기반의 앙상블 준지도학습을 제안함으로써 문서 분류의 성능을 향상시키고자 한다.

개인화 추천시스템의 성능 향상 적용 알고리즘 분석 (An Analysi s of Performance Improvement Algorithm for Personalized Recommender System)

  • 윤수진;윤희병
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2005년도 춘계학술대회 학술발표 논문집 제15권 제1호
    • /
    • pp.181-184
    • /
    • 2005
  • 무수히 많은 정보 중에서 특정 사용자에게 가장 유용할 것으로 판단되는 정보를 추천하여 제공함으로써 특정 사용자의 편의를 돕는 시스템이 추천시스템이다. 이러한 추천시스템에 성공적으로 적용된 알고리즘이 협력적 필터링이며 이것은 다른 사용자로부터 먼저 평가된 웹 문서를 제공받아 이를 축적하고 다시 사용자에게 환원하는 알고리즘이다. 하지만 이 알고리즘은 초기평가, 희소성, 확장성 둥의 문제점을 내포하고 있다. 따라서 본 논문은 이러한 문제점을 해결하고 성능 향상을 하기 위해 적용된 개인화 추천시스템 관련 최신 알고리즘들을 비교하고 분석한 결과를 제시한다. 이를 위해 먼저 최근에 발표된 협력적 필터링과 최근접 이웃 알고리즘, 인공 지능기술을 이용한 알고리즘, 군집화 알고리즘 둥 각각에 대한 기술적 분석 결과를 수행한다. 그런 후 이들 다양한 알고리즘들의 조합을 통한 성능 향상 결과에 대한 비교분석과 각각의 조합에 대한 장단점 분석 결과도 또한 제시한다.

  • PDF

2차원 마르코프 랜덤 필드를 이용한 팩시밀리 영상 복원

  • 윤명영;김주성;서민자
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 1997년도 춘계학술대회 발표논문집
    • /
    • pp.141-161
    • /
    • 1997
  • 팩시밀리로부터 수신된 영상은 글자를 두껍게 하는 돌출잡영(salient noise), 문자주변에 점이 추가되는 고춧가루 잡영(pepper noise), 선의절단을 일으키는 백색잡영(white noise)으로 인하여 가독성이 떨어진다. 수신된 팩시밀리 영상을 원래의 영상으로 복원하기 위하여 최근에 Handley 와 Dougherty가 처음으로 형태학적 복원 방법을 제안하였다. 형태학적 복원 방법은 돌출잡영에 대해서 효과적이었지만, 확률적으로 발생하는 백색잡영과 고춧가루잡영에 대해서는 팩시밀리 영상을 결정적 수열(deterministic sequence)로다루었기 때문에 효과적이지 못했다. 본 논문에서는 주사과정, 고딩과정, 그리고 통신과정에서 생성되는 돌출, 고춧가루, 백색잡영에 의해 훼손된 팩시밀리 영상을 칼만여과를 이용하여 복원하는 새로운 방법을 제안하였다. 제안된 방법은 모델링과 복원 두 단계로 구축된다. 첫째, 이웃 화소들과의 종속관계를 갖는 팩시밀리 영상을 마르코프 랜덤 필드를 바탕으로 팩시밀리 시스템 모델을 제안하였다. 둘째, 제안된 팩시밀리 시스템 모델을 칼만 여과과정의 시스템 모델 및 관측모델로 재구성한 다음, 칼만 여과과정의 ill-conditioned 문제를 극복하기 위하여 양정치 (positive definite)공분산 행렬을 유도하여 새로운 복원방법을 제안하였다. 제안된 방법의 복원 능력을 검증하기 위하여 사무실에서 가장 많이 사용되는 한글을 사용하여 알파벳 대소문자, 숫자, 특수문자로 구성된 문서를 만들어 실험하였다. 그 결과, 제안된 방법이 형태학적인 복원 방법보다 성능이 우수함을 밝혔다.

북 마크 자동 분류를 위한 학습 에이전트 (A Learning Agent for Automatic Bookmark Classification)

  • 김인철;조수선
    • 정보처리학회논문지B
    • /
    • 제8B권5호
    • /
    • pp.455-462
    • /
    • 2001
  • 웹은 이제 인터넷의 중요한 서비스중의 하나가 되었다. 웹 공간을 탐색할 때 사용자들은 항해하는 동한 만나는 흥미 있는 사이트들을 기록하기 위해 북 마크 기능을 이용한다. 북 마크 기능을 이용할때 겪는 문제중의 하나가 거듭된 새로운 북 마크의 추가로 인해 북 마크 리스트의 길이가 길어지면 북 마크 리스트가 일관성 있는 구성을 잃어버리게 되어 실제적인 도움을 주기 어렵다는 것이다. 사용자가 북 마크 파일을 효율적이고 체계적으로 유지하기 위해서는 북 마크 파일에 추가되는 새로운 북 마크들을 카테고리별로 분류하여 신규 폴더를 찾아 삽입해주어야 한다. 본 논문에서는 대응되는 웹 문서들을 다운 받아 내용을 분서함으로써 자동으로 북 마크를 분류하는 BClassifier라 불리는 학습에이전트를 소개한다. BClassifier 에이전트를 위한 훈련 예의 주된 공급원은 바로 사용자가 명시적으로 이미 주제에 따라 몇 개의 북 마크 폴더들로 분류해놓은 북 마크들이다. 여기에 주제 카테고리들을 확대하고 이들에 대한 훈련 문서들을 확보하기 위해 추가적으로 Yahoo 사이트의 최상휘 카테고리들로부터 웹 문서들을 수집하여 훈련 예에 포함시킨다. BClassifier 에이전트는 잘 알여진 확률기반의 분류 기술이나 나이브 베이지안 학습 방법을 채용하고 있다. 본 논문에서는 BClassifier 에이전트에 관한 몇 가지 실험 결과를 소개하고 평가한다. 나이브 베이지안 방법과 k-최근접 이웃 방법, TFIDF 등과 같은 서로 다른 학습 방법들과 비교 실험 결과도 제시한다.

  • PDF

국소 영역별 대비 개선과 쌍선형 보간에 의한 불균등 대비 영상의 효율적 적응 이진화 (An Adaptive Thresholding of the Nonuniformly Contrasted Images by Using Local Contrast Enhancement and Bilinear Interpolation)

  • 정동현;조상현;최흥문
    • 전자공학회논문지S
    • /
    • 제36S권12호
    • /
    • pp.51-57
    • /
    • 1999
  • 본 논문에서는 불균등 대비 영상에서 국소 영역별 대비개선과 문턱치 평면의 쌍선형 보간을 이용한 효과적인 적응 이진화 방법을 제안하였다. 제안한 방법에서는 먼저 영상을 국소 영역으로 나누고, 영역별로 흐리거나 대비가 낮은 부분의 명도차를 증대시켜 전체적으로 대비를 개선한 후, 대비 개선된 국소 영역별 명도 분포로부터 해당 영역의 최적 문턱치를 구하였다. 국소 영역간에 이웃하는 문턱치들을 쌍선형 보간하여 전역적으로 영역별 문턱치들간의 불연속성을 없앰으로써 불균등 대비 영상에 대해서도 관심 영역이나 문자 부분에서의 불연속을 줄이도록 하였다. 불균등 대비를 갖는 일반문서 및 PCB나 웨이퍼상의 문자 영상을 제안한 방법과 기존 방법으로 이진화한 영상들로부터 문자들을 추출하고, 동일 조건하에서 같은 역전파 신경회로망으로 인식 실험하여 제안한 방법의 실효성을 확인하였다.

  • PDF

사례기반추론을 이용한 초기단계 공사비 예측 방법: 속성 가중치 산정을 중심으로 (Schematic Cost Estimation Method using Case-Based Reasoning: Focusing on Determining Attribute Weight)

  • 박문서;성기훈;이현수;지세현;김수영
    • 한국건설관리학회논문집
    • /
    • 제11권4호
    • /
    • pp.22-31
    • /
    • 2010
  • 프로젝트 초기단계에서 산정된 공사비는 발주자의 중요한 의사결정에 영향을 미치므로 그 중요성이 강조되고 있지만, 정보의 부족으로 인하여 주로 견적전문가의 경험과 지식에 의존하여 진행된다. 이것은 현재 문제와 가장 유사한 과거 사례를 선택하여 사용하는 사례기반추론으로 발전되었다. 사례기반추론 모델의 예측 성능은 속성 가중치의 산정 결과에 많은 영향을 받으므로, 정확한 속성 가중치의 산정이 요구된다. 기존의 연구는 수학적 방법 또는 전문가의 주관적 판단을 이용하는 방법을 사용한다. 본 연구는 기존 연구의 문제점을 보완하기 위해 유전자 알고리즘을 이용한 사례기반추론 공사비 예측 모델을 제안한다. 공사비 예측 모델은 최근이웃 조회 방법의 과정에 의해 추출한 사례의 공사비 정보를 이용하여 예측 대상의 공사비를 산정한다. 검증 결과 AACE에서 정의한 견적시기별 예측 정확도와 표준화 회귀계수 동일가중치를 사용한 방법보다 높은 오차율을 나타내었다. 따라서 본 연구는 유전자 알고리즘을 도입하여 예측 성능을 향상시키고, 사례기반추론 방법을 사용하여 사용자가 이해하기 용이한 해결책 도출과정을 제시하였다는데 그 의미가 있다.

추천시스템관련 학술논문 분석 및 분류 (A Literature Review and Classification of Recommender Systems on Academic Journals)

  • 박득희;김혜경;최일영;김재경
    • 지능정보연구
    • /
    • 제17권1호
    • /
    • pp.139-152
    • /
    • 2011
  • 1990년대 중반에 협업 필터링의 출현으로 인하여 추천시스템에 관련된 연구가 늘어나게 되었다. 협업 필터링의 출현 이후 내용 기반 필터링, 협업 필터링과 내용 기반 필터링이 혼합된 하이브리드 필터링 등 새로운 기법들이 출현함으로써 2000년대에는 추천시스템의 연구가 눈에 띄게 증가하였다. 하지만 현재까지 추천시스템에 관련된 문헌들에 대한 리뷰와 분류가 체계적으로 되어있지 않다. 이와 같은 문제에 대한 해결방안으로써, 본 연구에서는 2001년부터 2010년도까지의 추천시스템에 관련된 문헌들 중 MIS Journal Ranking의 125개의 저널에서 추천시스템(Recommender system, Recommendation system), 협업 필터링(Collaborative Filtering), 내용 기반 필터링(Content based Filtering), 개인화 시스템(Personalized system) 등의 5가지 키워드로 제한하여 조사하였다. 총 37개의 저널에서 논문을 검색하였으며, 검색되어진 논문을 분석한 결과 추천시스템과 관련이 없는 논문을 제외한 총 187개의 논문을 선정하여 분석하였다. 이 연구에서는 그러나 컨퍼런스 논문, 석사, 박사학위 논문, 영어로 작성되지 않은 논문, 완성되지 않은 논문 등은 제외하였다. 본 연구에서는 187개의 논문을 분석하여 2001년부터 2010년까지의 각각의 년도 별 추천시스템의 연구에 대한 동향 분석, Journal별 추천시스템의 게재 분류, 추천시스템 어플리케이션의 사용 분야(책, 문서, 이미지, 영화, 음악, 쇼핑, TV 프로그램, 기타)별 분류 및 분석, 추천시스템에 사용된 데이터마이닝 기술(연관 규칙, 군집화, 의사 결정나무, 최근접 이웃 기법, 링크 분석 기법, 신경망, 회귀분석, 휴리스틱 기법)별 분류 및 분석을 수행하였다. 따라서 본 연구에서 제안한 각각의 분류 및 분석 결과들을 통하여 현재까지 추천시스템의 연구에 대한 연구 동향을 파악 할 수 있었으며, 분석결과를 통해 추천시스템에 관심이 있는 연구자와 전문가에게 미래의 추천시스템의 연구에 대한 가이드라인을 제시 할 수 있을 것이라고 기대한다.