• 제목/요약/키워드: Association Word Knowledge Base

검색결과 8건 처리시간 0.025초

Apriori알고리즘에 의한 연관 단어 지식 베이스에 기반한 가중치가 부여된 베이지만 자동 문서 분류 (Weighted Bayesian Automatic Document Categorization Based on Association Word Knowledge Base by Apriori Algorithm)

  • 고수정;이정현
    • 한국멀티미디어학회논문지
    • /
    • 제4권2호
    • /
    • pp.171-181
    • /
    • 2001
  • 기존의 베이지만 문서 분류를 위한 단어 군집 방법은 많은 시간과 노력을 요구하며, 단어 간의 의미 관계를 정확하게 반영하지 못하는 문제점이 있다. 본 논문에서는 마이닝 기법으로 구축된 연관 단어 지식 베이스를 기반으로 하는 베이지안 문서 분류 방법을 제안한다. 제안된 베이지안 문서 분류 방법은 문서를 분류하기 전에 훈련 문서를 사용하여 가중치가 부여된 연관 단어 지 식 베이스를 구축한다. 그 다음으로, 베이지안 확률을 이용하는 분류자는 구축된 연관 단어 지식 베이스를 기반으로 문서를 클래스별로 분류한다. 제안된 방법의 성능을 평가하기 위해, 상호 정보 계산에 의한 단어 사전을 이유한 가중치가 부여된 베이지안 문서 분류 방법, 가중치가 부여된 베이지안 분류 방법, 기존의 단순 베이지안 분류 방법과 비교하였다. 그 결과, 연관 단어 지식 베이스에 기반한 가중치가 부여된 베이지안 분류 방법이 상호 정보에 의한 단어 사진을 이용하는 가중치가 부여된 베이지안 분류 방법보다는 0.87%, 가중치가 부여된 베이지안 분류 방법보다는 2.77%, 단순 베이지안 방법보다는 5.97% 높은 성능 차이를 보였다.

  • PDF

의미네트워크를 이용한 단어의미의 모호성 해결방법 (A Word Sense Disambiguation Method with a Semantic Network)

  • 나동렬
    • 인지과학
    • /
    • 제3권2호
    • /
    • pp.225-248
    • /
    • 1992
  • 본 논문에서는 의미 네트워크에 기반을 둔 지식베이스를 이용하여 단어 의미의 모호성을 해소하는 방법들을 소개 한다. 기본이 되는 방법은 입력문자의 의미해석이 진행됨에 따라 수집되는 지식베이스내의 경로(path)들을 추적하여 이용하는 것이다. 이러한 경로들을 의미경로(semantic path)라고 부른다. 파싱과정에서 한 단어가 입력되면 이단어가 가질수 있는 의미 중에서 어느 의미 경로에도 이용되지 않은 것들이 제거된다. 각 제거는 의미 경로들을 통하여 전파되어 이미 입력된 다른 단어들의 의미의 제거를 유발한다. 이 박업은 더이상 제거되는 의미가 없을때 까지 반복 진행된느데 이를 recursive word sense removal 작업이라 부른다. 추상적인 개념의 구체화(conctetion) 작업도 단어 의미 모호성해소의 중요한 방법인데, 본 논문에서는 이를 경로조절작업(path adjustment operation)이라고 불리는 방법을 이용하여 확장시키는 방법을 소개한다. 의미사이의 연과성(semantic association)이나 구문분석으로부터의 정보를 위의 방법들과 관련지어 이용하는 방법도 살펴본다.

지식베이스에 기반한 다언어 문서 검색 (Cross-Lingual Text Retrieval Based on a Knowledge Base)

  • 최명복;조준
    • 한국인터넷방송통신학회논문지
    • /
    • 제10권1호
    • /
    • pp.21-32
    • /
    • 2010
  • 웹과 같은 일반 영역을 대상으로 문서를 검색할 때 사용자의 질의 구성은 정보검색 효과에 큰 영향을 준다. 본 논문에서는 일반 사용자들이 웹에서 다언어 문서 검색을 효과적으로 수행할 수 있도록 다언어 지식베이스 기반의 지능형 정보검색 방법을 제안한다. 지식베이스로부터 추론된 지식은 사용자의 연상 작용을 도와 질의를 용이하고 정확하게 구성하여 효과적인 다언어 정보검색을 수행할 수 있도록 한다. 본 논문에서는 이러한 지식베이스 기반의 질의 변경 알고리즘을 개발하고 이를 한국어와 영어 웹 문서를 대상으로 실험하였다. 실험 결과 제안된 질의 변경 알고리즘은 다언어 문서 검색에서 지식베이스를 사용하지 않은 경우에 비해 매우 효과적임을 알 수 있었다.

디지털 포렌식에서 텍스트 마이닝 기반 침입 흔적 로그 추천 (A Text Mining-based Intrusion Log Recommendation in Digital Forensics)

  • 고수정
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제2권6호
    • /
    • pp.279-290
    • /
    • 2013
  • 디지털 포렌식에서의 로그 데이터는 사용자의 과거 행적에 대한 추적을 목적으로 대용량의 형태로 저장된다는 특성을 가지고 있다. 이러한 대용량의 로그 데이터를 단서가 없이 수동으로 분석하는 절차는 조사관들에게는 어려운 일이다. 본 논문에서는 포렌식 분석을 하는 조사관들에게 믿을 만한 증거를 추천하기 위하여 대용량의 로그 집합으로부터 해킹 흔적을 추출하는 텍스트 마이닝 기술을 제안한다. 학습 단계에서는 훈련 로그 집합을 대상으로 전처리를 한 후, Apriori 알고리즘을 이용하여 침입 흔적 연관 단어를 추출하고, 신뢰도와 지지도를 병합하여 각 연관단어의 침입 흔적 확률을 계산한다. 또한, 침입 흔적 확률의 정확도를 높이기 위하여 스팸 메일의 여과에 사용된 Robinson의 신뢰도 계산 방법을 이용하여 확률에 가중치를 추가하며, 최종적으로 침입 흔적 연관 단어 지식 베이스를 구축한다. 테스트 단계에서는 연관 단어 지식 베이스를 기반으로 테스트 로그 집합에 대해 피셔(Fisher)의 역 카이제곱 분류 알고리즘을 적용하여 침입 흔적 로그일 확률과 정상 로그일 확률을 계산하고, 이를 병합하여 침입 흔적 로그를 추출한다. 추출된 로그를 조사관에게 침입 흔적이 있는 로그로서 추천한다. 제안한 방법은 비구조화된 대용량의 로그 데이터를 대상으로 데이터의 의미를 명확하게 분석할 수 있는 학습 방법을 사용함으로써 데이터의 모호성으로 인해 발생하는 정확도 저하 문제를 보완할 수 있으며, 피셔의 역 카이제곱 분류 알고리즘을 이용하여 추천함으로써 오분류율(false positive)을 감소시키고 수동으로 증거를 추출하는 번거로움을 줄일 수 있다는 장점을 갖는다.

아동의 암묵적 기억의 발달 : 개념적 범주생성 과제를 중심으로 (Development of Implicit Memory in Children with Category-Exemplar-Generation Task)

  • 장세희;최경숙
    • 아동학회지
    • /
    • 제25권6호
    • /
    • pp.105-115
    • /
    • 2004
  • The 60 subjects of this study were 3rd, and 6th grade elementary and undergraduate university students. The instrument of 44 items had two typical and two atypical exemplars from 11 semantic categories. Each subject was exposed individually to the word list and asked to categorize each item. At test, subjects generated five items that came to mind in each category. Data was analyzed by 2-way ANOVA, age (3) $\times$ category of typicality (2). All main effects and the interaction effect between age and typicality were significant. There were no significant differences among age groups on typical lists while significant differences between university and elementary school students (Grades 3 and 6) were found on atypical lists. Thus, the knowledge base might be an important factor in implicit memory.

  • PDF

개체 링킹을 위한 RDF 지식그래프 기반의 포괄적 상호의존성 짝 연결 접근법 (A Global-Interdependence Pairwise Approach to Entity Linking Using RDF Knowledge Graph)

  • 심용선;양성권;김홍기
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권3호
    • /
    • pp.129-136
    • /
    • 2019
  • 자연어 표현에는 인물, 조직, 장소, 제품 등의 다양한 개체들이 존재한다. 이러한 개체는 다양한 의미를 가질 수 있다. 이러한 개체가 갖는 중의성 문제는 자연어 처리 분야에 있어 매우 도전적인 과제이다. 개체 링킹(Entity Linking)이란 텍스트에 등장한 개체명을 지식베이스 내의 적절한 개체로 연결해주는 작업이다. 개체 링킹을 위한 대표적인 방법론인 짝 연결 접근법(Pairwise based method)은 한 문장에서 등장한 개체가 두 개 이상일 경우 서로의 연관성을 이용해 개체 링킹을 하는 방법이다. 이 방법은 동일 문장에서 등장하는 개체들 간의 상호의존성(interdependence)만을 고려하고 있어 포괄적인 상호의존성(Global interdependence)이 부족하다는 한계를 갖고 있다. 본 논문에서는 개체 링킹을 위해 RDF 형태의 지식베이스 정보를 바탕으로 Word2vec을 활용한 Entity2vec 모델을 생성하였다. 그리고 생성된 모델을 사용하여 각 개체에 대한 랭킹을 하였다. 본 논문에서는 짝 연결 접근법의 한계점을 보완하기 위해 포괄적인 상호의존성을 바탕으로 짝 연결 접근법을 고안하고 구현 및 실험을 통해 기존의 짝 연결 접근법과 비교하였다.

영작문 자동 채점 시스템 개발 연구 (Development of automated scoring system for English writing)

  • 진경애
    • 영어어문교육
    • /
    • 제13권1호
    • /
    • pp.235-259
    • /
    • 2007
  • The purpose of the present study is to develop a prototype automated scoring system for English writing. The system was developed for scoring writings of Korean middle school students. In order to develop the automated scoring system, following procedures have been applied. First, review and analysis of established automated essay scoring systems in other countries have been accomplished. By doing so, we could get the guidance for development of a new sentence-level automated scoring system for Korean EFL students. Second, knowledge base such as lexicon, grammar and WordNet for natural language processing and error corpus of English writing of Korean middle school students were established. Error corpus was established through the paper and pencil test with 589 third year middle school students. This study provided suggestions for the successful introduction of an automated scoring system in Korea. The automated scoring system developed in this study should be continuously upgraded to improve the accuracy of the scoring system. Also, it is suggested to develop an automated scoring system being able to carry out evaluation of English essay, not only sentence-level evaluation. The system needs to be upgraded for the improved precision, but, it was a successful introduction of an sentence-level automated scoring system for English writing in Korea.

  • PDF

A Bibliometric Approach for Department-Level Disciplinary Analysis and Science Mapping of Research Output Using Multiple Classification Schemes

  • Gautam, Pitambar
    • Journal of Contemporary Eastern Asia
    • /
    • 제18권1호
    • /
    • pp.7-29
    • /
    • 2019
  • This study describes an approach for comparative bibliometric analysis of scientific publications related to (i) individual or several departments comprising a university, and (ii) broader integrated subject areas using multiple disciplinary schemes. It uses a custom dataset of scientific publications (ca. 15,000 articles and reviews, published during 2009-2013, and recorded in the Web of Science Core Collections) with author affiliations to the research departments, dedicated to science, technology, engineering, mathematics, and medicine (STEMM), of a comprehensive university. The dataset was subjected, at first, to the department level and discipline level analyses using the newly available KAKEN-L3 classification (based on MEXT/JSPS Grants-in-Aid system), hierarchical clustering, correspondence analysis to decipher the major departmental and disciplinary clusters, and visualization of the department-discipline relationships using two-dimensional stacked bar diagrams. The next step involved the creation of subsets covering integrated subject areas and a comparative analysis of departmental contributions to a specific area (medical, health and life science) using several disciplinary schemes: Essential Science Indicators (ESI) 22 research fields, SCOPUS 27 subject areas, OECD Frascati 38 subordinate research fields, and KAKEN-L3 66 subject categories. To illustrate the effective use of the science mapping techniques, the same subset for medical, health and life science area was subjected to network analyses for co-occurrences of keywords, bibliographic coupling of the publication sources, and co-citation of sources in the reference lists. The science mapping approach demonstrates the ways to extract information on the prolific research themes, the most frequently used journals for publishing research findings, and the knowledge base underlying the research activities covered by the publications concerned.