• 제목/요약/키워드: natural language query

검색결과 79건 처리시간 0.026초

상호정보량과 복합명사 의미사전에 기반한 동음이의어 중의성 해소 (Homonym Disambiguation based on Mutual Information and Sense-Tagged Compound Noun Dictionary)

  • 허정;서희철;장명길
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권12호
    • /
    • pp.1073-1089
    • /
    • 2006
  • 자연언어처리의 목적은 컴퓨터가 자연어를 이해할 수 있도록 하여, 인간에게 다양한 정보를 정확하고 빠르게 전달할 수 있도록 하고자 하는 것이다. 이를 위해서는 언어의 의미를 정확히 파악하여야 하는데, 어휘 의미 중의성 해소가 필수적인 기술이다. 본 연구는 상호정보량과 기 분석된 복합명사 의미사전에 기반한 동음이의어 의미 중의성 해소를 위한 기술을 소개한다. 사전 뜻풀이를 이용하는 기존 기술들은 어휘들간의 정확한 매칭에 의존하기 때문에 자료 부족 현상이 심각하였다. 그러나, 본 연구에서는 어휘들간의 연관계수인 상호정보량을 이용함으로써 이 문제를 완화시켰다. 또한, 언어적인 특징을 반영하기 위해서 상호정보량을 가지는 어휘 쌍의 비율 가중치, 의미 별 비율 가중치와 뜻풀이의 길이 가중치를 사용하였다. 그리고, 복합명사를 구성하는 단일명사들은 서로의 의미를 제약한다는 것에 기반하여 고빈도 복합명사에 대해서 의미를 부착한 의미사전을 구축하였고, 이를 동음이의어 중의성 해소에 활용하였다. 본 시스템의 평가를 위해 질의응답 평가셋의 200 여 개의 질의와 정답단락을 대상으로 동음이의어 의미 중의성 해소 평가셋을 구축하였다. 평가셋에 기반하여 네 유형의 실험을 수행하였다. 실험 결과는 상호 정보량만을 이용하였을 때 65.06%의 정확률을 보였고, 가중치를 활용하였을 때 85.35%의 정확률을 보였다. 또한, 복합명사 의미분석 사전을 활용하였을 때는 88.82%의 정확률을 보였다.

문장-질의 유사성을 이용한 웹 정보 검색의 성능 향상 (Performance Improvement of Web Information Retrieval Using Sentence-Query Similarity)

  • 박의규;나동열;장명길
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권5호
    • /
    • pp.406-415
    • /
    • 2005
  • 인터넷의 발전으로 웹 상에 수많은 문서 및 정보가 존재하는 상황에서 사용자가 원하는 정보를 담은 웹 문서를 검색하여 주는 웹 정보 검색 기술은 매우 중요하게 되었다. 본 논문에서는 웹 정보 검색 시스템의 성능 향상에 효과적인 몇 가지 주요한 기술을 제안하였다. 기존 시스템들은 주로 문서와 질의의 유사도를 계산하여 이를 주요 정보로 이용하였다. 그러나 본 논문에서는 여기에서 한 걸음 더 나아가 문서 안의 각 문장들이 질의와 얼마나 유사한가를 계산하여 이를 이용하는 기법을 제안하였다. 이러한 문장-질의 유사도를 성숙된 자연어 처리 기술 없이 근사적으로 계산하는 방법을 소개하였다. 그리고 이계산 작업은 문서 수의 증가에 선형적인 계산량의 증가를 가져 옴을 보임으로써 실용적인 대용량 시스템에서도 사용할 수 있음을 보였다. 그 다음으로 제안된 주요한 기술은 출력 문서의 순위화에 계층적인 개념을 도입하는 것이다. 이 기법을 사용함으로써 상당한 성능 향상을 이룰 수 있음을 보였다. 그 외에도 웹 문서의 특징인 하이퍼 링크 정보와 타이틀 정보를 이용하여 어느 정도의 성능 개선을 가져올 수 있음을 보였다. 이러한 기술들의 타당성을 입증하기 위해 대용량 웹 정보검색 시스템을 개발하고 실험하였다.

페이로드 임베딩 사전학습 기반의 웹 공격 분류 모델 (Web Attack Classification Model Based on Payload Embedding Pre-Training)

  • 김연수;고영훈;엄익채;김경백
    • 정보보호학회논문지
    • /
    • 제30권4호
    • /
    • pp.669-677
    • /
    • 2020
  • 인터넷 사용자가 폭발적으로 늘어나면서 웹을 이용한 공격이 증가했다. 뿐만 아니라 기존의 방어 기법들을 우회하기 위해 공격 패턴이 다양해졌다. 전통적인 웹 방화벽은 알져지지 않은 패턴의 공격을 탐지하기 어렵다. 따라서 인공지능으로 비정상을 탐지하는 방식이 대안으로 연구되고 있다. 특히 공격에 악용되는 스크립트나 쿼리가 텍스트로 이루어져 있다는 이유로 자연어 처리 기법을 적용하는 시도가 일어나고 있다. 하지만 스크립트나 쿼리는 미등록 단어(Unknown word)가 다량 발생하기 때문에 자연어 처리와는 다른 방식의 접근이 필요하다. 본 논문에서는 BPE(Byte Pair Encoding)기법으로 웹 공격 페이로드에 자주 사용되는 토큰 집합을 추출하여 임베딩 벡터를 학습시키고, 주의 메커니즘 기반의 Bi-GRU 신경망으로 토큰의 순서와 중요도를 학습하여 웹 공격을 분류하는 모델을 제안한다. 주요 웹 공격인 SQL 삽입 공격, 크로스 사이트 스크립팅, 명령 삽입 공격에 대하여 분류 평가 결과 약 0.9990의 정확도를 얻었으며, 기존 연구에서 제안한 모델의 성능을 상회하는 결과를 도출하였다.

용어간 종속성을 이용한 문서 순위 매기기에 의한 확률적 정보 검색 (A probabilistic information retrieval model by document ranking using term dependencies)

  • 유현조;이정진
    • 응용통계연구
    • /
    • 제32권5호
    • /
    • pp.763-782
    • /
    • 2019
  • 텍스트 문서 집합에 대한 정보검색에서는 주어진 질의에 부합하는 각 문서의 적합도 확률을 계산하고 이 확률이 높은 것부터 낮은 순으로 문서 순위를 정하여 사용자에게 제공한다, 각 문서의 적합도 확률 계산에 많이 사용되는 모형은 단어들이 확률적으로 독립이라는 가정 하에 확률을 추정한다. 이 모형은 단어들의 결합 확률을 계산하는 것이 현실적으로 어렵다는 점에서 많이 이용되고 있지만 질의에 사용되는 단어들이 대개 서로 관련성을 가지고 있다는 사실을 고려하고 있지 않다. 본 논문에서는 단어 자질들의 의존 구조를 고려하여 문서의 적합도 확률을 계산하기 위하여 단어들의 결합 패턴의 확률을 다항분포 모형으로 가정하고, 최대 엔트로피 방법으로 확률을 추정하여 문서 순위를 매기는 정보검색 모형을 제안한다. 여러 가지 다항분포 상황에서 시뮬레이션 실험을 한 결과 변수들의 독립을 가정한 모형보다 더 우수한 추정 결과를 보여 준다. 실제 LETOR OHSUMED 데이터 이용한 문서 순위 매기기 실험의 결과도 더 나은 검색 결과를 보여 준다.

통계적 단어 대조를 이용한 음식점 추천 챗봇 애플리케이션 구현 (Implementation of a Chatbot Application for Restaurant recommendation using Statistical Word Comparison Method)

  • 민동희;이우범
    • 융합신호처리학회논문지
    • /
    • 제20권1호
    • /
    • pp.31-36
    • /
    • 2019
  • 사용자로부터 입력되는 비정형 데이터를 대화 형태로 이해하여 사용자가 원하는 정보에 대한 맞춤 서비스를 제공하는 챗봇은 모바일 서비스의 중요한 분야로서 주목받고 있다. 그러나 사용자의 자연 언어 형태의 질의 대화를 완전하게 이해하여 서비스할 수 있는 방법은 아직 미흡한 실정이다. 따라서 본 논문에서는 사용자가 음식점 추천을 위하여 입력하는 대화 문장으로부터 지역, 음식분류, 음식점명 등의 의미 단어를 추출하고, 추출된 단어를 SNS의 음식점 추천 관련 해시태그를 기반으로 구축된 지식 데이터베이스의 내용과 대조하여 통계적으로 단어 유사성이 가장 큰 사용자 목적 정보를 제공한다. 본 논문에서 구현한 음식점 추천 챗봇 시스템의 성능 평가를 위해서 웹 기반의 모바일 환경을 구축하여 다양한 사용자 질의 정보에 대한 접근 편의성을 측정한 결과, 기존 유사 서비스와 비교하여 터치 횟수와 화면 전환 횟수에서 각각 37.2%와 73.3%의 감소함을 보였다.

질의응답시스템에서 정답 특징에 관한 실험적 분석 (Experimental Analysis of Correct Answer Characteristics in Question Answering Systems)

  • 한경수
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권5호
    • /
    • pp.927-933
    • /
    • 2018
  • 자연어 질문에 대해 답변을 찾아 제공하는 질의응답시스템의 오류에 가장 큰 영향을 미치는 요소 중 하나가 질문으로 정답을 포함하고 있을 만한 문서나 단락을 검색하는 단계이다. 검색의 성능 향상을 위해서는 정답 포함 문서 및 단락의 특징을 잘 이해해야 한다. 본 논문은 질문, 정답 포함 문서, 정답 미포함 문서로 구성된 말뭉치를 사용하여 정답 문서에는 질문 단어가 얼마나 많이 출현하는지, 출현 위치는 어떻게 분포하는지, 질문과 정답 문서의 주제는 얼마나 유사한지 등을 실험적으로 분석한다. 이를 통해 질의응답시스템을 위한 기존의 검색 연구 결과들에 대한 원인을 설명하고 효과적인 검색 단계의 필요 요소에 관해 논의한다.

본문 데이타베이스 연구에 관한 고찰과 그 전망 (Future and Directions for Research in Full Text Databases)

  • 노정순
    • 한국문헌정보학회지
    • /
    • 제17권
    • /
    • pp.49-83
    • /
    • 1989
  • A Full text retrieval system is a natural language document retrieval system in which the full text of all documents in a collection is stored on a computer so that every word in every sentence of every document can be located by the machine. This kind of IR System is recently becoming rapidly available online in the field of legal, newspaper, journal and reference book indexing. Increased research interest has been in this field. In this paper, research on full text databases and retrieval systems are reviewed, directions for research in this field are speculated, questions in the field that need answering are considered, and variables affecting online full text retrieval and various role that variables play in a research study are described. Two obvious research questions in full text retrieval have been how full text retrieval performs and how to improve the retrieval performance of full text databases. Research to improve the retrieval performance has been incorporated with ranking or weighting algorithms based on word occurrences, combined menu-driven and query-driven systems, and improvement of computer architectures and record structure for databases. Recent increase in the number of full text databases with various sizes, forms and subject matters, and recent development in computer architecture artificial intelligence, and videodisc technology promise new direction of its research and scholarly growth. Studies on the interrelationship between every elements of the full text retrieval situation and the relationship between each elements and retrieval performance may give a professional view in theory and practice of full text retrieval.

  • PDF

러프셋에 기반한 정보필터링 웹에이전트 모듈 설계 (Design of Web Agents Module for Information Filtering Based on Rough Sets)

  • 김형수;이상부
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2004년도 춘계종합학술대회
    • /
    • pp.552-556
    • /
    • 2004
  • 본 논문은 대용량의 데이터베이스 내에서 유용한 정보를 검색하기 위해 웹 기반하에 적응형 정보추출 에이전트 모듈 설계이다. 인터넷을 통한 정보 검색이 일반화됨에 따라 검색시간의 최소화를 기하면서 사용자의 요구조건에 맞는 유용한 정보 제공이 필요하다. 구축되는 지식베이스 시스템의 스키마 구성요소의 도메인이 이진 검색이 가능한 필드 도메인이 있는 가하면 그렇지 않은 불확실한 도메인도 존재한다. 최초의 대용량 지식베이스에서 사용자의 자연어 질의어에 대해 러프셋의 리턱트롤 통해 최소지식베이스를 생성한 후, 축소된 스키마의 도메인의 불확실성찬 값에 대한 연산을 처리는 퍼지합성 연산처리 모듈에 의해 소프팅 컴퓨팅이 수행토록 설계하였다.

  • PDF

온톨로지 생성과 공유를 위한 시맨틱 웹 기반 위키 시스템 (A Semantic Web-enabled Woo System for Ontology Construction and Sharing)

  • 김현주;최중민
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권8호
    • /
    • pp.703-717
    • /
    • 2006
  • 시맨틱 웹은 컴퓨터가 처리 가능한 의미 정보를 표현하고 공유할 수 있는 보편적인 매체를 개발하는 것이 목적이며, 따라서 시맨틱 웹에서는 이러한 의미 정보를 표현하는 온툴로지를 웹에 배포하여 이용 가능하게 만드는 것이 매우 중요하다. 하지만 현존하는 대부분의 온톨로지 저작 도구는 웹이 아닌 환경에서 운용되기 때문에 작성된 온톨로지를 바로 웹에 배포할 수 없으며 온톨로지를 여러 사람이 공동으로 저작할 수 없다는 단점이었다. 이 논문에서는 위키 (Wiki)를 이용하여 온톨로지를 쉽게 웹에 배포할 수 있고 온툴로지 생성과 공유를 용이하게 해주는 기반구조를 제안한다. 위키는 사람을 대상으로 하는 지식 공동 저작과 공유를 위한 기반 구조 중 하나로서 웹에서 운용되며, 위키의 내용은 웹 문서 서식을 위한 간단한 마크업 언어와 자연어로 구성된다. 이 논문은 보다 용이한 온톨로지 생성과 공유를 위해 기존의 위키 시스템에 시맨틱 웹 요소를 추가하여 인간을 위한 지식 공동 저작과 공유를 위한 시스템인 통시에 에이전트 소프트웨어도 쉽게 접근하여 온툴로지 정보를 얻을 수 있는 시맨틱 웹 기반 구조를 제안하였으며 이를 통해 시맨틱 조회, 시맨틱 탐색, 시맨틱 질의를 실현하고자 하였다.

다형의 버그 추적 시스템 마이닝 및 분석을 위한 저장소 독립 모델 설계 (Designing a Repository Independent Model for Mining and Analyzing Heterogeneous Bug Tracking Systems)

  • 이재권;정우성
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권9호
    • /
    • pp.103-115
    • /
    • 2014
  • 본 논문은 다양한 버그 추적 시스템으로부터 추출한 데이터를 통합하여 단일 저장소 모델을 제공하는 UniBAS(Unified Bug Analysis System)를 제안한다. UniBAS는 MSR(Mining Software Repositories) 연구 과정에서의 저장소 추출, 데이터 가공이나 모델 생성과 같은 공통적인 반복 작업을 줄이고, 관련 연구자가 상위 수준의 연구에 보다 집중할 수 있도록 함으로써 해당 연구 수행에 발생하는 복잡도와 비용을 줄여준다. 또한, UniBAS는 데이터 추출 뿐 아니라 질의 기반 분석에 필요한 테이블, 뷰 및 저장 프로시저 등을 자동 생성하며, 수집한 데이터 관리와 외부 도구와의 연동을 위해 다양한 형식의 파일을 생성할 수 있다. 사례 연구로 UniBAS의 유용성을 검증하기 위해 Mozilla사이트의 Firefox프로젝트를 대상으로 실제 중복 버그 리포트를 탐지하는 실험을 진행하였다. 이 과정에서 자동 추출된 자료를 대상으로 질의와 분석이 유연하게 이루어질 수 있었으며, 다양한 자연어 처리 알고리즘 적용을 통해 유효한 실험 결과를 얻을 수 있었다.