• 제목/요약/키워드: 정보의 질

검색결과 5,523건 처리시간 0.039초

자연어 질의 유형판별과 응답 추출을 위한 어휘 의미체계에 관한 연구 (A Study on Word Semantic Categories for Natural Language Question Type Classification and Answer Extraction)

  • 윤성희
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2004년도 추계학술대회
    • /
    • pp.141-144
    • /
    • 2004
  • 질의응답 시스템이 정보검색 시스템과 다른 중요한 점은 질의 처리 과정이며, 자연어 질의 문장에서 사용자의 질의 의도를 파악하여 질의 유형을 분류하는 것이다. 본 논문에서는 질의 주-형을 분류하기 위해 복잡한 분류 규칙이나 대용량의 사전 정보를 이용하지 않고 질의 문장에서 의문사에 해당하는 어휘들을 추출하고 주변에 나타나는 명사들의 의미 정보를 이용하여 세부적인 정답 유형을 결정할 수 있는 질의 유형 분류 방법을 제안한다. 의문사가 생략된 경우의 처리 방법과 동의어 정보와 접미사 정보를 이용하여 질의 유형 분류 성능을 향상시킬 수 있는 방법을 제안한다.

  • PDF

어휘정보와 명사의미정보를 이용한 사용자 질의문장 분석 (Question Analysis using Lexico Information and Noun Semantic Information)

  • 정규철;서영훈
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2003년도 추계종합학술대회 논문집
    • /
    • pp.185-189
    • /
    • 2003
  • 고성능의 질의 응답 시스템을 구현하기 위해서는 질의 유형 분류기의 성능이 중요하다. 본 논문에서는 복잡한 분류규칙이나 대용량의 사전 정보를 이용하지 않고 질의문에서 의문사에 해당하는 어휘들을 이용하여 질의 유형을 결정하고, 의문사 주변에 출현하는 명사들의 의미 정보를 이용하여 세부적인 정답유형을 결정할 수 있는 질의 유형분류기를 제안한다. 의문사에 해당하는 어휘가 생략된 경우는 질의문의 마지막 어절의 의미 정보를 이용하여 질의유형을 분류한다. 의문사 주변의 명사들이 마지막 어절에 출현하는 명사들에 대해 동의어 정보와 접미사 정보를 이용하여 질의 유형 분류의 성능을 향상시킨다. 본 논문에서 제안한 시스템은 질의 유형에 대한 분류는 97.4%의 정확도를 보였다.

  • PDF

단어 의미 정보를 활용하는 이용자 자연어 질의 유형의 효율적 분류 (Efficient Classification of User's Natural Language Question Types using Word Semantic Information)

  • 윤성희;백선욱
    • 정보관리학회지
    • /
    • 제21권4호
    • /
    • pp.251-263
    • /
    • 2004
  • 질의응답 시스템에서의 질의 분석 과정은 이용자의 자연어 질의 문장에서 질의 의도를 파악하여 그 유형을 분류하고 정답 추출을 위한 정보를 구하는 것이다. 본 연구에서는 복잡한 분류 규칙 집합이나 대용량의 언어 지식 자원 대신 이용자 질의 문장에서 질의 초점 어휘를 추출하고 구문 구조적으로 관련된 단어들의 의미 정보에 기반하여 효율적으로 질의 유형을 분류하는 방법을 제안한다. 질의 초점 어휘가 생략된 경우의 처리와 동의어와 접미사 정보를 이용하여 질의 유형 분류 성능을 향상시킬 수 있는 방법도 제안한다.

사용자 위치 정보 및 POI 정보 보호를 고려한 Approximate k-최근접점 질의처리 알고리즘 (An Approximate k-NN Query Processing Algorithm Supporting both Location Cloaking and POI Protection)

  • 장미영;;엄정호;장재우
    • 한국GIS학회:학술대회논문집
    • /
    • 한국GIS학회 2010년도 춘계학술대회
    • /
    • pp.53-60
    • /
    • 2010
  • 위치 기반 서비스(Location-Based Services: LBS)에서 질의 요청자가 자신의 위치 정보와 원하는 질의를 전송하면, 위치 기반 서버는 이를 기반으로 질의를 처리하고 결과를 전송한다. 이 때 질의 요청자는 자신의 정확한 위치 좌표를 서버에 전송하기 때문에 개인 정보가 악용될 수 있는 위험에 노출된다. 이러한 문제를 해결하기 위하여 제안된 연구는 크게 Location Clocking 기법과 Private Information Retrieval(PIR) 기법으로 분류된다. Location Cloaking 기법은 사용자의 위치 좌표를 k-1개의 다른 사용자와 함께 묶어 하나의 Cloaking 영역을 생성하고 이를 바탕으로 질의를 처리한다. 그러나 영역에 대한 질의 후보 집합을 결과로 전송하므로 사용자에게 노출되는 POI 수가 증가하는 문제점을 지닌다. PIR은 암호화 기법으로 위치 기반 서버나 공격자에게 사용자의 위치와 질의 타입을 드러내지 않고 질의를 수행한다. 그러나 암호화 된 질의 결과로 사용자에게 데이터 전체를 전송하기 때문에 막대한 통신비용을 초래한다. 따라서 본 논문에서는 Location Cloakng과 PIR 기법의 장점을 결합하여 사용자의 개인 정보와 위치 기반 서버의 POI 정보 보호를 고려한 Approximate k-최근접점 질의 처리 알고리즘을 제안한다. 질의 전송시, 질의 요청자는 Cloaking 영역을 생성하여 위치 좌표를 감추고, 질의 결과 전송 시 Cloaking 영역에 제한된 PIR 프로토콜을 적용한다. 또한 k-최근접점 질의 수행시, 반환되는 POI의 수를 최소화하고, 정확도 높은 질의 결과를 만족하기 위해 Overlapping parameter를 적용한 색인 기법을 제안한다.

  • PDF

한영 교차언어 정보검색에서 질의 변환 및 질의 확장 방법 (Query Translation and Query Expansion Method in Korean-to-English Cross-Language Information Retreival)

  • 김백일;서희철;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.235-242
    • /
    • 2002
  • 본 논문은 한영 교차언어 정보검색을 위한 질의 변환 방법과 질의 확장에 대해서 기술하고 있다. 한영 교차언어 정보 검색은 한국어 질의와 관련된 영어 문서를 검색하는 것을 말하며, 한국어 질의를 영어 질의로 변환하는 방법을 사용했다. 이를 위해 한국어 단어들에 대한 영어 대역어들의 공기 정보를 이용하며, 공기 정보로는 상호 정보를 사용했다. 또한 한국어와 영어의 연어 사전을 사용하여 성능을 향상시켰다. 추가적인 검색 성능 향상을 위한 방법으로, 기존 연구에서 많이 사용된 적합성 피드백에 의한 지역적 질의 확장 대신, 영어 워드넷을 확장하여 구축한 한영 이중언어 시소러스를 사용하여 질의 확장을 하는 전역적 질의 확장을 시도하였다. 실험결과, 정확률의 향상보다는 재현율의 향상 정도가 더 컸으며, 긴 질의보다 짧은 질의를 확장한 경우가 성능이 높았다.

  • PDF

Poly-encoder기반의 COVID-19 질의 응답 태스크 (Poly-encoder based COVID-19 Question and Answering with Task Adaptation)

  • 이설화;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.188-191
    • /
    • 2020
  • 본 연구는 COVID-19 질의 응답 태스크를 위한 Poly-encoder 기반의 태스크를 제안하였다. COVID-19 질의 응답 시스템은 사람들에게 최신 정보에 대해 빠르고 신뢰성이 높은 정보를 전달하는 특성을 가져야한다. 검색 기반 질의 응답 시스템은 pairwise 연산을 기반으로 수행되는데, Poly-encoder는 사전 학습된 트랜스포머(transformer)기반의 pairwise 연산 방법론 중 기존 Cross-encoder와 Bi-encoder보다 실사용 및 성능이 뛰어남을 보였다 [1]. 특히, Poly-encoder는 정확도가 높으면서도 빠른 응답속도를 가지며 검색기반의 각종 태스크에서 좋은 성능을 보였다. 따라서 본 연구는 COVID-19를 위한 Poly-encoder기반의 질의 응답 태스크를 위하여 기존 질의 응답 태스크와 페르소나 기반의 질의 응답 태스크로 두 가지 유형의 태스크를 생성하여 모델을 학습하였다. 또한 신뢰성 있는 리소스정보로부터 모델에 최신 정보 반영을 위하여 자동 크롤러를 구축하여 데이터를 수집하였다. 마지막으로 전문가를 통한 데이터셋을 구축하여 질문-응답과 질의어-질문에 대한 모델 검증을 수행하였다.

  • PDF

질의 응답 시스템에서 질의 카테고리별 개념리스트 구축에 기반한 의미적 질의 확장 (Semantic Query Expansion based on a Question Category Concept List in QA system)

  • 김혜정;강보영;박성배;이상조
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.178-180
    • /
    • 2004
  • 질의 응답(Question Answering) 시스템은 질의에서 요구하는 정답 유형(Answer tyype) 및 질의에 사용된 용어를 적용하여 보다 정확한 답을 추출하고자 한다. 그러나 질의에 사용된 용어들이 문서의 정답문장에 그대로 사용되지 않고 같은 의미의 다른 어휘로 출현하기도 하며, 혹은 다른 문법적 정보를 가진 카테고리로 등장하여 정답 추출에 어려움이 따른다. 따라서, 본 논문은 질의별 카테고리 개념 리스트를 구축하여 효과적인 의미적 질의 확장 방법론을 제안한다. 제안된 방법은 먼저 질문 문장의 패턴 린 질의 정보 유형을 파악하여 질의 카테고리 및 카테고리별 개념 리스트를 구축한다. 그런 후 구축된 질의 개념 카테고리 및 리스트를 활용하여 질의 유형을 학습하고, 새로운 질의가 입력되면 해당 개념 카테고리로 분류한 후, 개념 리스트를 기반으로 개념별 질의 확장을 수행한다. 제안된 시스템의 성능 명가를 위하여, TREC-9의 질의와 TREC 문서 중 1991년도 WSJ(Wall Street Journal) 42,654건을 대상으로 실험한 결과 질의 확장을 수행하지 않는 시스템의 경우 MRR(Mean reciprocal ratio) 측정에서 0.223의 결과를 보인 반면 제안된 시스템의 경우 0.50의 향상된 결과를 보였다.

  • PDF

비디오 질의 응답 환경에서 양방향 어텐션을 이용한 질의 난이도 분석 모델 (Neural Question Difficulty Estimator with Bi-directional Attention in VideoQA)

  • 윤수환;박성배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.501-506
    • /
    • 2020
  • 질의 난이도 분석 문제는 자연어 질의문을 답변할 때 어려움의 정도를 측정하는 문제이다. 질의 난이도 분석 문제는 문서 독해, 의학 시험, 비디오 질의 등과 같은 다양한 데이터셋에서 연구되어 왔다. 본 논문에서는 질의문과 질의문에 응답하기 위한 정보들 간의 관계를 파악하는 것으로 질의 난이도 분석 문제를 접근하여 이를 BERT와 Dual Multi-head Attention을 사용하여 모델링 하였다. 본 논문에서 제안하는 모델의 우수성을 증명하기 위하여 최근 자연언어이해 부분에서 높은 성능을 보여주는 기 학습 언어 모델과 이전 연구의 질의 난이도 분석 모델과의 성능을 비교하였고, 제안 모델은 대표적인 비디오 질의 응답 데이터셋인 DramaQA의 Memory Complexity에서 99.76%, Logical Complexity에서는 89.47%의 정확도로 가장 높은 질의 난이도 분석 성능을 보여주었다.

  • PDF

스트리밍 XML 데이터에 대한 빠른 트윅 질의 처리 기법 (Fast Twig Query Processing for Streaming XML Data)

  • 류병걸;박상현;하종우;이상근
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.65-68
    • /
    • 2010
  • 스트리밍 XML 데이터는 고정된 저장소에 유지되지 않고 사용자 측으로 계속적으로 데이터가 전송된다는 특성을 지닌다. 이러한 스트리밍 XML에 대한 질의 처리를 위해서는 효과적인 메모리 관리와 빠른 질의 처리 성능이 요구된다. 최근 최소한의 메모리 사용으로 효과적으로 트윅 질의를 처리하기 위한 기법인 StreamTX가 제안되었으나 반복적인 질의 처리 알고리즘 호출로 인해 불필요한 질의 처리시간이 발생한다. 따라서, 본 논문에서는 이러한 불필요한 질의 처리 시간을 줄이기 위해 실시간으로 질의와 무관한 노드를 제거하여 보다 효과적인 질의 처리를 수행 기법을 제안한다. 제안된 기법은 기존 연구와 유사한 메모리 사용량을 가지면서도 빠른 질의 처리 속도를 가짐을 성능평가를 통해 검증한다.

KOSPI20 지수종목 변경이 정보의 질에 미치는 영향에 대한 융합적 연구 (A Converging Approach on the Effect of KOSPI200 Index Rebalancing on Information Quality)

  • 진서민;최성호
    • 한국융합학회논문지
    • /
    • 제8권5호
    • /
    • pp.213-221
    • /
    • 2017
  • 본 논문은 KOSPI200 지수구성 종목의 변경이 해당 기업의 정보의 질에 미치는 영향에 대해 실증적으로 분석하였다. 정보의 질은 발생액의 질을 이용하여 대용하였고, 변수의 추정에는 Francis et al.(2005)의 모형이 사용되었다. 실증분석의 결과는 다음과 같다. 첫째, 지수종목에 진입한 기업과 퇴출된 기업들 사이에는 정보의 질에 유의미한 차이가 존재하며, 진입한 기업들의 정보의 질이 보다 좋은 것으로 확인되었다. 둘째, 지수종목으로의 진입변수와 발생액의 질 사이에는 통계적으로 유의미한 음(-)의 상관관계가 존재하는 것으로 나타났다. 이 결과들은 기업이 지수에 편입될 경우에는 정보위험이 완화되어 정보비대칭이 개선되는 반면에 지수에서 퇴출되면 해당 기업의 정보의 질은 낮아져서 정보비대칭이 악화된다는 것을 의미한다. 결론적으로 기업이 지수종목에 편입되거나 퇴출되는 일은 해당 기업의 정보비대칭에 상당한 영향을 미치는 중요한 사건이라고 판단된다.