• 제목/요약/키워드: 한글 용어

검색결과 171건 처리시간 0.025초

Doc2Vec 문서 임베딩을 이용한 질의문과 판례 자동 연결 방안 연구 (A Study on the Connecting Method of Query and Legal Cases Using Doc2Vec Document Embedding)

  • 강예지;강혜린;박서윤;장연지;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.76-81
    • /
    • 2020
  • 법률 전문 지식이 없는 사람들이 법률 정보 검색을 성공적으로 하기 위해서는 일반 용어를 검색하더라도 전문 용어가 사용된 법령정보가 검색되어야 한다. 하지만 현 판례 검색 시스템은 사용자 선호도 검색이 불가능하며, 일반 용어를 사용하여 검색하면 사용자가 원하는 전문 자료를 도출하는 데 어려움이 있다. 이에 본 논문에서는 일반용어가 사용된 질의문과 전문용어가 사용된 판례를 자동으로 연결해 주고자 하였다. 질의문과 연관된 판례를 자동으로 연결해 주기 위해 전문용어가 사용된 전문가 답변을 바탕으로 문서분류에 높은 성능을 보이는 Doc2Vec을 이용한다. Doc2Vec 문서 임베딩 기법을 이용하여 전문용어가 사용된 전문가 답변과 유사한 답변을 제안하여 비슷한 주제의 답변들끼리 분류하였다. 또한 전문가 답변과 유사도가 높은 판례를 제안하여 질의문에 해당하는 판례를 자동으로 연결하였다.

  • PDF

A Study on the Development of the Korea Subject Heading

  • 김태수
    • 도서관문화
    • /
    • 제37권5호통권300호
    • /
    • pp.47-54
    • /
    • 1996
  • 한글 주제명표목의 구조를 확립하는데 필요한 기본원칙을 제시하였다. 불연산기호를 사용하게 되면 주표목과 세목간을 구분할 필요가 없어진다. 일부 표목에서는 지명이 세목으로 사용되고 도 다른 표목에서는 지명이 주표목으로 사용되는 등 혼란이 있었다. 자동화 시대에, 어떤 용어가 탐색어의 첫번째 이치에 오는가 하는 것은 중요한 문제가 아니다. 시대구분을 제외하고는 모든 세목을 독립된 표목으로 사용해야 할 것이다. 접속사'와(과)' 또는 복판점(ㆍ)으로 결합된 표목과 도치표모의 형식은 주제명표목에서 사용되지 않는다. 표목과 관련된 용어간을 연결하는 수단으로 색인시스템에서 사용해 온 기호를 도입 하였다.

  • PDF

한국어정보검색에서 구문적 용어불일치 완화방안 (Alleviating Syntactic Term Mismatches in Korean Information Retrieval)

  • 윤보현;김상범;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.143-149
    • /
    • 1998
  • 한국어 정보검색에서 복합명사와 명사구로 발생하는 색인어와 질의어간의 구문적 용어 불일치는 많은 문제를 일으켜왔다. 본 논문에서는 복합명사 분해와 명사구 정규화를 함께 수행하여 유사도 측정값을 적당히 유지함으로써 재현율을 저하시키지 않고서 정확률을 향상시킬 수 있는 구문적 용어불일치 완화방안을 제시하고자 한다 색인모듈에서는 통계정보를 이용하여 복합명사를 분해하고, 의존관계를 이용하여 명사구를 정규화한다. 분해되고 정규화된 키워드에 경계정보 '/'가 할당되고, 가중치가 계산된다. 검색모듈에서는 경계정보를 이용하여 부분일치를 고려하는 유사도 계산을 수행한다. KTSET 2.0으로 실험한 결과, 제안한 방법은 구문적 용어불일치를 완화할 수 있으며, 재현율을 저하시키지 않고서 정확률을 향상시킬 수 있음을 보인다.

  • PDF

랭킹 결합에 의한 기술용어 패러프레이즈 추출 (Terminological Paraphrase Extraction with Ranking Combination)

  • 최성필;조민희;정한민;맹성현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.175-180
    • /
    • 2012
  • 기술용어 패러프레이즈 (Terminological Paraphrase, TP)는 학술 문헌 내에서 기술 용어의 개념 및 정의를 다른 형태로 풀어서 알기 쉽게 서술적 문구 (descriptive expression) 를 의미한다. 이러한 TP들에 대한 효율적인 식별과 추출은 학술 정보에 대한 개념적 접근이나 학술 정보 검색의 재현율 향상에 매우 중요하다. 본 논문은 생명 공학 분야의 논문에 나타나는 다양한 형태의 TP들을 효율적으로 추출하기 위한 정보 검색 기반의 추출 방법론을 제시하고 총 여섯 가지의 추출 랭킹 모델을 기반으로 이를 결합함으로써 TP추출의 확장 가능성에 대한 실험적 연구를 수행한다. 실험 결과, 활용된 랭킹 모델이 서로 상호 보완적인 관계에 있음을 알 수 있었으며, 랭킹 결합에 의한 성능 개선 효과를 얻을 수 있었다.

  • PDF

은닉마르코프 모델(HMM)을 이용한 과학기술문서에서의 외래어 추출 모델 (Automatic Extraction of Technical Terminologies from Scientific Text based on Hidden Markov Model)

  • 오종훈;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.137-141
    • /
    • 1999
  • 기술의 발달로 인해 수많은 용어들이 생성되고 있다. 이들은 대부분 전문용어이며 이는 비영어권 국가인 우리나라에 도입될 때, 외래어나 원어형태로 도입된다. 그런데 외래어나 원어형태의 전문용어는 형태소 분석기, 색인기 등의 시스템에서 오류의 원인이 되어, 이를 전처리기로 사용하는 자연언어처리 시스템의 성능을 저하 시킨다. 따라서 본 논문에서는 외래어나 원어로 된 전문용어를 처리하기 위한 전단계로서 문서에서 자동적으로 외래어를 인식하고 추출하는 방법을 제시한다. 본 논문에서 제시하는 방법은 외래어 추출 문제를 태깅문제로 변환하여, 태깅 문제를 해결하는 기법 중의 하나인 은닉마르코프 모델 (Hidden Markov Model)을 이용하여 외래어 추출을 하였다. 그 결과 94.90%의 재현률과 95.41%의 정확도를 나타내었다.

  • PDF

척추동물 발자국과 보행렬 화석 관련 한글 용어의 검토

  • 김정률
    • 한국지구과학회:학술대회논문집
    • /
    • 한국지구과학회 2010년도 춘계학술발표회 논문집
    • /
    • pp.54-54
    • /
    • 2010
  • 국내에서 새의 발자국 화석에 대한 고생물학적 연구가 수행된 지 40년이 지난 시점에서 척추동물 발자국과 보행렬 화석 관련 용어를 검토한 결과 학자들마다 다르게 사용하고 있음을 알게 되었다. 학자들 간의 학술적 이해와 학술 교류 및 일반인들의 이해를 돕고 혼란을 없애기 위해서 서로 다르게 사용된 용어들은 가장 적절하게 표현되어야 한다는 생각에서, 그리고 전문가의 건설적인 조언과 의견을 듣기 위해서 검토 내용을 바탕으로 개인적인 생각을 다음과 같이 정리 제안한다. 1. Track (footprint)은 발자국, track fossil은 발자국 화석, track length와 track width는 각각 발자국 길이와 발자국 폭으로 나타내는 것이 적절한 것으로 생각한다. 2. Trackway는 보행렬, trackway width 보행렬 폭으로 표현하는 것이 좋을 것으로 생각한다. 3. Pace는 걸음 거리, pace angle은 걸음 각, stride는 보폭, stride length는 보폭 거리로 나타내는 것이 적절한 것으로 생각되어 이러한 용어의 사용을 제안한다.

  • PDF

시소러스 데이터의 저장과 검색을 위한 효율적인 저장 시스템의 설계 및 구현 (Design and Implementation of Efficient Storage System for Storing and Searching Thesaurus Data)

  • 김점숙;안동언;정성종
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.205-209
    • /
    • 2000
  • 본 논문에서는 시소러스를 효율적으로 구축하고 사용할 수 있는 시소러스 저장 구조를 구현하였다. 정보 검색 시스템은 사용자의 질의어를 용어들과 용어들 사이의 관계 집합으로 구성된 일종의 용어 사전인 시소러스를 이용하여 문헌에 대한 색인과 검색을 정확하고 통제된 용어 형태로 바꾸어 색인과 검색 작업의 효율을 높인다. 데이터베이스에 저장된 시소러스 구조에서 시소러스 검색을 할 때 속도가 감소하는데 이를 해시함수를 이용한 리스트 구조를 이용함으로써 전체적인 시소러스 검색 속도의 증가를 기대할 수 있다. 또한 현재 데이터베이스 형태의 시소러스를 다른 곳에 이식하려면 데이터베이스 시스템이 있어야 한다. 따라서 메모리에 올릴 수 있는 구조를 가지면 시소러스 보급에 기여 할 수 있다. 본 논문에서 제안한 데이터베이스에 저장된 시소러스 구조와 해시함수를 이용한 리스트 구조를 비교, 분석하고 보다 더 효율적인 시소러스의 역할 및 구조 형태에 대해 제안한다.

  • PDF

nML을 이용한 기술용어 사전 시스템 구축 (Design and Implementation of technical term dictionary system written in nML)

  • 강현구;이광근
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (A)
    • /
    • pp.70-72
    • /
    • 2001
  • ML은 엄밀한 수학적 모델에 기반 하여 구현된 프로그래밍 언어로서 고차함수, 복합형 함수와 엄격한 타입시스템을 지원하는 언어이다. nML은 한국과학기술원 프로그램 분석 시스템 연구단에서 연구중인 프로그램 분석 기술을 최대한 반영하여 구현하고 있는 ML의 한국형 사투리이다. 본 논문에서는 nML을 이용하여 일반적이고 자주 사용되는 프로그래밍 국면을 다양하게 반영한 응용프로그램을 구축하여 보았다. 구현하고자 하는 시스템은 중앙 집중형 데이터 서버를 가지는 기술용어 사전 시스템으로서 KDIC이라 명하였다. 본 시스템의 목적은 특정 분야에서 영어 용어들에 대한 전문인의 한글 용어로의 번역 사례를 모은 데이터 베이스를 구축하고, 이러한 번역 사례가 자연스럽게 이용되고자 함에 있다.

남북한 지질학 용어의 비교 분석 (Comparison of Geological Terminology Used in South and North Korea)

  • 김정률;최근수
    • 한국지구과학회지
    • /
    • 제24권8호
    • /
    • pp.691-703
    • /
    • 2003
  • 북한에서 발행된 '조선의 지질'과 남한에서 발행된 '한국의 지질'을 중심으로 남북한에서 발행된 지질학 관련문헌을 조사하여 남북한의 지질학 용어를 비교 ${\cdot}$ 분석하였다. 본 연구에서 이용된 북한의 자료에 의하면 북한에서 현재사용하고 있는 지질학 용어의 총 수는 1272개이다. 이들 지질학 용어는 지질연대학 용어가 49개, 광물학 용어가 201개, 암석학 용어가 199개, 구조지질학 용어가 257개, 고생물학 용어가 93개, 일반지질학 용어가 473개이다. 지질학 용어의 남북한 이질화 정도를 살펴보면, 전체 지질학 용어 중에서 남북한간에 표현과 의미가 같은 동음 동의어는 657개로 약 51.7%이고, 표현하는 방법에 약간의 차이는 있지만 쉽게 그 뜻이 이해되는 동의 유사어는 370개로 약 29.1%이며, 남북한간에 표현하는 방법이 달라서 쉽게 뜻이 통하지 않는 이음 동의어는 245개로 약 19.2%이다. 남북한간에 지질학 용어가 이질화된 원인은 한글 전용 원칙의 차이, 외래어 표기법의 차이, 두음법칙 적용의 차이, 붙여쓰기 표현의 차이, 서로 다른 문화의 영향 등을 들 수 있다.

코퍼스를 이용한 정보검색용 전자사전구축에 관한 연구

  • 남영준
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.430-440
    • /
    • 1996
  • 지능형 정보검색시스템이 효율적으로 운용되기 위해서는 여러개의 서브시스템이 필요하다. 특히, 시소러스와 색인 및 검색시스템용 전자사전은 중요한 지식베이스이다. 본 연구에서는 한글전자사전의 개발에 필요한 이론과 구축기술에 대해 조사하였다. 그 내용은 1)전자사전의 의미, 2)전자사전의 형태, 3) 전자사전개발을 위한 코퍼스 구축기술 및 방법이라는 이론적인 부분과 실제 과기원코퍼스2를 이용한 균형코퍼스를 설계하였다. 한편, 균형코퍼스를 이용한 기본적인 명사사전과 공기사전, 전문용어사전구축방법도 제시하였다.

  • PDF