• Title/Summary/Keyword: 어도

Search Result 7,523, Processing Time 0.033 seconds

Design of environmental technology search system using synonym dictionary (유의어 사전 기반 환경기술 검색 시스템 설계)

  • XIANGHUA, PIAO;HELIN, YIN;Gu, Yeong Hyeon;Yoo, Seong Joon
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.07a
    • /
    • pp.582-586
    • /
    • 2020
  • 국가기후기술정보시스템은 국내 환경기술과 국외의 수요기술 정보를 제공하는 검색 시스템이다. 그러나 기존의 시스템은 유사한 뜻을 가진 단일 단어와 복수 단어들을 모두 식별하지 못하기에 유의어를 입력했을 경우 검색 결과가 다르다. 이런 문제점을 해결하기 위해 본 연구에서는 유의어 사전을 기반으로한 환경기술 검색 시스템을 제안한다. 이 시스템은 Word2vec 모델과 HDBSCAN(Hierarchical Density-Based Spatial Clustering of Application with Noise) 알고리즘을 이용해 유의어 사전을 구축한다. Word2vec 모델을 이용해 한국어와 영어 위키백과 코퍼스에 대해 형태소 분석을 진행한 후 단일 단어와 복수 단어를 포함한 단어를 추출하고 벡터화를 진행한다. 그 다음 HDBSCAN 알고리즘을 이용해 벡터화된 단어를 군집화 해주고 유의어를 추출한다. 기존의 Word2vec 모델이 모든 단어 간의 거리를 계산하고 유의어를 추출하는 과정과 대비하면 시간이 단축되는 역할을 한다. 추출한 유의어를 통합해 유의어 사전을 구축한다. 국가기후기술정보시스템에서 제공하는 국내외 기술정보, 기술정보 키워드와 구축한 유의어 사전을 Multi-filter를 제공하는 Elasticsearch에 적용해 최종적으로 유의어를 식별할 수 있는 환경기술 검색 시스템을 제안한다.

  • PDF

ARMS : Association Rule for sMall Set (검색어의 연관법칙)

  • 문상준;최재걸
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.10-12
    • /
    • 2004
  • 검색엔진에 사용자가 입력한 검색어를 분석하면 상호 연관이 있는 검색어들을 찾아낼 수 있다. 검색어들간의 상호 연관성을 찾기 위해서 데이타 마이닝 분야의 연관법칙을 위한 알고리즘을 적용하였다. 그러나 이 알고리즘들은 모두 일정 횟수 이상 검색된 검색어간의 연관법칙에 집중되어 있어서 일정 횟수 이상 검색되지 않은 검색어들은 버려진다. 이 연구에서는 이런 검색어들을 스몰 셋(small set)이라고 정의하고 스몰 셋의 연관법칙을 찾기 위한 방법을 제시한다. 실험결과는 이 연구에 제시한 방법이 효과적으로 동작하는 것을 입증해준다.

  • PDF

Automatic Production of Book Indices (서적에서의 자동색인)

  • 조성래;황도삼;최기선
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.169-171
    • /
    • 1999
  • 현재의 자동색인 시스템들은 주로 정보검색을 하기 위한 목적으로 개발되고 있으며 단일 서적(저술 분야)색인에 관한 연구는 아직 미진한 상태이다. 또한 워드프로세서의 발달로 인해 단일서적에서 다양한 문서 특징이 나타나게 되었다. 본 논문에서는 관련 서적들의 색인어를 이용한 유사도 기반의 방법과 단일 서적의 문서 특징을 이용한 자동색인 기법을 제안한다. 제안한 기법의 평가를 위해 이미 출판된 서적을 대상으로 한 자동색인 시스템을 개발하고 자동추출 색인어와 수작업 색인어를 비교하였다. 관련 서적내의 색인어와 새로운 대상 문서간의 유사도 비교를 통해 색인어를 추출함으로써 통계적 빈도에 의존하는 색인 기법에서 발생하는 색인어 오추출과 과다한 추출을 줄일 수 있었다.

  • PDF

Extraction of English-Korean Compound Noun Translation through Automatic Alignment Method (자동 정렬을 통한 영한 복합어의 역어 추출)

  • 이주호;최기선;이재성
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.309-314
    • /
    • 2000
  • 본 논문에서는 양국어로 된 병렬 코퍼스로부터 복합어의 역어를 추출하기 위한 정렬 방법을 제시한다. 여기에서는 개념어에 대한 양국어 공기정보를 사용하여 기본 정렬을 하고, 인접한 개념어로 정렬의 단위를 확장했다. 또한 재추정 기법을 사용하여 대역 확률을 계산함으로써 보다 높은 정확률을 얻을 수 있었다. 본 논문에서 제안한 방법을 적용하여 139,265개의 영어 어절로 이루어진 우루과이 라운드 영한 병렬 코퍼스에 대해서 실험한 결과 2,290개의 대역어쌍을 얻었고, 그 정확률은 74%였다.

  • PDF

Predicates Indexing for efficiency improvement in Korean Information Retrieval System (한국어 정보검색 시스템의 성능 향상을 위한 용언 색인)

  • 박진희;박대원;박민식;남현숙;김광영;권혁철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.164-166
    • /
    • 2000
  • 지금까지 대부분의 정보검색 시스템은 명사만을 색인어로 추출하여 사용하였다. 명사는 문서를 대표할 수 있는 어휘 요소이다. 그러나 명사 색인어만 가지고는 문서의 주제를 정확하게 나타낼 수 없다. 본 논문은 명사 색인어와 함께 용언도 색인어로 추출하여 사용하는 한국어 정보 검색시스템을 제시한다. 또한, 용역 색인어와 명사 색인어의 상대적 가중치를 검색에 이용하여 사용자의 질의에 적합한 문서를 검색할 수 있도록 한다. 이러한 과정에서 발견된 문제점은 향후 연구 과제로 계속 향상시켜나갈 것이다.

  • PDF

Korean Continuous Speech Recognition using Phone Models for Function words (기능어용 음소 모델을 적용한 한국어 연속음성 인식)

  • 명주현;정민화
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.354-356
    • /
    • 2000
  • 의사형태소를 디코딩 단위로 한국어 연속 음성 인식에서의 조사, 어미, 접사 및 짧은 용언의 어간등의 단어가 상당수의 인식 오류를 발생시킨다. 이러한 단어들은 발화 지속시간이 매우 짧고 생략이 빈번하며 결합되는 다른 형태소의 형태에 따라서 매우 심한 발음상의 변이를 보인다. 본 논문에서는 이러한 단어들은 한국어 기능어라 정의하고 실제 의사형태소 단위의 인식 실험을 통하여 기능어 집합 1, 2를 규정하였다. 그리고 한국어 기능어에 기능어용 음소를 독립적으로 적용하는 방법을 제안했다. 또한 기능어용 음소가 분리되어 생기는 음향학적 변이들을 처리하기 위해 Gaussian Mixture 수를 증가시켜 보다 견고한 학습을 수행했고, 기능어들의 음향 모델 스코어가 높아짐에 따른 인식에서의 삽입 오류 증가를 낮추기 위해 언어 모델에 fixed penalty를 부여하였다. 기능어 집합1에 대한 음소 모델을 적용한 경우 전체 문장 인식률은 0.8% 향상되었고 기능어 집합2에 대한 기능어 음소 모델을 적용하였을 때 전체 문장 인식률은 1.4% 증가하였다. 위의 실험 결과를 통하여 한국어 기능어에 대해 새로운 음소를 적용하여 독립적으로 학습하여 인식을 수행하는 것이 효과적임을 확인하였다.

  • PDF

Complex Phrase Recognition in English-to-Korean Machine Translation : MATES/EK (영한 기계번역에서의 복합어구 인식)

  • Chaag, Du-Seong;Kim, Doek-Bong;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1992.10a
    • /
    • pp.503-510
    • /
    • 1992
  • 복합어는 여러개의 단어가 하나의 의미론 나타내는 단어를 말한다. 이 논문에서는 번역시 구성단어들의 의미의 합이 아닌 다른 또 하나의 의미를 나타내는 단어를 대상으로 한다. 이러한 복합어는 구문해석 단계에서 많은 애매성의 원인이 되며, 유형에 따라 숙어 처럼 새로운 의미로 항상 같이 쓰이는 복합어와 복합어의 형성이 복잡하여 규칙으로서 단어를 이해할 필요가 있는 단어로 구분할 수 있다. 첫번째 유형은 단어의 형성이 단순하여 하나의 사전 엔트리로 등록될 수 있다. 이때 이들 복합어가 가지는 개별 어휘 규칙을 같이 사전에 등록하여 사전을 효과적 이용할 수 있다. 두번째 유형은 규칙에 의한 처리를 하여야 한다. 이러한 복합어에 대한 인식을 구문분석이전에 행함으로서 적은 노력으로 복합어로 인한 전체 문장의 애매성을 감소시키고, 문장내 단어의 수를 감소시킴으로서 전채 번역시스템의 효율을 증대하며, 복합어의 처리는 번역문을 자연스럽게 생성하는 데 큰 효과를 나타낸다.

  • PDF

A Processing of Progressive Aspect in Japanese-Korean Machine Translation (일한번역시스템에서 진행형의 번역처리)

  • 김정인;문경희;이종혁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.185-187
    • /
    • 2000
  • 일본어에서 "てぃる"형태는 동작진행과 상태진행을 모두 나타내지만 한국어에서는 "고 있다"와 "어 있다"로 나누어 표기한다. 양 언어간의 상적인 의미 대응은 간단하지 않지만, 술부의 의미정보, 부사와 부사어의 의미정보 등을 이용하여 "てぃる"형태의 상적인 의미를 결정하는 것이 가능하다. "てぃる"형태의 적절한 대역어 선정을 위하여, 사전 속의 모든 일본어 술어에 다섯 종류의 의미코드를 입력한다. 즉, "1:동작진행만으로 사용되는 술어", "2:일반적으로는 동작진행으로 사용되지만, 수동인 경우에는 상태진행의 형태로도 사용되는 술어", "3:상태진행으로만 사용되는 술어", "4:동작진행, 상태진행의 구별이 애매한 술어", "5:기타"등의 상적인 의미분류코드를 술어별로 입력한다. 그리고 "2", "4" 형태의 술어로부터 진행형을 구별하기 위하여 부사와 부사어를 사용하는 방법을 제안한다.uot;5:기타"등의 상적인 의미분류코드를 술어별로 입력한다. 그리고 "2", "4" 형태의 술어로부터 진행형을 구별하기 위하여 부사와 부사어를 사용하는 방법을 제안한다.여 부사와 부사어를 사용하는 방법을 제안한다.

  • PDF

Extraction Algorithm of Field-Associated Terms for Korean Document Classification (한글문서 분류용 분야연상어의 추출 알고리즘)

  • 김숙영;최창원;이상곤
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.544-546
    • /
    • 2003
  • 인간은 문서에서 대표적인 단어를 보는 것만으로 정치나 스포츠 등의 분야를 정확히 인지할 수 있다. 문서전체를 대상으로 하지 않고 부분적인 덱스트에서 출현하는 소수의 단어정보에서 문서의 분야를 정확히 결정하기 위해 분야연상어의 구축은 중요한 연구과제이다. 인간이 미리 분야체계를 정의하고, 각 분야에 해당하는 문서를 인터넷이나 서적을 통해 수집하고, 수집문서의 분야를 정확히 지시하는 분야연상어를 수집하는 방법을 제안한다. 문서의 분야결정 시정을 고려하여 분야연상어의 수준과 안정성랭크에 대하여 논의한다. 학습데이터에서 분야연상어 후보의 각 수준을 자동으로 결정하고, 컴퓨터가 제시하는 분야연상어의 수준, 안정성랭크, 집중률, 빈도정보를 이용하여 단일어로 된 분야연상어를 추출하는 방법을 제안한다.

  • PDF

Improved Information Retrieval System Using Multi word Based On Association Ratio (연관률 기반 복합어를 이용한 개선된 정보검색 시스템)

  • 이병희;최종필;박승규;김민구
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10a
    • /
    • pp.163-165
    • /
    • 2004
  • 복합어의 추출은 정보 검색 및 온톨로지 분야의 연구에 있어서 중요한 비중을 차지하고 있다. 이 분야의 연구는 언어학적인 필터링 및 통계적 기법에 기반 한 연구와 최근의 문맥정보 및 사전 점보를 이용하는 기법 등으로 구분될 수 있다. 복합어를 정보 검색 및 온톨로지 분야에 응용하기 위해서는 복합어의 정확한 추출뿐만 아니라 그 복합어가 문서를 표현할 수 있는 정도를 측정하는 기법이 필요하다. 특히 정보검색 분야에서는 추출된 복합어에 대해 어떻게 가중치를 부여할 것인 가가 중요한 문제이다. 본 논문에서는 연관률(Association Ratio)에 기반 하여 복합어를 추출하고, 추출된 복합어에 대친 적절한 가중치를 부여함으로써 검색 시스템의 성능을 향상시킬 수 있는 방법을 제안한다.

  • PDF