• 제목/요약/키워드: 복합어 일치

검색결과 11건 처리시간 0.03초

한영 혼용문에서 괄호 안 대역어구의 자동 인식 (Automatic Recognition of Translation Phrases Enclosed with Parenthesis in Korean-English Mixed Documents)

  • 이재성;서영훈
    • 정보처리학회논문지B
    • /
    • 제9B권4호
    • /
    • pp.445-452
    • /
    • 2002
  • 한영 혼용문에서 번역된 전문용어 등을 사용할 때, 이해를 돕기 위해 그 뒤의 괄호 안에 원어 풀이를 함께 쓰는 경우가 많다. 본 논문에서는 괄호가 사용된 구가 대역어구 관계인지를 판단하고, 어느 범위까지 대역어구인지를 기본사전을 이용하여 확률적으로 계산하고 인식하는 방법을 제시한다. 특히, 사전에 표제어로서 혹은 대역어로서 존재하지 않는 단어들을 처리하기 위해 음운유사도 일치, 대역어 부분일치의 방법과 복합어 처리를 위해 부분일치 방법을 새로 제안하였다. 각 방법들을 단계별로 실험하여 0.4F값$(\alpha$를 0.4로 설정한 F값)으로 측정한 결과, 기본 실험 방법인 사전 대역어 완전일치방법의 경우 23.8%인데 비해, 대역어 부분일치와 음운유사도 일치를 흔합한 방법이 75.9%, 복합어 처리를 추가한 방법이 77.3%의 값을 보여 성능이 최고 3.25배 향상되었다.

시소러스 및 요약화일을 이용한 문서 검색시스템 (The development of a document retrieval system using thesaurus and signature file)

  • 정상철;신동욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.400-408
    • /
    • 1994
  • 본 논문에서는 요약화일을 이용하여 복합명사를 효율적으로 처리하며 시소러스를 이용하여 검색하는 한글문서 검색시스템을 제안한다. 본 한글문서 검색 시스템은 한글문서를 대상으로 색인하는 자동색인기와 사용자의 질의를 받아 관련된 문서를 검색하는 검색기로 구성된다. 자동색인기는 우선 한글문서를 대상으로 최장일치 방법으로 명사들을 출출한 후 복합명사의 패턴을 분석하여 복합명사의 가능성이 높은 것들을 복합명사화한다. 두번째로 이들 복합명사들을 1+2SP 방식으로 코딩한 후 요약화일 방법을 이용하여 요약화일을 작성한다. 검색기는 사용자 질의어를 받아 명사들을 추출한 후 시소러스를 이용하여 질의어를 확장한다. 다음 확장된 질의어를 1+2SP 방식으로 코딩한 후 관련된 문서를 검색한다. 본 논문에서는 한국통신에서 만든 코퍼스를 이용하여 제안된 방법의 성능을 평가하였는데 복합명사 처리 및 시소러스 이용방식이 효율적임이 입증되었다. 또한 KAIST에서 개발한 문서검색 시스템보다 동일한 코퍼스로 실험하였을 경우 재현률 및 정확률이 $7{\sim}8%$ 정도 앞서 기존의 시스템보다도 성능이 우수하다는 것이 밝혀졌다.

  • PDF

경도지적장애 학생의 신조어 능력이 또래인기도에 미치는 영향 (The Effect Of Neologism Ability Of Students With Mild Intellectual Disabilities On Peer Popularity)

  • 김화수;진수미;이지우
    • 디지털융복합연구
    • /
    • 제20권1호
    • /
    • pp.213-220
    • /
    • 2022
  • 본 연구는 경도지적장애 학생과 생활연령 일치집단 일반학생을 대상으로 신조어 사용의 특성과 신조어 사용능력과 또래인기도 간의 관계를 알아보는 것이 목적이다. 생활연령이 14~16세 되는 경도지적장애 학생 4명과 생활연령 일치집단 일반학생 4명, 총 8명으로 하여 대상을 비모수 검정으로 집단 간 비교를 하였다. 신조어의 경우 301개의 신조어 중에서 전문가 내용타당도를 통하여 60개의 신조어를 선택한 후, 60개 신조어 어휘에 대한 인식도와 배경정보를 수집하였다. 연구결과 첫째, 경도지적장애 학생 집단과 생활연령 일치 일반학생 집단 간에 신조어 이해도에서 유의한 차이를 나타냈다. 둘째, 경도지적장애 학생 집단과 생활연령 일치 일반학생 집단 각각에 대하여 신조어 사용과 또래인기도의 상관관계를 비교하였는데 두 집단 모두 신조어 사용과 또래인기도가 높은 정적상관관계를 나타냈다. 그러므로 경도지적장애 학생을 대상으로 어휘 지도를 할 때, 또래와의 관계 및 인기도를 높이기 위해서는 신조어 어휘를 지도할 필요가 있음을 시사한다.

주어-동사 일치의 통사적 유인 (Syntactic Attraction of Subject-Verb Agreement)

  • 장소영;김양순
    • 문화기술의 융합
    • /
    • 제7권3호
    • /
    • pp.353-358
    • /
    • 2021
  • 본 연구는 주어-동사 일치에 대한 3가지 유형의 통사적 분석을 제공한다. 주어-동사의 수일치는 주어와 서술어간의 연쇄를 체계적으로 설명하기 때문에 이는 핵-핵 일치 또는 계층적 구조에 작용하는 상방향과 하방향 자질침투라는 순수한 통사적 분석으로 제안되어야 한다. 주어-동사 일치의 오류는 선형적 근접성이나 최소간섭이 아닌 일치의 목표와 국소적 유인자인 명사 사이의 계층적 관계에 의해 영향을 받는다. 본 연구의 자료로 수식어로서의 전치사구 PP 또는 관계절 CP를 포함하는 복합 명사구를 분석하며 이때 복수자질 [+PL]이 강 자질로서 일치오류의 국소 유인자이다. 따라서 일치오류는 화자들이 수식어 전치사구의 복수 명사구 때문에 주절의 단수 주어를 복수로 잘못 분석하거나 복수 주어의 영향으로 수식어 관계절안의 단수 주어가 복수로 잘못 분석되어 관계절 안의 동사가 복수형으로 잘못된 일치 오류가 일어나는 경향이 있다. 즉, 주어-동사 일치는 구조가 형성되는 과정에 내재적으로 불일치하는 일은 없고 특정한 구성소 표현이 국소 유인자로 오인되어 단지 언어분석처리 중에 조작되어 나타난다.

사전 정보에 기반한 효율적인 자동색인기 설계 (A Design of Efficient Automatic Indexing based on Dictionary Information)

  • 진정환;김태완
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (상)
    • /
    • pp.547-550
    • /
    • 2001
  • 웹상에 공유되어진 문서의 내용을 대표하는 색인어 추출은 정보 검색 시스템의 질을 좌우한다. 한국어의 자유로운 복합명사나 띄어쓰기 규약, 사전 미등록 어휘 등으로 색인어 추출시 질의어와 색인어 사이의 형태상의 불일치(Syntactic Term Mismatch)가 발생하여 검색성능을 저하시키는 경우가 많다. 따라서 본 논문에서는 사전을 통한 형태소 해석을 통해 단위명사(Unit Noun)로 색인어를 추출하고 사전 미등륵어는 N-gram 기반 색인 방법을 이용하여 질의어와 색인어 사이의 부분 일치된 문서도 추출될 수 있는 방법을 제안하였으며, 색인어와 질의어 사이의 유사도 계산을 통해 문서의 우선순위를 정함으로써 색인기의 성능을 높이는 방법을 제안한다.

  • PDF

국내(國內) 문헌정보(文獻情報) 검색(檢索)을 위한 키워드 자동추출(自動抽出) 시스템 개발(開發) (Automatic Keyword Extraction System for Korean Documents Information Retrieval)

  • 예용희
    • 정보관리연구
    • /
    • 제23권1호
    • /
    • pp.39-62
    • /
    • 1992
  • 본(本) 연구(硏究)는 실제의 데이터 분석(分析)을 통하여 60여개의 조사(助詞)와 출현빈도는 높지만 검색(檢率)에 불필요한 320여개의 불용어(不用語)를 선정하여 좌우절단을 적용한 네 가지 유형으로 분류하고 조사(助詞)와 불용어 테이블을 구성하는 방법(方法)을 제시한다. 한글문헌에서 단어(單語)가 추출되면 조사의 효율적인 절단이 이러우지고, 한자어(漢字語)일 경우 한글로 변환되며, 2단계로 불용어제거(不用語除去) 과정을 거쳐 키워드를 선정하는 시스템을 개발한다. 여기서 추출된 키워드는 정보전문가(情報專門家)에 의해 추출된 색인어(索引語)와는 92.2%의 일치율을 보였다. 그리고 $4{\sim}6$글자로 구성된 복합어(複合語)의 경우 본(本) 연구(硏究)에서 제시한 분리방법에 의해 약 2배의 새로운 단어(單語)를 추가할 수 있었으며 그 중 58.8%가 키워드로 적합했다.

  • PDF

임베디드 시스템에 적합한 한국어 복합명사 분해 (Korean Compound Nouns Decomposition Suitable for Embedded Systems)

  • 최민석;김창현;천민아;박호민;남궁영;윤호;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.316-320
    • /
    • 2018
  • 복합명사는 둘 이상의 말이 결합된 명사를 말하며 문장에서 하나의 단어로 간주된다, 그러나 맞춤법 및 띄어쓰기 검사나 정보검색의 색인어 추출, 기계번역의 미등록어 추정 등의 분야에서는 복합명사를 구성하는 개별 단어를 확인할 필요가 있다. 이 과정을 복합명사 분해라고 한다. 복합명사를 분해하는 방법으로 크게 규칙 기반 방법, 통계 기반 방법 등이 있으며 본 논문에서는 규칙을 기반으로 최소한의 통계 정보를 이용하는 방법을 제안한다. 본 논문은 4개의 분해 규칙을 적용하여 분해 후보를 생성하고 분해 후보들 중에 우선순위를 정하여 최적 후보를 선택하는 방법을 제안한다. 기본 단어(명사)로 트라이(trie)를 구축하고 구축된 트라이를 이용하여 양방향 최장일치를 적용하고 음절 쌍의 통계정보를 이용해서 모호성을 제거한다. 성능을 평가하기 위해 70,000여 개의 명사 사전과 음절 쌍 통계정보를 구축하였고, 이를 바탕으로 복합명사를 분해하였으며, 분해 정확도는 단어 구성비를 반영하면 96.63%이다. 제안된 복합명사 분해 방법은 최소한의 데이터를 이용하여 복합명사 분해를 수행하였으며 트라이 자료구조를 사용해서 사전의 크기를 줄이고 사전의 검색 속도를 개선하였다. 그 결과로 임베디드 시스템과 같은 소형 기기의 환경에 적합한 복합명사 분해 시스템을 구현할 수 있었다.

  • PDF

한국어정보검색에서 구문적 용어불일치 완화방안 (Alleviating Syntactic Term Mismatches in Korean Information Retrieval)

  • 윤보현;김상범;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.143-149
    • /
    • 1998
  • 한국어 정보검색에서 복합명사와 명사구로 발생하는 색인어와 질의어간의 구문적 용어 불일치는 많은 문제를 일으켜왔다. 본 논문에서는 복합명사 분해와 명사구 정규화를 함께 수행하여 유사도 측정값을 적당히 유지함으로써 재현율을 저하시키지 않고서 정확률을 향상시킬 수 있는 구문적 용어불일치 완화방안을 제시하고자 한다 색인모듈에서는 통계정보를 이용하여 복합명사를 분해하고, 의존관계를 이용하여 명사구를 정규화한다. 분해되고 정규화된 키워드에 경계정보 '/'가 할당되고, 가중치가 계산된다. 검색모듈에서는 경계정보를 이용하여 부분일치를 고려하는 유사도 계산을 수행한다. KTSET 2.0으로 실험한 결과, 제안한 방법은 구문적 용어불일치를 완화할 수 있으며, 재현율을 저하시키지 않고서 정확률을 향상시킬 수 있음을 보인다.

  • PDF

효율적인 한국어 파싱을 위한 최장일치 기반의 형태소 분석기 기능 확장 (Functional Expansion of Morphological Analyzer Based on Longest Phrase Matching For Efficient Korean Parsing)

  • 이현영;이종석;강병도;양승원
    • 디지털콘텐츠학회 논문지
    • /
    • 제17권3호
    • /
    • pp.203-210
    • /
    • 2016
  • 한국어는 문장 구성소의 생략과 수식 범위가 자유롭기 때문에 파싱보다는 형태소 분석 단계에서 처리하면 좋은 경우가 있다. 본 논문에서는 파싱의 부담을 덜어 줄 수 있는 형태소 분석기의 기능 확장 방안을 제안한다. 이 방법은 미지어의 추정, 복합 명사 및 복합동사의 처리, 숫자 및 심볼의 처리에 의해 여러 형태소 열이 하나의 구문 범주를 가질 때 이것을 최장일치 방법으로 결합하고 의미 자질을 부여하여 하나의 구문 단위로 처리하는 것이다. 제안한 형태소 분석 방법은 불필요한 형태론적 모호성이 제거되고 형태소 분석 결과가 줄어들어 태거 및 파서의 정확률이 향상되었다. 또한, 실험을 통해 파싱트리는 평균 73.4%, 파싱 시간은 평균 52.9%로 줄었음을 보인다.

Vacuum Assisted Resin Transfer Molding 공정에서의 Microvoids 형성과 이동에 관한 연구 (Experimental Study of the Microvoids formation and Transport in the Vacuum Assisted Resin Transfer Molding Process)

  • Se Won Eun;Woo Il Lee
    • Composites Research
    • /
    • 제16권6호
    • /
    • pp.10-15
    • /
    • 2003
  • RTM 공정에 의하여 생성된 제품은 microvoids의 함유량에 의하여 기계적인 물성치에 큰 영향을 받는다. 본 연구에서는 이러한 microvoid의 형성과 이동을 실험적으로 관찰할 수 있는 방법을 제시하였다. Vacuum assisted RTM공정에서 유동선단에서의 microvoid의 형성과 이동을 DV camera로써 관찰을 한 후, 그것에서 void의 함유량을 구하고, 실험에서 얻어진 결과로 microvoid model에 필요만 factor들을 얻어낼 수 있었다. 이렇게 하여 얻어진 결과를 다시 실험적인 결과와 비교함으로써 서로 일치하는 결과를 얻어낼 수 있었다. 이번 연구에서 얻어진 결과를 수학적인 모델에 대입함으로써 VARTM 공정 중 microvoid의 함유량을 예측할 수 있다.