• 제목/요약/키워드: Compound words

검색결과 97건 처리시간 0.023초

개념기반 복합키워드 추출방법 (Concept-based Compound Keyword Extraction)

  • 이상곤;이태헌
    • 컴퓨터교육학회논문지
    • /
    • 제6권2호
    • /
    • pp.23-31
    • /
    • 2003
  • 인간은 문서를 읽고 그 내용을 머릿속에서 개념적으로 정리하여 적은 수의 복합단어를 이용하여 문서를 대표하는 적당한 키워드로 정리한다. 본 논문은 이러한 점에 착안하여 문서를 대표하는 키워드를 추출하는 방법을 제안한다. 학술논문을 실험 예로 사용하여 저자가 자신의 문서에 부여한 키워드가 문서의 본문 중에 출현하지 않는 경우에도 동작하도록 출현단어의 개념정보를 기초로 복합어 생성규칙을 구축한다. 문서의미와 상관없는 키워드의 추출을 억제하기 위해 중요도 결정법을 새로 제안한다. 추출된 키워드의 타당성 여부는 자연언어와 음성언어에 관한 논문의 제목과 요약을 수집하여 실험하였다. 또한 저자가 부여한 키워드와 본 시스템이 출력한 키워드를 비교 한 결과, 상위 한 개의 정확율이 96%가 되어 제안방법의 유용성을 확인하였다.

  • PDF

의류용어의 원류와 그 의미분석 -오용되는 오래어를 중심으로- (A Study on the Origin of the Clothing Terms and Their Interpretations -Focusing on the Misused Foreign Languages-)

  • 조규회
    • 한국의류학회지
    • /
    • 제19권6호
    • /
    • pp.933-945
    • /
    • 1995
  • The purpose of this study is to examine the current foreign languages of clothing terms which have been misused, clarify the meanings and suggest the unified teams. The results are as follows. First, English and Japanese are great parts of the origins of the clothing terms in foreign languges which have been misused. And next, there were French, German, Portuguese and Spanish via English and Japanese. Especially, the misused foreign languages in styles, materials of clothing are also via English and Japanese. The compound words in Japanese are many parts of them and misused Japanese, Japanese via English, French, German, Dutch, Spanish, Poltuguese, and some terms can not be found their origin. (ex: 색채, 컬러, 카라) In case of the colors of clothing, the terms have the English marking rules and the Japanese pronounciation. And some unified terms are Korean, English, and Chinese letters. (ex: 빨강, 레드, 적색) There are lots of the misused foreign lagusges in sewing terms. On each case, the corresponding words in English and Japanese were suggested to understand easily. The most of the unified words were suggested in Korean. (ex: 하찌사시 $\rightarrow$ 하자시; padding stitch, 팔자뜨기) In clothing construction, there were lots of the misused terms in Japanese and the corrupted terms of Japanese. And so the explains and the unified terms were suggested. (ex: 구세토리, 몸새맞춤, 나찌, 가위집 (내기)) Finally, the origins of terms in western history of costume were clarified and analyzed the meanings : $\circled1$robe, $\circled2$ jacket, gipon, pourpoint, doublet, justaucorps, habit, flock(coat), cutaway, swallow tail coat, 배광, lounge suit, $\circled3$ coat Robe is the gown style garment which was used by men and women from the Middle ages, the jacket is a short, coat-like garment and coat is a long outer garment. Each origin is different, however the 'jacket' and the 'coat' were used confusely in the middle of 19th century.

  • PDF

HMM에 기반한 한국어 개체명 인식 (HMM-based Korean Named Entity Recognition)

  • 황이규;윤보현
    • 정보처리학회논문지B
    • /
    • 제10B권2호
    • /
    • pp.229-236
    • /
    • 2003
  • 개체명 인식은 질의응답 시스템이나 정보 추출 시스템에서 필수 불가결한 과정이다. 이 논문에서는 HMM 기반의 복합 명사 구성 원리를 이용한 한국어 개체명 인식 방법에 대해 설명한다. 한국어에서 많은 개체명들이 하나 이상의 단어로 구성되어 있다. 또한, 하나의 개체명을 구성하는 단어들 사이와 개체명과 개체명 주위의 단어 사이에도 문맥적 관계를 가지고 있다. 본 논문에서는 단어들을 개체명 독립 단어, 개체명 구성 단어, 개체명 인접 단어로 분류하고, 개체명 관련 단어 유형과 품사를 기반으로 HMM을 학습하였다. 본 논문에서 제안하는 개체명 인식 시스템은 가변길이의 개체명을 인식하기 위해 트라이그램 모델을 사용하였다. 트라이그램 모델을 이용한 HMM은 데이터 부족 문제를 가지고 있으며, 이를 해결하기 위해 다단계 백-오프를 이용하였다. 경제 분야 신문기사를 이용한 실험 결과 F-measure 97.6%의 결과를 얻었다.

한국어 어휘특성들이 기억폭에 미치는 효과 (The Effects of Korean Lexical Characteristics on Memory Span)

  • 박태진;박선희;김태호
    • 인지과학
    • /
    • 제17권1호
    • /
    • pp.15-27
    • /
    • 2006
  • 한국어 단어의 글자 수, 받침의 수와 위치, 합성어 여부가 기억폭에 미치는 효과를 검증하였다. 그 결과, 전반적으로 글자가 많은 단어일수록 기억폭이 작았으며, 두 글자 단어들에서 받침이 많을수록 기억폭이 더 작았고(기억폭에 대한 받침효과), 합성어보다 단일어의 기억폭이 더 컸다. 단어당 읽기 속도를 측정한 결과, 글자가 많은 단어일수록 속도가 느렸지만, 두 글자 단어들에서 뒷받침단어의 읽기 속도가 받침없는 단어, 앞받침단어 및 양받침단어보다 더 빨랐고(읽기 속도에 대한 말미 받침효과), 합성어보다 단일어의 읽기 속도가 더 빨랐다. 기억폭과 읽기 속도간에 관찰된 이러한 관계는 단어길이효과에 대한 음운루프설명과 잘 부합되지 않으며, 기억폭이 음운정보 뿐만 아니라 시각적 캐시에 표상되는 철자 정보의 영향을 받는다는 설명을 지지해준다.

  • PDF

한국어 기준명사 추출 및 그 응용 (Korean Base-Noun Extraction and its Application)

  • 김재훈
    • 정보처리학회논문지B
    • /
    • 제15B권6호
    • /
    • pp.613-620
    • /
    • 2008
  • 정보검색, 문서요약 등의 분야에서 명사추출은 매우 중요하다. 본 논문은 대량의 문서로부터 기준명사를 효과적으로 추출하기 위한 한국어 기준명사 추출 시스템을 제안하고 이를 문서요약 시스템에 적용한다. 기준명사는 명사들 중에서 기본이 되는 명사이며 복합명사는 포함되지 않는다. 본 논문에서는 두 가지 기술 즉 여과기법과 분리기법을 사용한다. 먼저 여과기법을 이용해서 명사를 포함하지 않은 어절을 미리 제거하고, 그리고 분리기법을 이용해서 명사가 포함된 어절에서 명사와 조사를 분리하고, 복합명사에 해당할 경우에는 각 명사를 분리하여 기준명사를 추출한다. ETRI 말뭉치를 대상으로 실험한 결과, 재현율과 정확률 모두 약 89% 정도의 성능을 보였으며, 제안된 시스템을 한국어 문서요약 시스템에 적용해 보았을 때, 좋은 결과를 얻을 수 있었다.

상호정보량과 복합명사 의미사전에 기반한 동음이의어 중의성 해소 (Homonym Disambiguation based on Mutual Information and Sense-Tagged Compound Noun Dictionary)

  • 허정;서희철;장명길
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권12호
    • /
    • pp.1073-1089
    • /
    • 2006
  • 자연언어처리의 목적은 컴퓨터가 자연어를 이해할 수 있도록 하여, 인간에게 다양한 정보를 정확하고 빠르게 전달할 수 있도록 하고자 하는 것이다. 이를 위해서는 언어의 의미를 정확히 파악하여야 하는데, 어휘 의미 중의성 해소가 필수적인 기술이다. 본 연구는 상호정보량과 기 분석된 복합명사 의미사전에 기반한 동음이의어 의미 중의성 해소를 위한 기술을 소개한다. 사전 뜻풀이를 이용하는 기존 기술들은 어휘들간의 정확한 매칭에 의존하기 때문에 자료 부족 현상이 심각하였다. 그러나, 본 연구에서는 어휘들간의 연관계수인 상호정보량을 이용함으로써 이 문제를 완화시켰다. 또한, 언어적인 특징을 반영하기 위해서 상호정보량을 가지는 어휘 쌍의 비율 가중치, 의미 별 비율 가중치와 뜻풀이의 길이 가중치를 사용하였다. 그리고, 복합명사를 구성하는 단일명사들은 서로의 의미를 제약한다는 것에 기반하여 고빈도 복합명사에 대해서 의미를 부착한 의미사전을 구축하였고, 이를 동음이의어 중의성 해소에 활용하였다. 본 시스템의 평가를 위해 질의응답 평가셋의 200 여 개의 질의와 정답단락을 대상으로 동음이의어 의미 중의성 해소 평가셋을 구축하였다. 평가셋에 기반하여 네 유형의 실험을 수행하였다. 실험 결과는 상호 정보량만을 이용하였을 때 65.06%의 정확률을 보였고, 가중치를 활용하였을 때 85.35%의 정확률을 보였다. 또한, 복합명사 의미분석 사전을 활용하였을 때는 88.82%의 정확률을 보였다.

麻帝核試의 硏究 (A Study on Ma Je Kai Shi(麻帝核試))

  • 김진구
    • 복식문화연구
    • /
    • 제5권4호
    • /
    • pp.6-11
    • /
    • 1997
  • The purpose of this study was to identify and to trace the source of origins of 麻帝核試 that appears in Kei Rim Yu Sa(鷄林類事). Comparative liguistic analytical approaches ware employed for this study. Results of this study revealed that madi(마디) survives as a dialect for m ∂ri[머리(頭)] in Kyung Sang Province Thus, it si considered that the dialect madi(마디) is a survival of 마디(麻帝) of Koryo. Similar words to 核試 of Koryo were found in Hebrew and Japanese : Heb. k-u-tsi(zi) means locks of hair and Japanese ku-shi(くシ) has several meanings : comb, head, and the hair of the head. The word 麻帝核試 of Koryo is a compound ward of madi(麻帝), head and k ∂ shi(그시) 核試 locks of hair(hair of the head). 核試 of Koryo , Jao. ku shi(くシ), and Heb. k-u-tsi(zi) showed close relationships to one another. The word ku shi(si) 그시 核試 was derived from Heb. k-u-tsi(zi) and Jap. ku shi(くシ) was originated from 核試 of Koryo. Kor. ku shi(si) 그시 核試 is a transliteration of Heb. k-u-tsi(zi) and Jap. ku shi(くシ) is a trans-literation of Kor. ku shi 그시 核試.

  • PDF

한국어 및 외래어 미등록어를 포함한 복합명사 분석 (Analysis of Compound Nouns Containing Korean or Foreign Unknown Words)

  • 김명선;나동열
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2006년도 춘계학술대회
    • /
    • pp.73-79
    • /
    • 2006
  • 본 논문에서는 미등록어 처리가 강화된 복합명사 분석 기법을 제시한다. 기본적으로 모든 복합명사 내에 한국어나 외래어의 미등록어가 포함되어 있을 수 있다는 가정하에 분석을 시도한다. 따라서 등록어로 구성된 복합명사에 대해서도 미등록어가 포함된 분해 후보가 생성될 수도 있다. 이는 분해 후보의 수를 크게 증가시키는 문제를 일으킨다. 이 문제에 대처하기 위하여 미등록어의 분류에 따라 미등록어로서의 가능성 여부의 판별 및 제거, 분해 후보 상호간의 견제에 의한 제거 등을 이용하였다. 이러한 과정은 정답 후보 선택시에도 영향을 미쳐 정답이 아닌 분해 후보가 선택되는 것을 방지할 수 있으며, 처리 시간을 줄일 수 있는 이점이 있다. 실험 결과 제시된 기법들이 매우 효과적임을 확인할 수 있었다.

  • PDF

담배 연기성분의 GC-Profile 특성비교 (Comparison of GC-Profile on Tobacco Smoke Components)

  • 나효환;한상빈;복진영;이운철;백순옥;장기철;양광규
    • 한국연초학회지
    • /
    • 제16권2호
    • /
    • pp.152-162
    • /
    • 1994
  • This study was designed to establish an analytical method for the properties of leaf tobacco smoke. Lyophilized TPM from leaf tobacco smoke was extracted with MeOH, dried under reduced pressure, and trimethyl-silylated(TMS). Gas chromatography of the material using SPB-5 column showed 120 quantifiable peaks. Among those, 26 compounds including a hydrocarbons, Neophytadiene. and Levulinic acid could be identified through GC-MS. Smoke properties of 5 manufacturing grades and 2 oriental cultivars of domestic and imported leaf tobacco including AB3O-1 were analyzed. For flue-cured tobacco, content of the compounds in the smoke was generally higher in American leaf tobacco except for glycerol compounds. For burley tobacco, domestic leaves were found to have much higher amount of smoke compound than imported leaves. Among oriental tobacco, Izmir contained slightly higher amount of smoke compounds than Basma. Key words : GC - profile. TPM. TMS. Leaf tobacco.

  • PDF

바일 기기를 위한 확장 문서 포맷의 맵 서비스 (Extended document format map service for mobile device)

  • 김정숙
    • 디지털산업정보학회논문지
    • /
    • 제6권4호
    • /
    • pp.83-94
    • /
    • 2010
  • Mobile network infrastructure is being completed with the development of hardware and software for mobile devices. Network in mobile devices has evolved for telematics that is expanded much more than its existing concept. Telematics is compound word that is formed from the words "telecommunication" and "informatics". It means that telematics performs control and monitoring service with using mobile device resources. These services provide their services for users' requests through wired or wireless network from mobile devices and server that offers contents and network service collects management information of mobile devices. Map service is one of the preferred services for many telematics users. However, mobile map service has a limit between traffic and information sharing. Therefore it is very important to supply their information for both service provider and terminal user. In this paper, we design a new interactive sketch map using routes and information on the space to be applied effectively, and provide an extended document format that is defined to an extensible and dynamic clustering scheme to have portability map service for mobile device.