• 제목/요약/키워드: phrase identification

검색결과 18건 처리시간 0.035초

최대 엔트로피 모델을 이용한 한국어 명사구 추출 (Korean Noun Phrase Identification using Maximum Entropy Method)

  • 강인호;전수영;김길창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.127-132
    • /
    • 2000
  • 본 논문에서는 격조사의 구문적인 특성을 이용하여, 수식어까지 포함한 명사구 추출 방법을 연구한다. 명사구 판정을 위해 연속적인 형태소열을 문맥정보로 사용하던 기존의 방법과 달리, 명사구의 처음과 끝 그리고 명사구 주변의 형태소를 이용하여 명사구의 수식 부분과 중심 명사를 문맥정보로 사용한다. 다양한 형태의 문맥정보들은 최대 엔트로피 원리(Maximum Entropy Principle)에 의해 하나의 확률 분포로 결합된다. 본 논문에서 제안하는 명사구 추출 방법은 먼저 구문 트리 태깅된 코퍼스에서 품사열로 표현되는 명사구 문법 규칙을 얻어낸다. 이렇게 얻어낸 명사구 규칙을 이용하여 격조사와 인접한 명사구 후보들을 추출한다. 추출된 각 명사구 후보는 학습 코퍼스에서 얻어낸 확률 분포에 기반하여 명사구로 해서될 확률값을 부여받는다. 이 중 제일 확률값이 높은 것을 선택하는 형태로 각 격조사와 관계있는 명사구를 추출한다. 본 연구에서 제시하는 모델로 실험을 한 결과 평균 4.5개의 구를 포함하는 명사구를 추출할 수 있었다.

  • PDF

특허 문서 텍스트로부터의 기술 트렌드 탐지를 위한 언어 모델 및 단서 기반 기계학습 방법 (A Language Model and Clue based Machine Learning Method for Discovering Technology Trends from Patent Text)

  • 전영실;김영호;정윤재;류지희;맹성현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권5호
    • /
    • pp.420-429
    • /
    • 2009
  • 특허 문서는 과학기술 발전을 탐지하고 기존 트렌드를 이해함으로써 미래의 트렌드를 예측하는데 유용한 자원이다. 본 연구에서는 단위 기술을 "문제점"과 "해결방법"으로 구성되어 있다고 보고, 언어적 단서(linguistic clue)와 언어 모델(1anguage model)을 결합한 혼합 모델을 사용하여 이들에 해당하는 의미 핵심문구(semantic keyphrase)를 찾고, 의미 핵심문구로 표현되는 단위 기술을 추출하였다. 추출된 결과에 근거하여 비지도 학습(unsupervised learning) 방법으로 과학기술들의 트렌드를 발견하는 새로운 접근방법(Technological Trend Discovery, TTD)을 제안한다. 실험 결과에 따르면 본 연구에서 제안한 방법으로 과학 기술을 나타내는 의미적 핵심 문구를 추출하는데 77%의 R-정확률을 달성하였고 결과적으로 의미있는 과학기술 트렌드를 발견할 수 있었다.

영-한 병렬 코퍼스로부터 외래어 표기 사전의 자동 구축 (Automatic Construction of Foreign Word Transliteration Dictionary from English-Korean Parallel Corpus)

  • 이재성
    • 컴퓨터교육학회논문지
    • /
    • 제6권2호
    • /
    • pp.9-21
    • /
    • 2003
  • 본 논문에서는 한국어 번역문과 영어 원문으로 구성된 병렬 코퍼스로부터 자동으로 외래어 표기 사전을 구축하는 시스템을 제안한다. 구축 시스템은 첫 단계로 한국어 문서에서 명사를 추출하고, 두 번째 단계에서 추출된 명사 중 언어 모델에 근거하여 외래어만을 추출한 후, 마지막 세 번째 단계에서 확률적 정렬 방법을 이용하여 외래어에 대응되는 영어를 추출한다. 특히, 외래어는 한국어 어미나 조사가 붙어서 같이 쓰이기 때문에, 한국어 어절 내에서 정확하게 외래어 부분만을 분리하기 위해, 병렬 코퍼스 내에 존재하는 대응 영어 단어 정보를 활용하였다. 또, 문자체계가 다른 두 단어를 같은 문자로 변환하지 않고 직접 음운 유사도를 비교할 수 있도록 했다. 실험 결과, 성능은 전처리 단계인 한국어 미등록어 및 외래어 추정에 영향을 많이 받았고, 수작업으로 전처리를 한 모델 중 가장 성능이 높은 것은 재현률 85.4%, 정확률 91.0%를 보였고, 전 과정을 자동으로 한 모델중에서는 재현률 68.3%, 정확률 89.2%를 보였다.

  • PDF

현행 낙양춘의 형성과정 재고 (Reconsideration of the Formation Process of Current Nagyangchun)

  • 임현택
    • 공연문화연구
    • /
    • 제43호
    • /
    • pp.79-120
    • /
    • 2021
  • 낙양춘은 고려시대에 유입된 송나라의 사악으로, 보허자와 더불어 현재까지 전해지고 있는 당악곡이다. 『고려사』 「악지」의 당악조와 『증보문헌비고』에 낙양춘의 제목과 가사가 전하고 있다. 현재까지 남아 있는 낙양춘 수록 악보로는 조선시대의 『악장요람』, 『속악원보』 권4 및 권6, 일제강점기의 『아악부악보』, 『제6회 아악생교과철』, 『이왕직아악부 오선악보』가 있다. 이외에도 현행되고 있는 낙양춘의 선율은 국립국악원 발행의 『한국음악』과 『국악전집』에 바탕을 두고 있다. 본고는 이 악보들을 연구대상으로 삼아 현재 국립국악원에서 행하고 있는 낙양춘이 어떤 변화과정을 거쳐 현재와 같은 구조와 형식을 갖추게 되었는지 살펴보는 데에 목적을 두었다. 그 연구결과를 요약하면 다음과 같다. 첫째, 본래 사악이었으나 가사 없이 기악곡으로 전해지던 낙양춘의 노래는 1978년과 1979년 국립국악원 발행의 『한국음악』 제16집 및 『국악전집』 제7집에서 처음으로 나타난다. 이 과정에서 김기수에 의해 추가된 장구점이 현재 자취를 감추고, 좌고가 이를 대신하고 있다. 둘째, 『악장요람』 이후 현재까지 황(黃), 태(太), 중(仲), 임(林), 남(南) 5음은 변함없이 유지되어 오고 있으나, 각 1회씩 출현하는 무(無)/응(應)과 협(夾)/고(姑)의 음고는 점차 상승되어 『아악생교과철』 혹은 늦어도 『이왕직아악부 오선악보』에 이르러 응(應)과 고(姑)로 통일되어 현재에 이르고 있다. 셋째, 현행 낙양춘의 선율은 미전사(a·b·c·d) 및 미후사(e·b'·c'·d')의 형식 안에서 악구별 출현음 및 음역이 상승하는 구조로 이루어져 있다. 특히 미전사와 미후사의 도입구 격인 a형과 e형 선율을 제외한 나머지 선율형이 해당 악구 내에서 점차 하행하는 구조를 나타냄으로써 전반적으로 상승과 하강의 구조가 조화를 이루고 있다. 넷째, 『아악부악보』에서부터 등장한 간음은 현재 일곱 가지 유형으로 대별되는데, 2도, 3도, 4도, 5도의 상행 음고로 출현하여 선율진행을 부드럽게 또는 유창하게 이어 주는 역할을 한다. 다섯째, 『악장요람』 이후 가사 없이 기악곡으로 전해 오던 낙양춘은 1960년 이혜구의 의해 복원된 후 기악반주에 남녀창이 추가된 형태로 전승되고 있다. 이상 『악장요람』 이후 변화과정을 거쳐 형성된 현행 낙양춘을 검토한 결과, 장구의 편성, 조(調)의 규명, 가사 검토 등 현재 국립국악원에서 연주되고 있는 낙양춘에 대하여 재고를 요하는 과제들이 발견되었다. 추후 이에 대한 후속 연구를 지속적으로 이어 나간다면 낙양춘의 문화적 전승에 기여할 수 있을 것이다.

공공 주택건설사업의 현장환경관리 업무요소 도출 및 수행주체 분석 (Identification of On-site Environmental Management Factors and Analysis of Responsible Parties in Public Housing Construction Sites)

  • 손정락;송상훈;전명훈;박성식
    • 토지주택연구
    • /
    • 제4권4호
    • /
    • pp.383-393
    • /
    • 2013
  • 저탄소 녹색성장 및 친환경 트렌드는 미래 지구환경 보존의 핵심 개발지표이며, 정부도 제3차 건설환경기본계획을 발표하면서 녹색건설기술 및 고품질 건설환경 구현을 위해 체계적이고 다양한 추진방향을 제시하고 있다. 그러나 아직까지도 생산단계인 건설과정에서의 저탄소 및 친환경적 노력은 미흡한 실정이다. 이에 본 연구에서는 공공 주택건설 현장의 친환경성 제고를 위해 기본적으로 시행되어야 할 활동인 현장의 환경관리 업무요소를 도출하고, 각각의 업무요소에 대한 합리적 수행주체와 프로세스를 제시하였다. 본 연구결과는 향후 체계적인 현장 환경관리를 위해 필요한 수행업무를 파악하고, 수행주체 및 역할분담, 업무수행 프로세스를 합리화하는데 매우 유용한 자료가 될 것이다. 본 연구결과를 실무에 적용하기 위해서는 연구결과로 제시하고 있는 단위업무의 수행주체 및 수행프로세스별 명확한 업무분장에 대한 협의가 반드시 필요하며, 이와 아울러 환경관련 각종 제도 및 기준 현실화가 필수적이다. 이러한 적극적 이행노력과 더불어, 향후 환경관리활동 수행과정 및 결과에 대한 평가방법, 환경요인별 환경문제 발생 시의 기술적 해결방법에 대한 검토도 추가적으로 연구되어야 할 것이다.

UML의 부분-전체 관계에 대한 메타모델 형식화 이론의 적용: 집합연관 및 복합연관 판별 실험 (Applying Meta-model Formalization of Part-Whole Relationship to UML: Experiment on Classification of Aggregation and Composition)

  • 김태경
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.99-118
    • /
    • 2015
  • 정보 시스템 개발에 있어 객체지향 프로그래밍 언어가 널리 사용된다. 이와 함께 객체지향 설계를 뒷받침하는 개념적 모델링 언어에 관한 관심도 높다. 이를 배경으로 통합 모델링 언어 혹은 UML로 알려진 개념적 모델링 언어는 여러 객체 지향 프로그래밍 언어와 함께 사용되면서 사후적 표준으로 자리 잡았다. UML은 클래스를 설계의 중심에 둔다. 또한 클래스들 간의 관계를 통해 체계적인 이해를 가능하게 한다. 특히 부분에 해당하는 클래스들과 전체에 해당하는 클래스의 관계인 부분-전체 관계를 설계할 수 있는 문법 또한 UML에 포함된다. 현실 세계에 부분-전체 관계로 파악될 수 있는 여러대상들이 존재하고 비즈니스 활동에 존재하는 각종 역할들의 구조에서도 부분-전체 관계로 표현될 수 있는 대상들이 보편적으로 보인다. 따라서 UML로 클래스들 간의 부분-전체 관계를 드러내는 일은 자연스럽다. 문제는 부분-전체 관계를 파악하는 활동은 UML 2.0의 표준에 포함되었으나 실제 설계 과정에서 적극 활용하기 위한 실천적 이론화가 부족하다는 점이다. 부분-전체 관계를 집합연관과 복합연관으로 세분화한 UML 문법은 표현 양식에서 부족함은 없을지라도 어떤 대상을 부분-전체로 파악하고, 이를 어떻게 집합연관이나 복합연관으로 분류해야 할 것인지에 대한 판단이 쉽게 결여된다. 지금까지 UML의 부분-전체 관계 규명은 언어적 표현법을 활용하는 것에 치우쳤다. 이와 같은 문제에 대한 대안을 제시하기 위해 본 연구는 메타모델 형식화 이론을 기반으로 UML 사용자가 부분-전체 관계를 판단하고 이를 집합연관과 복합연관으로 분류할 수 있는 실천적 대안을 제시한다. 이를 활용한 실험의 결과 메타모델 형식화가 UML 사용자들에게 통용되어 온 언어적 구분법보다 더 나은 결과를 낳는다는 점이 밝혀졌다. 본 연구는 부분-전체의 판별과 구분에 도움을 주는 실용적인 방법을 제안하고 검증하였다는 점에서 의의가 있다.

주제목록을 위한 한국용어열색인 시스템의 기능 (Function of the Korean String Indexing System for the Subject Catalog)

  • 윤구호
    • 한국문헌정보학회지
    • /
    • 제15권
    • /
    • pp.225-266
    • /
    • 1988
  • Various theories and techniques for the subject catalog have been developed since Charles Ammi Cutter first tried to formulate rules for the construction of subject headings in 1876. However, they do not seem to be appropriate to Korean language because the syntax and semantics of Korean language are different from those of English and other European languages. This study therefore attempts to develop a new Korean subject indexing system, namely Korean String Indexing System(KOSIS), in order to increase the use of subject catalogs. For this purpose, advantages and disadvantages between the classed subject catalog nd the alphabetical subject catalog, which are typical subject ca-alogs in libraries, are investigated, and most of remarkable subject indexing systems, in particular the PRECIS developed by the British National Bibliography, are reviewed and analysed. KOSIS is a string indexing based on purely the syntax and semantics of Korean language, even though considerable principles of PRECIS are applied to it. The outlines of KOSIS are as follows: 1) KOSIS is based on the fundamentals of natural language and an ingenious conjunction of human indexing skills and computer capabilities. 2) KOSIS is. 3 string indexing based on the 'principle of context-dependency.' A string of terms organized accoding to his principle shows remarkable affinity with certain patterns of words in ordinary discourse. From that point onward, natural language rather than classificatory terms become the basic model for indexing schemes. 3) KOSIS uses 24 role operators. One or more operators should be allocated to the index string, which is organized manually by the indexer's intellectual work, in order to establish the most explicit syntactic relationship of index terms. 4) Traditionally, a single -line entry format is used in which a subject heading or index entry is presented as a single sequence of words, consisting of the entry terms, plus, in some cases, an extra qualifying term or phrase. But KOSIS employs a two-line entry format which contains three basic positions for the production of index entries. The 'lead' serves as the user's access point, the 'display' contains those terms which are themselves context dependent on the lead, 'qualifier' sets the lead term into its wider context. 5) Each of the KOSIS entries is co-extensive with the initial subject statement prepared by the indexer, since it displays all the subject specificities. Compound terms are always presented in their natural language order. Inverted headings are not produced in KOSIS. Consequently, the precision ratio of information retrieval can be increased. 6) KOSIS uses 5 relational codes for the system of references among semantically related terms. Semantically related terms are handled by a different set of routines, leading to the production of 'See' and 'See also' references. 7) KOSIS was riginally developed for a classified catalog system which requires a subject index, that is an index -which 'trans-lates' subject index, that is, an index which 'translates' subjects expressed in natural language into the appropriate classification numbers. However, KOSIS can also be us d for a dictionary catalog system. Accordingly, KOSIS strings can be manipulated to produce either appropriate subject indexes for a classified catalog system, or acceptable subject headings for a dictionary catalog system. 8) KOSIS is able to maintain a constistency of index entries and cross references by means of a routine identification of the established index strings and reference system. For this purpose, an individual Subject Indicator Number and Reference Indicator Number is allocated to each new index strings and new index terms, respectively. can produce all the index entries, cross references, and authority cards by means of either manual or mechanical methods. Thus, detailed algorithms for the machine-production of various outputs are provided for the institutions which can use computer facilities.

  • PDF

용주사(龍珠寺) <삼세불회도(三世佛會圖)> 연구의 연대 추정과 양식 분석, 작가 비정, 문헌 해석의 검토 (A Review Examining the Dating, Analysis of the Painting Style, Identification of the Painter, and Investigation of the Documentary Records of Samsaebulhoedo at Yongjusa Temple)

  • 강관식
    • 미술자료
    • /
    • 제97권
    • /
    • pp.14-54
    • /
    • 2020
  • 용주사 <삼세불회도>에 대한 연구는 연대 추정과 양식 분석, 작가 비정, 문헌 해석의 네 가지 핵심 사항이 실증적인 근거와 일관된 논리 아래 모두 일치되도록 정합적으로 설명해야 한다. 그러나 최근의 용주사 <삼세불회도> 연구에서 제기된 19세기 후반 화승 제작설과 1790년에 제작된 원본을 1920년대에 일반화가가 서양화법으로 개채한 것이라는 소론은 실증성과 논리성이 결여되어 성립되기 어렵다. 현존 <삼세불회도>의 축원문(祝願文)은 세자(世子) 책봉을 받지 않은 원자(元子)만 있던 시기였음에도 불구하고 당시의 관습대로 의례적인 삼전(三殿) 축원문을 썼다가 이를 주사로 지우고 다시 "주상전하수만세(主上殿下壽萬歲), 자궁저하수만세(慈宮邸下壽萬歲), 왕비전하수만세(王妃殿下壽萬歲), 세자저하수만세(世子邸下壽萬歲)"라는 특별한 내용과 예외적인 순서로 개서(改書)했는데, 이는 조선후기 불화의 축원문 형식과 내용을 광범위하게 조사하고 정조대 왕실의 전례(典禮)를 면밀히 분석해 볼 때, 현존하는 <삼세불회도>가 1790년의 창건 당시에 그려졌던 원본 진작임을 말해주는 가장 확실한 객관적 근거라고 할 수 있다. 삼세불회도의 형식(形式)과 도상(圖像), 양식(樣式), 미감(美感), 화격(畫格) 등을 18~19세기 불화나 궁중화원 양식과 다각도로 비교분석해 보면 용주사 <삼세불회도>는 1790년경 전후에만 나타나는 특징이 많이 보이기 때문에 축원문(祝願文)에 대한 분석 결과와 일치한다. 특히 18세기 전반까지만 해도 종교적 위상에 따라 존상의 크기가 결정되고 화면 구성도 근하원상(近下遠上)의 고식(古式) 원근법에 따라 관념적, 평면적 조형 위주로 이루어져 왔으나 이 <삼세불회도>는 투시법적 원근법의 논리에 따라 구축된 입체적 공간 속에 존상들을 매우 체계적으로 배치한 뒤 서양화(西洋畫)의 음영식(陰影式) 명암법(明暗法)을 적극적으로 구사하며 흰색 하이라이트와 그림자까지 표현함으로써, 마치 삼세불회(三世佛會)의 장엄한 세계가 눈앞에 실제로 펼쳐져 있는 것 같은 느낌을 준다. 이 투시법적 원근법의 내적 질서와 음영식 명암법의 외적 착시는 골육합체(骨肉合體)처럼 내적으로 긴밀히 연결되어 있는 것이기 때문에 흰색 하이라이트만 떼어내서 후대에 개채된 것이라고 볼 수 있는 것이 결코 아니다. 더구나 이 <삼세불회도> 같은 고도의 서양화법과 높은 화격(畫格)의 창의적 융합은 조선후기 회화사상 김홍도와 이명기, 김득신 같은 정조대의 궁중화원만이 이룩할 수 있는 고도의 양식이자 화격이다. 용주사 주지 등운(等雲)이 창건 이래 용주사에 전해져온 기록을 토대로 『용주사사적(龍珠寺事蹟)』을 정리하며 김홍도가 <삼세불회도>를 그렸다고 기록한 것은 이것이 당시의 역사(歷史)이자 실상이었기 때문이다. 조정의 공식 기록인 『일성록(日省錄)』과 『수원부지령등록(水原府旨令謄錄)』에는 김홍도와 이명기, 김득신이 감동(監董)했다고 기록되어 있지만, 이는 의례 화승(畫僧)들이 그려왔던 불화를 관원 신분의 화원에게 그리도록 하는 것이 엄격한 관직 체제나 운영상 부당한 것이기 때문에 정치적 부담을 피하기 위해 명분상 감동으로 발령한 뒤 실제로는 불화를 직접 그리도록 했던 데서 나타난 결과였다. 영정조대의 어진(御眞) 도사 과정에서 감동으로 불러들인 문인화가 조영석(趙榮祏)과 강세황(姜世晃)에게 국왕이 직접 그릴 것을 요구했던 사례에서 볼 수 있듯이, '감동(監董)'과 '집필(執筆)'은 경우에 따라 경계를 넘나들 수 있는 개념으로서 '감동'이 '집필'을 완전히 배제하는 것은 아니며 겸할 수도 있는 것이다. 그런 점에서 『용주사사적』의 기록은 『일성록』이나 『수원부지령등록』은 물론 황덕순의 「닫집 원문」 기록과도 모순되는 것이 아니라, 행간의 의미를 찾아 복합적으로 읽으면 각각의 맥락과 필요에 따라 동일한 내용의 표리를 다르게 기록해 놓은 것임을 알 수 있다. 이렇게 해석할 때 우리는 용주사 <삼세불회도>의 연대 추정과 양식 분석, 작가 비정, 문헌 해석의 네 가지 핵심 사항을 모두 실증적인 근거와 일관된 논리 아래 정합적으로 설명할 수 있을 것이다.