• Title/Summary/Keyword: syntactic

검색결과 717건 처리시간 0.025초

자동 구축된 구문패턴사전과 규칙을 이용한 구묶음 (Chunking Using Automatic Constructed Syntactic Pattern Dictionary and Rule)

  • 임지희;최호섭;이정철;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.35-39
    • /
    • 2004
  • 본 논문은 실용적인 구문분석기의 전단계로서, 자동 구축된 구문패턴사전과 규칙을 이용하여 구묶음하는 방법을 제안한다. 우선 규칙은 구문분석 말뭉치(30,875어절)를 대상으로 자동 추출된 고빈도의 규칙(Rewriting Rule)을 본 논문에 맞게 수동으로 구축하였다. 규칙은 조건부, 행위부로 이루어진 이진 규칙(binary rule)의 형태를 이루며, 명사구(NP), 수식어구(AP, DP), 인용구(X), 용언구(VP, VC)을 대상으로 15개를 구축하였다. 그리고 구문패턴은 중심어와 중심어 선행 요소의 특성뿐만 아니라 중심어 후행 요소도 고려하여 형식화시킨 것으로, 중심어의 복합용언 여부에 따라 일반용언패턴과 본+보조용언패턴으로 구분한다. 부분적인 언어 현상의 처리보다는 실세계에서 사용되는 수많은 문장들에 내재되어 있는 매우 광범위한 언어 현상의 처리를 하기 위해, 구문패턴은 형태소주석 말뭉치(460만 어절)을 대상으로 자동 구축하였다. 구축된 구문패턴사전과 규칙을 이용하여 구묶음을 수행한 결과 정확율 83.09%가 나타났다.

  • PDF

문장구조 유사도와 단어 유사도를 이용한 클러스터링 기반의 통계기계번역 (Integrated Clustering Method based on Syntactic Structure and Word Similarity for Statistical Machine Translation)

  • 김한경;나휘동;이금희;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.44-49
    • /
    • 2009
  • 통계기계번역에서 도메인에 특화된 번역을 시도하여 성능향상을 얻는 방법이 있다. 이를 위하여 문장의 유형이나 장르에 따라 클러스터링을 수행한다. 그러나 기존의 연구 중 문장의 유형 정보와 장르에 따른 정보를 동시에 사용한 경우는 없었다. 본 논문에서는 문장 사이의 문법적 구조 유사성으로 문장을 유형별로 분류하는 새로운 기법을 제시하였고, 단어 유사도 정보로 문서의 장르를 구분하여 기존의 두 기법을 통합하였다. 이렇게 분류된 말뭉치에서 추출한 모델과 전체 말뭉치에서 추출된 모델에서 보간법(interpolation)을 사용하여 통계기계번역의 성능을 향상하였다. 문장구조의 유사성과 단어 유사도 계산을 위하여 각각 커널과 코사인 유사도를 적용하였으며, 두 유사도를 적용하여 말뭉치를 분류하는 과정은 K-Means 알고리즘과 유사한 기계학습 기법을 사용하였다. 이를 일본어-영어의 특허문서에서 실험한 결과 최선의 경우 약 2.5%의 상대적인 성능 향상을 얻었다.

  • PDF

A Study on Will as Modal or Non-modal

  • Lee, Young Mi;Kang, Mun Koo
    • 영어어문교육
    • /
    • 제18권3호
    • /
    • pp.175-190
    • /
    • 2012
  • The purpose of this article is to explain the meanings and uses of the English auxiliaries will morpho-syntactically, and answer the question of whether will is a tense auxiliary or a modal one. Some writers even exclude will completely from the semantics of the modal auxiliaries. They argue that the semantics of will is fundamentally non-modal and has only a few modal-like uses. There are some people who treat will to be semantically separate from the other modal auxiliaries. In the light of modal will, the semantics of will basically remains anchored in volition because the lack of required speaker subjectivity, but has undergone so much semantic bleaching that it may also express future time without volition. On the other hand, the semantics of will in the exclusionist view is erroneous and that its semantics is in fact closely related to the semantics of the other modals. This view reinforces the argument that the morpho-syntactic kinship of will, can, may and must also reflects semantic kinship. It is suggested that all the modal auxiliaries show that the correspondence relation is non-verified but potential. And the specific place that will holds is that the correspondence is unverified at the time of utterance but will turn out to become verified. The overall conclusion is that idiosyncratic morpho-syntax shared by the modals reflects the semantics and pragmatics of the English modal auxiliaries and is forced also to include will.

  • PDF

Effects of Chunking on Reading Comprehension of EFL Learners: Silent vs. Oral Reading

  • Chu, Hera
    • 영어어문교육
    • /
    • 제16권3호
    • /
    • pp.19-34
    • /
    • 2010
  • This study investigates how EFL learners' chunking ability both in oral and silent reading affects reading comprehension, and how the chunking ability in silent reading relates to that of oral reading. The participants of this study consisted of 30 Korean university students taking a required 'English Reading' course. Chunking is a technique of grouping words into meaningful syntactic units for better understanding. Chunking was measured from pauses in oral reading. Results of this study suggest that the participants who can chunk properly both orally and silently display better comprehension of texts in general. However, chunking in silent reading was found to be a stronger indicator of improved reading comprehension. Also, the chunking skills in silent reading showed a statistically strong correlation with those observed in oral reading, suggesting that the chunking ability in silent reading may develop in parallel with that of oral reading. Oral as well as silent reading should be continuously practiced to improve reading comprehension of all levels of EFL learners, including low levels of learners. There is also a need to encourage students to read aloud with appropriate prosodic cues to help them read in meaningful units of words, therefore increasing EFL learners' comprehension not only in reading but also in listening.

  • PDF

다국어 질의응답을 위한 한국어 해석 시스템 설계 및 구현 (Design and Implementation of a Korean Analysis System for Multi-lingual Query Answering)

  • 강원석;황도삼
    • 컴퓨터교육학회논문지
    • /
    • 제7권4호
    • /
    • pp.43-50
    • /
    • 2004
  • 다국어 질의 응답 시스템은 여러 언어의 질의에 대한 응답을 하는 시스템이다. LASSO 시스템은 다국어 질의응답 시스템 중의 하나이다. 본 논문은 LASSO 시스템을 위한 한국어 해석 시스템의 설계 및 구현에 관한 것이다. 질의 응답을 위한 한국어 해석 시스템은 한국어 질의를 처리할 수 있는 대화체 처리 기술이 필요하다. 그리고 다양한 분야의 질의에 대한 응답을 할 수 있는 범용의 시스템이어야 한다. 본 논문의 한국어 해석 시스템은 이와 같은 사항을 만족하기 위하여 심도 깊은 대화체 처리 기술보다 실용성이 높은 휴리스틱 규칙을 활용하였다. 이 시스템은 다국어 질의 응답 시스템의 한국어 인터페이스 역할을 하는 것으로 질의 응답 시스템의 목적에 맞게 설계, 구현되었다. 본 해석 시스템에 적용된 기술은 정보검색 분야와 한국어 해석 분야에 응용할 수 있다.

  • PDF

e-비즈니스 통합을 위한 시맨틱 웹의 활용 (An Application of the Semantic Web for e-Business Integration)

  • 장태우;신기태;박진우
    • 한국전자거래학회지
    • /
    • 제10권4호
    • /
    • pp.19-33
    • /
    • 2005
  • 본 연구에서는 시맨틱 웹을 구성할 수 있도록 하는 지식표현, 온톨로지, 에이전트를 통해 급변하는 전자거래 환경을 극복하고 이질적이고 분산되어 있는 정보들을 통합할 수 있도록 하기 위한 방법론을 제시하고자 한다. 이를 위해 모델링의 기반이 되는 구문론적/의미론적 통합 및 에이전트의 운용방법론에 대해 논하며, 메타 모델링에 바탕을 두는 온톨로지의 구축에 중점을 두고 설명한다. IRDS (Information Resource Dictionary Standard) 프레임워크에 기반한 구조에 따라 OWL(Web Ontology Language)을 사용하여 온톨로지를 구체화하며, 프로세스 표현을 위해 PSL(Process Specification Language)-ontology의 용어들을 중간 계층으로 구성하여 차용한 예를 제시한다. 제시한 프레임워크를 통해 정보 자원들과 비즈니스 프로세스를 정의하고 공유하며 관리함으로써 중복성과 불일치성을 제거할 수 있을 것이다.

  • PDF

한국어의 형태소해석 (Morphological Analysis of the Korean Language)

  • 이수현;;이주근
    • 대한전자공학회논문지
    • /
    • 제26권4호
    • /
    • pp.53-61
    • /
    • 1989
  • 한국어의 구문 및 의미해석등에 필요한 정보를 도출하기 위한 입력분의 형태해석에 대하여 기술한다. 명사구에서 명사와 조사를 분리하고, 복합명사의 분리점을 선택하는 조건을 규정하며, 변형된 복합명사를 처리하는 규칙을 표시한다. 그리고 규칙동사에서 어간과 어미를 분리하고, 변칙용언과 음운축약 등을 효과적으로 처리하기 위한 논리표현 형식을 제안한다. 이 논리표현은 해석규칙과 속성값으로 구성한다. 명사사전의 중복을 배제하기 위하여 "명사형 하다" 동사의 분리 처리와 Q parameter 도입에 의한 "이다"의 처리방법을 보이고, 또한 부정문의 처리형식도 유도하여 복합술부의 형태소와 기본형식을 제시한다.

  • PDF

통계 정보와 유전자 학습에 의한 최적의 문장 분할 위치 결정 (Determination of an Optimal Sentence Segmentation Position using Statistical Information and Genetic Learning)

  • 김성동;김영택
    • 전자공학회논문지C
    • /
    • 제35C권10호
    • /
    • pp.38-47
    • /
    • 1998
  • 실용적인 기계번역 시스템을 위한 구문 분석은 긴 문장의 분석을 허용하여야 하는데 긴 문장의 분석은 높은 분석의 복잡도 때문에 매우 어려운 문제이다. 본 논문에서는 긴 문장의 효율적인 분석을 위해 문장을 분할하는 방법을 제안하며 통계 정보와 유전자 학습에 의한 최적의 문장 분할 위치 결정 방법을 소개한다. 문장 분할 위치의 결정은 분할 위치가 태그된 훈련 데이타에서 얻어진 어휘 문맥 제한 조건을 이용하여 입력문장의 분할 가능 위치를 결정하는 부분과 여러 개의 분할 가능 위치 중에서 안전한 분할을 보장하고 보다 많은 분석의 효율 향상을 얻을 수 있는 최적의 분할 위치를 학습을 통해 선택하는 부분으로 구성된다. 실험을 통해 제안된 문장 분할 위치 결정 방법이 안전한 분할을 수행하며 문장 분석의 효율을 향상시킴을 보인다.

  • PDF

언어자원 자동 구축을 위한 위키피디아 콘텐츠 활용 방안 연구 (A Study on Utilization of Wikipedia Contents for Automatic Construction of Linguistic Resources)

  • 류철중;김용;윤보현
    • 디지털융복합연구
    • /
    • 제13권5호
    • /
    • pp.187-194
    • /
    • 2015
  • 급변하는 자연언어를 기계가 이해할 수 있도록 하기 위해서는 다양한 언어지식자원(linguistic knowledge resources)의 구축이 필수적으로 수반된다. 본 논문에서는 온라인 콘텐츠의 특성을 활용해 언어지식자원을 자동으로 구축함으로써 지속적으로 확장 가능한 방법을 고안하고자 한다. 특히 언어분석 과정에서 가장 활용도가 높은 개체명(NE: Named Entity) 사전을 자동으로 구축, 확장하는데 주안점을 둔다. 이를 위해 본 논문에서는 개체명 사전 구축대상문서로 위키피디아(Wikipedia)를 선정, 그 특성을 파악하기 위해 다양한 통계 분석을 수행하였다. 이에 기반하여 위키피디아 콘텐츠가 갖는 구문적 특성과 구조 정보 등의 메타데이터를 활용하여 개체명 사전을 구축, 확장하는 방법을 제안한다.

건축과 언어: 1960년대 이후 서구건축의 이론과 실험 (Architecture and Language: Theories and Practice in Architecture since the 1960s.)

  • 김성홍
    • 인문언어
    • /
    • 제1권2호
    • /
    • pp.107-121
    • /
    • 2001
  • This paper examines the way in which the idea of language has been introduced in architectural discourse since the late 1960s. The paper reviews the works of Robert Venturi, Charles Jencks, Peter Eisenman, Alan Colquhoun, and Mario Gandelsonas, which explore the analogy between linguistic and architectural form. All of the writers above are responsive to each other's theoretical positions, sometimes implicitly and sometimes explicitly. A system of signs can be approached by asking how the lexicon and syntax are proportioned. The same question may be posed to architecture: can architecture be understood as a lexicon or as a relational structure, such as language is\ulcorner Two perspectives are presented by architectural theorists. The first advocated by Venturi and Jencks posit architectural form as a problem of signs. The problem with this perspective is that, it reduces architecture into popularized iconography in favor of the representational aspects of architectural form. The second perspective, developed by Eisenman, explores the possibility of finding new formal constructs in the abstract relationship of formal properties. Eisenman's theory, however, has its own problems for, in highlighting syntactic structure, it minimizes the distinction between the perceptual and the pragmatic dimensions. Yet both perspectives address crucial problems of contemporary architecture and expand architectural discourse into the broader realm of humanistic studies.

  • PDF