• 제목/요약/키워드: 문장구조

검색결과 611건 처리시간 0.024초

2단계 구문분석을 이용한 구문분석 말뭉치 구축도구 (Tree Tagging Tool using Two-phrase Parsing)

  • 김혜겸;박경미;윤여찬;임해창;박소영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.151-158
    • /
    • 2005
  • 본 논문에서는 2단계 구문분석을 통한 구문분석 말뭉치 구축도구를 제안한다. 제안하는 방법은 대량의 구문분석 말뭉치를 수동으로 구축할 때 요구되는 작성자의 수작업을 줄이는 것을 목적으로 한다. 도구는 입력 문장을 문장 분할기준에 따라 분할하는 문장 분할 단계, 각 부분에 대해 자동 구문분석을 수행하는 부분 구문구조 생성 단계, 각 부분 구문구조를 통합하여 완전한 구문구조를 얻는 부분 통합 단계로 이루어져 있다. 자동 구문분석은 자질기반 한국어 구문분석모델을 이용하였고 문장을 부분으로 분할할 때는 문장 분할기준을 말뭉치에서 자동추출 하고 간단한 검증을 거쳐 적용하는 방법을 택하였다. 구문분석 말뭉치 구축의 각 단계에서 자동 구문 분석기가 출력한 결과를 작성자가 취소, 재구축 가능하게 하였다.

  • PDF

한국어 초록 작성의 자동화에 관한 연구 -미생물학분야 학술지의 논문을 대상으로- (A Study on the Automatic Abstracting System for Journal Articles in Korean in the Field of Microbiology)

  • 이태영
    • 정보관리학회지
    • /
    • 제9권2호
    • /
    • pp.43-79
    • /
    • 1992
  • 자연 언어 처리 문법 중 격문법, 개념 의존 문법, PATR-II, DCG를 응용하여 미생 물학 분야에 대한 한국어 자동 초록 시스템의 구축을 연구하였다. 표본으로 선택된 초록들 을 분석하여 초록의 구조가 연구 목적 문장, 방법.결과 문장, 결론 문장 의 순으로 이루어지 는 것을 알았고 이를 초록의 이상적인 구조 형식으로 정하였다. 본문에서는 문장 발췌와 발 췌된 문장들이 초록의 문장으로 정제되도록 하는 과정에서 중요한 역할을 하는 명사 역할 자질과 그 자질을 부여하는 규칙을 개발 하였다. 그리고 발췌된 문장들을 재정렬시키기 위 한 재정렬 규칙, 초록 문장을 생성하기 위한 문장 생성 규칙을 두었다. 그리고 본 시스템의 방법론으로 작성된 자동 초록들을 평가한 결과, 본 시스템의 방법론이 저자 초록과 같은 수 준에 오르려면 정밀한 역할 자질의 확립과 문장 생성 규칙에 대한 보다 깊은 연구가 필요하 다고 사려된다.

  • PDF

문서 요약 시스템을 위한 수사 구조 트리 생성 (Rhetorical Structure Tree Generation for Text Summarization System)

  • 정준호;김미진;이현주;박미성;이상조
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.175-177
    • /
    • 1999
  • 본 논문에서는 수사 정보와 문장간 유사도를 이용하여 문서의 수사 구조 트리를 생성하는 방법을 제안하였다. 말뭉치에서 찾아낸 수사 정보를 종류별로 분류하고, 이를 사용해서 문서 내의 수사 정보를 추출해서 가능한 모든 구조를 생성한다. 다음으로 문장간의 유사도를 사용해서 가중치가 가장 높은 하나의 구조를 선택한다. 생성된 수사 구조를 사용하여 문서를 요약할 수 있는데, 수사 정보는 언어적 특성을 이용하는 것이므로 모데인에 독립적인 요약 시스템을 만들 수 있다.

  • PDF

한국어 구문 분석과 문장 생성을 위한 범주 문법 적용의 몇 가지 원칙 (Some Application Principles of Categorial Grammars for Korean Syntactic Analysis and Sentence Generation)

  • 송도규;차건회;박재득
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.353-359
    • /
    • 1997
  • 주로 영어, 불어 등의 형상적 언어(configurational languages)의 구문 분석을 위해 개발된 범주 문법은 문장 구성 성분의 문장 내의 위치가 대체적으로 고정적이며 통사 기능이 그 위치로서 할당 되는 형상적 언어의 통사적인 특성에 따라 방향성의 개념을 도입하였다. 그러나 이 방향성 개념은 문장 구성 성분의 문장 내의 위치가 비교적 자유로운 한국어 등의 비형상적 언어(non-configurational languages)에 그대로 적용하기에는 많은 무리가 따른다. 심지어 형상적 언어에 적용하는 경우에도 도치나 외치된 문장 또 격리된 구조(unbounded dependency constructions)가 있는 문장들도 적절히 분석해 내지 못한다. 이런 이유로 본고에서는 범주 문법에 도입되어 있는 방향성을 재고하고 아울러 한국어 구문 분석과 문장 생성을 위한 범주 문법 적용상의 다섯 원칙을 제안한다.

  • PDF

문장 표면 분석에 의한 한국어 문장 처리기 개발 (A Development of Korean Sentence Processor using Surface Analysis)

  • 이호석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.245-248
    • /
    • 2010
  • 현대 한국어 문장에는 (1) 여러 가지 부사절이 포함된 경우, (2) 길이가 긴 경우, (3) 여러 가지 기호를 포함한 경우, (4) 수와 단위 표현이 있는 경우, (5) 영어 등 외국어가 포함된 경우, (6) 혹은 (1)(2)(3)(4)(5)를 모두 포함한 경우가 많다. 따라서 현대 한국어 문장을 구문 처리하기 위해서는 전처리(preprocessing) 과정이 필수적이라고 생각한다. 전처리 과정에서는 문장 표면 분석을 수행하고 문장 분할도 수행하여 입력 문장을 구문 처리가 가능한 형태로 바꾸어야 한다. 본 논문에서는 현대 한국어 문장을 구문 처리하기 위한 표면 분석 방법과 분할 방법을 논의한다. 또한 한국어 구문을 나타내는 분할 구조 문법의 예도 제시한다.

  • PDF

문맥 정보를 이용한 논문 문장 수사학적 분류 (Rhetorical Sentence Classification Using Context Information)

  • 성수진;김성찬;이승우;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.316-319
    • /
    • 2021
  • 우리는 과학기술 분야 논문 내 문장에 대해 논문의 의미 구조를 반영하는 수사학적 태그를 자동으로 부착하기 위한 분류 모델을 구축한다. 문장의 태그가 이전 문장의 태그와 상관관계를 갖는 특징을 반영하여 이전 문장을 추가 자질로 사용한다. 이전 문장을 추가 자질로 모델에 입력하기 위해 5 가지 결합 방법에 대한 실험을 진행한다. 실험 결과 각 문장에 대해 독립된 인코더를 사용하고 인코더의 결과 벡터를 concatenation 연산으로 조합하여 분류를 수행하는 것이 가장 높은 성능을 보이는 것을 확인하였다.

  • PDF

문장 부호 자동 완성을 위한 한국어 말뭉치 구축 연구 (A Study on Building Korean Dialogue Corpus for Punctuation and Quotation Mark Filling)

  • 한승규;양기수;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.475-477
    • /
    • 2019
  • 문장 부호란, 글에서 문장의 구조를 잘 드러내거나 글쓴이의 의도를 쉽게 전달하기 위하여 사용되는 부호들로, 따옴표나 쉼표, 마침표 등이 있다. 대화 시스템과 같이 컴퓨터가 생성해 낸 문장을 인간이 이해해야 하는 경우나 음성 인식(Speech-To-Text) 결과물의 품질을 향상시키기 위해서는, 문장 부호의 올바른 삽입이 필요하다. 본 논문에서는 이를 수행하는 딥 러닝 기반 모델을 훈련할 때 필요로 하는 한국어 말뭉치를 구축한 내용을 소개한다. 이 말뭉치는 대한민국정부에서 장관급 이상이 발언한 각종 연설문에서 적절한 기준을 통해 선별된 고품질의 문장으로 구성되어 있다. 문장의 총 개수는 126,795개이고 1,633,817개의 단어들(조사는 합쳐서 한 단어로 계산한다)로 구성되어 있다. 마침표와 쉼표는 각각 121,256개, 67,097개씩이다.

  • PDF

한국어 문장 임베딩의 언어적 속성 입증 평가 (A Probing Task on Linguistic Properties of Korean Sentence Embedding)

  • 안애림;고병일;이다니엘;한경은;신명철;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.161-166
    • /
    • 2021
  • 본 연구는 한국어 문장 임베딩(embedding)에 담겨진 언어적 속성을 평가하기 위한 프로빙 태스크(Probing Task)를 소개한다. 프로빙 태스크는 임베딩으로부터 문장의 표층적, 통사적, 의미적 속성을 구분하는 문제로 영어, 폴란드어, 러시아어 문장에 적용된 프로빙 테스크를 소개하고, 이를 기반으로하여 한국어 문장의 속성을 잘 보여주는 한국어 문장 임베딩 프로빙 태스크를 설계하였다. 언어 공통적으로 적용 가능한 6개의 프로빙 태스크와 한국어 문장의 주요 특징인 주어 생략(SubjOmission), 부정법(Negation), 경어법(Honorifics)을 추가로 고안하여 총 9개의 프로빙 태스크를 구성하였다. 각 태스크를 위한 데이터셋은 '세종 구문분석 말뭉치'를 의존구문문법(Universal Dependency Grammar) 구조로 변환한 후 자동으로 구축하였다. HuggingFace에 공개된 4개의 다국어(multilingual) 문장 인코더와 4개의 한국어 문장 인코더로부터 획득한 임베딩의 언어적 속성을 프로빙 태스크를 통해 비교 분석한 결과, 다국어 문장 인코더인 mBART가 9개의 프로빙 태스크에서 전반적으로 높은 성능을 보였다. 또한 한국어 문장 임베딩에는 표층적, 통사적 속성보다는 심층적인 의미적 속성을 더욱 잘 담고 있음을 확인할 수 있었다.

  • PDF

문장구조에서 본 현대시조 연구 (Sijo Works seen in terms of Sentence Structure)

  • 임종찬
    • 한국시조학회지:시조학논총
    • /
    • 제25집
    • /
    • pp.5-27
    • /
    • 2006
  • 고시조와 60년대 이전의 시조, 중국동포 시조. 2,000년대 발표된 현대시조를 문장구조의 측면에서 시적 의미를 어떻게 나타내고 있는가를 살펴보았다. 첫째, 고시조나 60년대 이전의 시조 나아가 중국동포 시조에서는 가급적 수식어를 배제한 간결한 문장으로서 의미 해석이 쉽게 되어 있었다. 그러나 2,000년대 발표된 현대시조(이하 현대시조) 중에는 수식어가 복잡하게 읽혀 있는가 하면 수식어가 남용되는 경우가 있었다 둘째. 고시조나 60년대 이전의 시조, 나아가 중국동포 시조에서는 의미파악이 수월하고 주술관계가 분명하게 나타나 있다. 그러나 현대시조 중에는 주술관계가 불분명할뿐더러 암시성이 보이지 않는 비유어의 남용으로 인하여 의미해석이 어렵게 나타난 경우가 있었다. 셋째, 고시조나 60년대 이전의 시조, 중국동포 시조에서는 각 장의 의미가 독립되어 이것이 유기적으로 결합하여 시조작품을 이루었는데, 현대시조에서는 초, 중장이 종장의 수식어로 전락하여 장으로서의 독립성을 확보하지 못하는 경우가 있었다. 넷째, 시조 형식과 거리가 있는 작품을 시조답게 장 구분을 하여 시조라고 우기는 경우가 있었다. 정형시는 그것이 문자로 표기되어 있다고 해도 음성에 의해 정형으로 확인되어야 하는 시다. 시조가 정형시인 바에는 정형시답게 읽혀져야 하고 이것을 들어서 이해가 수월해야 하는 것이다. 그렇다면 난해한 표현은 애초부터 시조와는 거리가 먼 것이다. 현대시조가 너무 안이한 표현, 주제의식의 단순성을 극복해야 한다면 의미해석을 방해하는 문장구조로서가 아니라 간결한 문장으로 참신한 비유, 선명한 이미지. 신선한 주제 등을 통해서 창작되어야 할 것으로 생각된다.

  • PDF

수학 문장제의 문장 구조에 따른 초등학생의 문제해결 반응 비교 분석 (Problem Solver's Responses According to the Sentence Structures of Mathematical Word Problems)

  • 강화나;백석윤
    • 대한수학교육학회지:수학교육학연구
    • /
    • 제19권1호
    • /
    • pp.63-80
    • /
    • 2009
  • 초등수학 문제해결에서 사용되고 있는 문장제를 동일 수학적 내용이나 구조를 취하되 단문중심 유형과 복문중심 유형의 두 문장제로 재구성하여 이를 한 조합으로 묶은 후, 이에 대한 학생의 문제해결 활동에서 문장제 유형에 따라 보여주는 인지 정의적 반응의 비교분석을 통해서 초등학교 문제해결 지도에 시사하는 바를 알아보았다. 수학교과에서 다루는 문장제를 구성하는 문장은 그 자체가 학습 내용이나 대상이 되는 것이 아니라, 수학 학습이나 지도를 위한 도구로서 사용되는 것이기 때문에 전통적으로 '간결한 표현'이라는 문장의 경제성 추구보다는 '분명한 정보의 간편한 전달'이라는 문장의 편의성에 집중할 필요가 있다고 생각한다. 즉, 초등 학생의 언어적 이해의 단순결함으로 인한 문제해결 수행상의 오류나 부정적 수학 학습태도를 해소시킬 수 있도록 학생의 국어적 평균 수준에 맞추어진 수학적 문장 을 통하여 수학적 정보를 온전하면서도 편리하게 표현과 전달을 꾀하려는 연구와 실천이 중요하다고 생각한다.

  • PDF