• 제목/요약/키워드: 단어형성

검색결과 145건 처리시간 0.024초

문서의 주제어별 가중치 부여와 단어 군집을 이용한 한국어 문서 자동 분류 시스템 (An Automatic Classification System of Korean Documents Using Weight for Keywords of Document and Word Cluster)

  • 허준희;최준혁;이정현;김중배;임기욱
    • 정보처리학회논문지B
    • /
    • 제8B권5호
    • /
    • pp.447-454
    • /
    • 2001
  • 새로운 문서를 기존에 존재하는 클래스들에 할당하는 방법을 문서의 자동 분류라고 한다. 문서의 자동 분류는 뉴스 그룹의 기사분류, 웹 문서의 범주화, 전자 메일의 순서화, 사용자의 관심을 학습하여 보다 정확한 정보 검색을 제시하는데 사용될수 있다. 본 논문에서는 한국어 문서분류의 정확도를 높이기 위하여 문서내의 모든 단어들에 대한 확률값을 사용하여, 문서를 분류하는 기존의 방법과 달리 문서의 주제어를 선정하여 주제어로 선정된 단어들에 가중치를 부여하고 그렇지 않은 단어들에 대해서는 제거하너가 낮은 가중치를 부여하는 베이지안 분류자를 사용한다. 문서에는 특징으로 추출된 단어가 적어 문서를 분류하기 위한 만족할 만한 정보를 제공하지 못할 경우에 부족한 문서의 특징을 보충하기 위하여 말뭉치로부터 자동 단어 군집화를 통해 형성된 연관 단어 군집을 사용한다. 이러한 방법을 한국어 문서에 적용한 결과 기존의 베이지안 확률을 사용한 분류법보다 향상된 분류 정확도를 얻을 수 있었다.

  • PDF

동양에서 목판인쇄술이 발전한 까닭은?

  • 송성수
    • 프린팅코리아
    • /
    • 통권17호
    • /
    • pp.102-105
    • /
    • 2003
  • 인류의 지성사에 있어서 인쇄술만큼 가치 있는 것은 드물다. 최근에는 정보화 시대를 맞이하여 '컴맹'이란 단어까지 등장하고 있지만, 근대 사회가 형성될 무렵만 해도 '문맹'의 상태에 놓여 있는 사람들이 절대 다수를 차지하였다. 인쇄술의 발명은 인쇄물의 대중화를 선도함으로써 문맹 퇴치와 근대 의식의 성장에 중요한 역할을 담당하였다.

  • PDF

술어기반 문형정보를 이용한 자동요약시스템에 관한 연구 (A Study on an Automatic Summarization System Using Verb-Based Sentence Patterns)

  • 최인숙;정영미
    • 정보관리학회지
    • /
    • 제18권4호
    • /
    • pp.37-55
    • /
    • 2001
  • 본 연구에서는 특정 주제분야의 텍스트를 대표할 수 있는 단어술어를 추출하고 기본문형을 형성 한 후 각 단서술어의 기본문형을 실례화하여 연결함으로써 요약문을 작성하는 자동요약시스템의 모형을 설계하고 구현하였다. 시스템은 학습과정과 요약과정을 구분되며, 학습과정에서는 술어와 격조사를 출현빈도를 이용하여 주제분야 텍스트집단을 대표하는 단어술어와 필수격 조사를 추출한 뒤 단어술어가 이루는 문장의 기본문형을 형성한다. 요약과정에서 실례화 규직을 요약 대상 문장의 구문 분석 결과에 적용하여 기본문형의 격조사와 결합될 논항을 찾아 단문을 생성하고 연결하여 요약문을 완성한다. ‘화재’및‘강도’와 관련된 신문기사를 대상으로 실험을 수행하였으며, 작성된 요약문은 단어술어가 포함된 주요 문장에서 추출한 필수 정보항목과 술어를 중심으로 생성된 문장들로서 문장간의 연결이 자연스러울 뿐 아니라 텍스트의 전체적인 의미를 표현할 수 있었다. 또한, 통계적 기법을 이용한 학습을 통해 주제영역의 확장이 가능하였다.

  • PDF

프랑스어 단어 속에 담긴 문화연구 (A Study on the Culture of the French Language)

  • 곽노경
    • 비교문화연구
    • /
    • 제48권
    • /
    • pp.135-191
    • /
    • 2017
  • 본 연구는 프랑스 고유의 문화가 담긴 '공유문화 적재어'들을 선별하여 그 단어 속에 숨겨진 문화 콘텐츠들을 연구하고 이 단어들이 한국어에 차용되면서 새롭게 탄생한 문화 현상들을 탐구함으로써 프랑스와 한국 간의 상호문화교육을 위한 기초 자료를 형성하고자 하였다. 이를 위해 선별된 '공유문화 적재어'들을 프랑스 문화 내부적 관점과 상호문화적 관점이라는 두 가지 관점에서 연구하였다. 우선 프랑스 문화 내부적 관점에서 어휘문화적 접근으로 프랑스어 단어들 가운데 한국어에 차용된 단어들 중에서 의 식 주에 해당하는 프랑스어 '공유문화 적재어' 들을 선별하여 그 단어 속에 담긴 프랑스 고유의 문화를 사전적 의미, 문화적 현상, 숙어나 관용어 표현 속에 나타난 특별한 문화 현상에 대해 탐구함으로써 그 단어의 사전적 정의를 뛰어넘는 특별한 공시를 밝혀주었다. 나아가 상호문화적 접근으로 프랑스 문화와 한국 문화의 접촉으로 동일한 프랑스어 단어가 새로운 의미로 탄생하게 되는 과정들을 차용어의 변용 양상과 문화적 현상을 중심으로 탐구함으로써 두 문화 속에 작용하는 언어적 문화적 요소들의 유사성과 차별성을 살펴보았다. 그 결과 다음과 같은 현상들을 탐구할 수 있었다. 프랑스 '공유문화 적재어' 속에 다양한 문화와 역사가 담겨 있어 개별 단어들에 대한 탐구가 프랑스 문화를 깊이 있게 탐구하도록 할뿐 아니라 이들 단어가 사용된 숙어나 관용어 표현들을 통해 개별 단어 속에서 발견하지 못한 새로운 문화 현상들이 담화 속에 존재함을 알 수 있었다. 나아가 한국어로 차용된 프랑스어 단어들은 대부분 문화 간 교류에 의해 이루어지기 때문에 부정적인 이미지를 지닌 경우보다 긍정적인 의미로 사용되는데 의미의 왜곡이 일어나는 경우가 상당수 있었다.

온톨로지를 이용한 단어 군집화 성능 개선 (Performance Improvement of Word Clustering Using Ontology)

  • 박은진;김재훈;옥철영
    • 정보처리학회논문지B
    • /
    • 제13B권3호
    • /
    • pp.337-344
    • /
    • 2006
  • 이 논문은 사전의 뜻 풀이말을 이용하여 단어 군집화 시스템을 설계하고 구현한다. 군집화를 위해서는 다양한 형태의 자질이 요구되며 어떤 자질을 사용하느냐에 따라 군집화의 성능이 좌우된다. 뜻 풀이말은 표제어를 자세히 설명하고 있기는 하지만, 뜻 풀이말에 사용된 단어가 너무 함축적이거나 추상적이어서 뜻 풀이말이 그다지 길지 않다. 뜻 풀이말로부터 추출된 자질을 그대로 군집화에 이용할 경우에는 다수의 작은 군집이 형성된다. 뜻 풀이말을 이용하여 보다 더 좋은 군집화 결과를 얻기 위해서는 뜻 풀이말의 의미를 크게 손상하지 않는 범위에서 보다 더 일반적인 단어로 바꾸어 군집화에 필요한 자질을 확장할 필요가 있다. 이 논문에서 추상적인 말을 온톨로지 상에서 한 단계 위의 단어로 확장하거나 온톨로지 상에서 고정 높이에 해당하는 단어로 확장함으로써 단어 군집화 성능을 향상시키는 방법을 제안한다. 실험을 통해서 온톨로지를 이용해서 자질을 확장할 경우 단어 군집화 성능이 크게 개선되었으며, 전체적으로 보면 온톨로지 상에서 고정 높이에 해당하는 단어로 확장할 경우가 더 좋은 성능을 보였다. 또한 단어 군집화를 위한 자질로 동사가 매우 유용함을 관찰할 수 있었다.

텍스트마이닝과 동시출현단어분석을 이용한 한국, 중국, 일본의 우제목 연구 동향 분석 (The Tresnds of Artiodactyla Researches in Korea, China and Japan using Text-mining and Co-occurrence Analysis of Words)

  • 이병주;김백준;이제민;어수형
    • 한국환경생태학회지
    • /
    • 제33권1호
    • /
    • pp.9-15
    • /
    • 2019
  • 우제목은 짝수 개의 발굽을 갖는 포유동물로 다양한 종이 전 세계적으로 광범위하게 서식하고 있다. 최근 국내에서는 멧돼지, 고라니와 같은 야생 우제목 동물에 의한 농작물 피해, 로드킬 등의 급증과 산양, 사향노루 등 일부 종의 개체수 급감으로 사회적 관심을 받고 있다. 그러나 이러한 사회적 관심에도 불구하고 우제목 관련 국내 연구는 매우 부족하며, 국내 우제목의 연구 동향 분석도 이루어지지 않아 실질적인 문제점을 파악하는데 어려움이 있다. 최근 연구 동향분석에 있어 텍스트마이닝과 동시출현단어분석은 연구 문헌들에서 나타나는 주요 단어들을 추출하고 단어들 간의 연관성을 정량화하는데 활용되고 있으며, 연구 주제의 분류에 있어 객관성을 증가시킨다. 본 연구에서는 텍스트마이닝과 동시출현단어분석을 통해 한국, 중국, 일본 3국의 우제목 연구 논문을 분석하고 국가별 연구 주제를 비교하여, 국내 우제목 연구에서의 부족한 점과 향후 필요한 점을 알아보고자 하였다. 각 국가별로 우제목과 관련된 연구 논문을 검색하여 수집한 665편의 논문들에 대한 텍스트마이닝 결과, 총 199개 단어가 추출되었다. 추출된 단어들에 대한 동시출현단어분석 결과 3개의 단어군이 형성되었다. 각 단어군에 포함된 단어들을 살펴본 결과, 단어군1은 "서식환경/생태", 단어군2는 "질병", 단어군3은 "보전유전학/분자생태"와 관련 있는 것으로 판단된다. 국가별로 각 단어군의 비율을 살펴본 결과, 중국과 일본은 비교적 고른 단어군 비율을 나타낸 반면, 한국은 "질병"과 관련된 단어군2의 비율이 69%로 상당히 큰 편중을 나타내었다. 연도에 따른 각 단어군별 단어수 회귀 분석 결과에서도 중국과 일본은 3개의 단어군에 해당하는 단어수가 시간 경과에 따라 비교적 고르게 증가하였지만, 한국은 단어군2의 증가율이 나머지 단어군의 5배 이상을 나타냈다. 국내 우제목 연구는 중국과 일본에 비해 질병과 관련된 연구 위주로 진행된 것으로 판단되며, 서식 특성, 행동, 분자생태를 포함한 연구는 매우 적게 수행된 것으로 판단된다. 향후 국내 야생 우제목 동물에 의한 피해 조절과 멸종위기종 보호를 위한 합리적인 정책 수립을 위해, 야생 우제목에 대한 생태 연구를 집중적으로 실시하여 기초생태 자료를 축적시켜 나가야 할 것이다.

프로파일링 분석과 동시출현단어 분석을 이용한 한국어교육학의 정체성 분석 (Profiling and Co-word Analysis of Teaching Korean as a Foreign Language Domain)

  • 강범일;박지홍
    • 정보관리학회지
    • /
    • 제30권4호
    • /
    • pp.195-213
    • /
    • 2013
  • 이 연구에서는 프로파일링 분석과 동시출현단어 분석을 이용해 인접 학문과의 연관성을 바탕으로 한국어교육학의 정체성을 분석하고자 하였다. 먼저, 한국어교육학, 국어교육학, 국어학 학술지의 논문에서 추출한 주제어를 기반으로 저널 프로파일링 분석을 수행하였고 그 결과 한국어교육학 분야의 학술지들이 하나의 독립된 군집을 형성하는 것으로 나타났다. 그리고 학문 분야 프로파일링 분석과 동시출현단어 분석을 이용해 학문 분야 간 관계를 분석한 결과 한국어교육학이 국어학보다 국어교육학과 더 큰 유사성을 가지는 것으로 나타났다. 마지막으로, 동시출현단어 분석을 통해 세 학문 분야의 지적 구조를 비교 분석하였다. 이를 통해 한국어교육학에서만 출현한 주제들을 확인함으로써 인접학문들과의 관계 속에서 한국어교육학이 드러내는 정체성을 파악할 수 있었다.

한국어 연결단어의 이음소 인식과 어절 형성에 관한 연구 (A Study on the Diphone Recognition of Korean Connected Words and Eojeol Reconstruction)

  • 김경선;정홍
    • 한국음향학회지
    • /
    • 제14권4호
    • /
    • pp.46-63
    • /
    • 1995
  • 본 논문에서는 시간지연신경망을 이용한 한국어 무제한 어휘 연결단어 인식 시스템에 대해 기술하였다. 인식단위로는 인접한 두음소의 천이과정을 포한하는 이음소 (diphone)를 사용하였으며 그 개수는 329개이다. 한국어 연결단어 인식과정은 음성신호의 특징 추출 과정, 이음소 인식과정과 후처리 과정의 세 단계로 구분된다. 특징 추출 단계에서는 입력 음성의 이음소 구간을 분리하여 16차의 필터밸크 (filter-bank) 계수를 구한다. 이음소 인식은 3단계의 계층적 구조로 이루어졌으며 총 30개의 시간지연신경망을 이용해 이음소를 인식한다. 특히, 사용된 시간지연신경망은 인식률을 높이기 위하여 기존의 시간 지연신경망 구조를 변경하였다. 후처리 단계는 음소 천이확률과 음소 혼동확률을 이용한 이음소 오인식 수정과정과 인식된 이음소를 결합하여 어절을 형성하는 과정으로 이루어진다.

  • PDF

담론적 관점(discursive approach)에서 중1 수학 교과서의 그래프 정의 분석 (A discursive approach to analysis of definition of graph in first year middle school textbooks)

  • 김원;최상호;김동중
    • 한국수학교육학회지시리즈E:수학교육논문집
    • /
    • 제32권3호
    • /
    • pp.407-433
    • /
    • 2018
  • 본 연구의 목적은 담론적 관점에서 수학 교과서를 분석하기 위해 선행 연구를 바탕으로 분석틀을 재구성하고, 중1수학 교과서의 '그래프 정의'에서 단어와 시각적 매개체가 생성하는 의미와 그 통합 관계를 분석하는데 적용하는 것이다. 담론적 관점은 Sfard(2008)의 의사소통학적 관점과 Halliday(1985/2004)의 체계기능언어학을 바탕으로 발전된 사회기호학적 관점이 통합된 것으로 이를 바탕으로 본 연구에서는 단어와 시각적 매개체가 생성하는 의미는 교과서에 구현된 수학을 관념적 메타기능이 실현하는 의미 측면과 학생의 수학적 활동의 참여 유도성을 대인관계적 메타기능이 실현하는 의미 측면으로 구분하여 분석하였고, 단어와 시각적 매개체의 통합 관계는 텍스트적 메타기능 측면에서 분석하였다. 그 결과 첫째, 단어의 관념적 의미는 수학 담론의 밀도가 높았을 뿐 아니라 수학적 활동의 주체가 모호하였고 학생 참여를 요구하는 단어의 대인관계적 의미는 사고보다는 주로 행동 측면이 강조되었다. 시각적 매개체가 구성하는 관념적 의미에서는 내러티브 다이어그램이 결여되었고 대인관계적 의미에서는 정보 제공에 질적 차이가 있었다. 둘째, 단어와 시각적 매개체의 통합 관계는 구체화, 설명, 유사, 보완처럼 다양한 방식을 통한 풍부한 수학 의미 형성을 위해 통합 관계의 다양성을 지향할 필요가 있었다. 이러한 결과는 수학 교과서를 분석하는데 의미를 생성하는 도구로서 단어와 함께 시각적 매개체의 사용을 분석하고 단어와 시각적 매개체의 통합 관계를 분석하였기 때문에 담론적 관점에서 교과서 분석의 새로운 분석틀을 제공한 의미가 있다.

Semantic Hypernetwork 학습에 의한 자연언어 텍스트의 의미 구분 (Scaling Documents' Semantic Transparency Spectrum with Semantic Hypernetwork)

  • 이은석;김준식;신원진;박찬훈;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.289-294
    • /
    • 2008
  • 어떤 자연언어 문서가 전달하려는 의미는 그 텍스트의 성격에 따라 아주 명확할 수도(예: 뉴스 문서), 아주 불분명할 수도 있다(예: 시). 이 연구는 이러한 '의미의 명확성(semantic transparency)'을 정량적으로 측정할 수 있다고 가정하고, 이 의미의 명확성을 판단하는 데에 단어들의 연쇄(word association)의 확률통계적 성질들이 어떻게 기능하는지에 대해 논한다. 이를 위해 특정 단어가 연쇄체를 형성하면서 발생하는 neighboring frequency와 degeneracy를 중심으로 Markov chain Monte Carlo scheme을 적용하여 의미망('Semantic Hypernetwork')으로 학습시킨 후 문서의 구성 단어들과 그 집합들 간의 연결 상태를 파악하였다. 우리는 의미적으로 그 표상이 분명하게 나뉘는 문서들(뉴스와 시)을 대상으로 이 모델이 어떻게 이들의 의미적 명확성을 분류하는지 분석하였다. Neighboring frequency와 degeneracy, 이 두 속성이 언어구조에서의 의미망 기억과 학습 탐색 기제에 유의한 기질로서 제안될 수 있다. 본 연구의 주요 결과로 1) 텍스트의 의미론적 투명성을 구별하는 통계적 증거와, 2) 문서의 의미구조에 대한 새로운 기질 발견, 3) 기존의 문서의 카테고리 별 분류와는 다른 방식의 분류 방식 제안을 들 수 있다.

  • PDF