• 제목/요약/키워드: 어휘사용빈도

검색결과 104건 처리시간 0.023초

신문 사설의 특징적 표현들에 대한 연구 (Key Expressions in Editorial Texts: Determining the Unithood and Termhood of Word Sequences based on a 2009 Newspaper Corpus)

  • 김혜영;강범모
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.185-190
    • /
    • 2012
  • 본 논문은 동아, 조선, 중앙, 한겨레 신문의 2009년 신문 사설의 제목과 본문에서 나타나는 n-gram에 대한 논의이다. 구체적으로 자주 출현하는 단어들의 연속 단위 3~6개의 형태소를 추출하여 신문 사설에서 나타난 고빈도 형태소 연속체를 살펴본다. 또한 이들을 기사문에서 추출한 패턴과 로그공산비로 비교하여 신문 사설에서 더 특징적인 의미로 사용되는 어휘들을 살펴본다. 그 결과, 사설 본문에서는 3-gram은 '아야 한다'. 4-gram은 'ㄹ 것이다', 5-gram은 'ㄹ 수밖에 없다', 6-gram은 '아야 할 것이다' 등이, 사설 제목은 '것인가, 안 된다'가 하나의 용어처럼 사용되고 있었다. 이러한 형태소 연속체를 살펴봄으로써, 신문사설의 텍스트 특징과 정형적인 표현에 대해서 살펴볼 수 있다.

  • PDF

코퍼스로부터 구문 분석을 위한 사전 구성 (A Dictionary Composition for Syntactic Analyzer from Corpus)

  • 정민수;정규철;박기홍
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.159-161
    • /
    • 1998
  • 한글은 중심어 후행성과 어순의 자유성, 격을 결정하는 조사의 생략 등으로 인해 영어권에서 연구되어진 변형 생성 문법이나 어휘 함수 문법, 구구조문법류 등이 적용되기 어려운 문제점을 가지고 있고 관형적인 표현이 많아 구문 규칙 만으론 분석하기 쉽지 않기 때문에 사전에 의존해야 하는 경우가 많으므로 이에 적합한, 사전을 구성하고자 한다. 그러나 기존의 태그와 키워드만으로 구성된 사전만으로 어려운 점이 많고, 이 때문에 문법 규칙을 같이 적용하게 되는데 이 규칙을 보통 알고리즘을 이나 수작업을 통해 사전으로 구성하므로 정확성도 떨어진다. 저자는 이 과정을 코퍼스를 통해 구성하여 시간을 줄이고 결합 정보 또한 보다 견고하게 구성하기 위해 통계 정보-코퍼스 내에서 결합이 사용된 빈도-에 따라 순위를 결정할 수 있도록 구성하였다. 이를 보다 확장하여 구문분석 시에도 활용할 수 있도록 분석된 단어간의 결합 정보와 그 결합이 사용된 빈도를 포함하여 구문 결합 정보 사전을 구성하고자 한다. 이는 기존의 의존 문법이나 구문 관계를 이용하여 구문분석을 할 경우 올바른 트리의 결합 관계를 검색할 때 쓰여질 수 있다.

  • PDF

개념패턴과 통계정보를 이용한 한국어 미지격의 구문관계 결정 방법 (Resolution of Ambiguous Grammatical Functions of Korean Using Conceptual Patterns and Statistical Information)

  • 이휘봉;강인수;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.261-266
    • /
    • 1998
  • 본 논문은 보조사로 인해 야기되는 한국어 미지격의 구문관계 중의성 해소를 위한 새로운 기법을 제안한다. 기존의 연구는 수작업으로 얻어진 동사의 의미적 선택 제약을 사용하는 방식과 단어 간의 공기패턴과 빈도를 어휘 레벨에서 추출하여 중의성을 해소하는 방식으로 나뉠 수 있다. 본 논문은 말뭉치에서 어휘 레벨이 아닌 개념패턴과 격의 분포 값을 자동으로 추출하여 미지격의 구문관계를 결정한다. 개념패턴과 용언의 격 분포 정보를 적용하여 구문분석 단계에서 실험한 결과, 본 논문이 제안한 방법은 92%의 미지격 결정 정확율을 보였다. 개념패턴은 지식의 저장공간을 줄이고 격 결정 범위를 확장할 수 있기에 범용 구문분석 시스템으로의 확장을 가능하게 한다.

  • PDF

한국어 어휘자동획득 시스템 (An Automatic Korean Lexical Acquisition System)

  • 임희석
    • 한국산학기술학회논문지
    • /
    • 제8권5호
    • /
    • pp.1087-1091
    • /
    • 2007
  • 본 논문은 인간의 언어 획득 원리를 반영한 계산주의적 한국어 어휘 자동 획득 시스템을 제안한다. 제안하는 시스템은 인간의 언어 생활을 모델링한 한국어 코퍼스를 입력 받아 언어 인식을 위하여 사용할 수 있는 어절 사전과 형태소 사전의 어절과 형태소를 자동으로 획득할 수 있다. 1천만 어절 크기의 한국어 코퍼스를 이용하여 실험한 결과, 2,097개의 어절과 3,488개의 형태소를 획득할 수 있었다. 획득된 2,097개의 어절의 출현 빈도의 합은 1천만 어절의 38.63%에 해당하였고 형태소 추출의 정확도는 99.87%를 보였다.

  • PDF

한국어 음성 합성을 위한 VCV연쇄음 분석에 관한 연구 (VCV Chain Analysis for Korean Speech Synthesis)

  • 김승주;오영환
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.173-184
    • /
    • 1992
  • 본 논문에서는 일반적인 음성 합성 시스템과 모음-자음-모음(VCV) 연쇄음을 단위로 한 규칙 합성에 대해 고찰하고, 한국어의 음성 합성을 위한 VCV 연쇄음의 종류와 각 연쇄음의 빈도 및 사용예를 조사하기 위하여 약11만 단어의 어휘 목록과 3만 6천행 가량의 한글 문서를 분석, 연구한 결과를 기술하였다. 본 연구의 결과, 한국어의 음성 합성에는 약 2500여 증류의 VCV 연쇄음이 필요함을 확인하였다.

  • PDF

2단계 문장 추출방법을 이용한 자동 문서 요약 (Automatic Text Summarization with Two Step Sentence Extraction)

  • 정운철;고영중;서정연
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.910-912
    • /
    • 2004
  • 자동 문서 요약 시스템은 문서내에 담겨있는 정보를 최대한 표현하면서 문서의 크기를 줄이는 시스템이다. 본 논문에서는 문서 요약을 크게 2단계로 나누어서 수행한다. 문장내 요약본으로써의 불필요한 문장을 미리 제거하고 이에 더해 다양한 통계적 방법의 여러 장점들을 수용함으로써 보다 나은 성능 향상을 얻을 수 있었다. 비교시스템으로는 제목, 위치, 빈도, 도합유사도, 어휘 클러스터링을 이용한 시스템을 구축하여 사용하였으며 30%, 10% 문장요약에서 제안한 시스템은 모두 우수한 성능을 보였다.

  • PDF

실어증에서 나타나는 참조어 정보처리과정의 특성 : 명칭 실어증과 이해성 실어증을 중심으로 (Anaphoric Resolution in Anomia and Wernike Aphasia)

  • 김가영;황유미;문영선;박윤;남기춘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.455-461
    • /
    • 1999
  • 본 연구의 목적은 실어증 화자가 참조어(대명사)를 이해하고 표현하는데 있어서의 오류 반응을 살펴봄으로써 참조어에 관한 처리기제를 알아보는 것이다. 본 연구에서는 명칭성 실어증 환자와 이해성 실어증 환자를 대상으로 하였으며, 각각의 환자에게 두 가지 실험을 진행하였다. 실험 1은 정오판정 과제로 문장, 혹은 문단을 제시하고 사용된 참조어가 옳은지 그른지를 판정하도록 하는 것이다. 실험 2는 채워넣기 과제로 문장, 문단을 제시하고 괄호 안에 들어갈 참조어를 보기에서 고르도록 하는 것이다. 사용된 참조어는 인칭 대명사와 지시 대명사, 그리고 지시 관형사였다. 인칭 대명사의 경우는 인칭과 수로 나누어 각각 1인칭, 2인칭의 단수 복수로 구분하여 제시되었으며, 문장 내에서 각각 주격조사 '가', 보조사 '는', 소유격조사 '의'와 결합되어 제시되었다. (나는, 너는, 우리는, 너희는/ 내가, 너가, 우리가, 너희가/ 나의, 너의, 우리의, 너희의) 지시 대명사의 경우는 사물을 나타내는 것과 장소를 나타내는 것으로 구분되어 제시되었다. (이것, 그것, 저것/ 이곳, 그곳, 저곳) 지시 관형사의 경우는 '이', '그', '저'가 각각 명사와 결합되어 제시되었는데 지시대명사로 분류하였다. 실험결과는 실험과제간(정오판정, 채워넣기), 실험재료간(인칭 대명사, 지시 대명사)의 차이로 분석될 수 있다. 또한 인칭 대명사와 지시 대명사 내에서도 각각의 재료들 간에 오류반응의 특징이 있는 것으로 나타났다 이로 미루어 볼 때 참조어 범주간 별개의 처리과정이 작용하는 것이라고 생각할 수 있다. 물론 인칭대명사와 지시대명사가 사용되는 문맥적 상황, 대명사의 개념적 거리, 빈도, 사용된 문장의 길이 등 여타의 요소들도 고려되어야 할 것이다. 보조용언으로 쓰일 때 어휘적 의미가 전혀 활성화되지 않아 정상인과는 다른 언어처리를 하고 있음이 밝혀졌다.류의 의미가 모두 활성화되는 것을 보여 주었다. 즉, "먹은"과 간은 어절 이해는 구성 형태소로의 분석과 구성 형태소 어휘 접근을 통해 어절 이해가 이루어진다는 가설을 지지하고 있다. 실험 2에서는 실험 1과 다르게 한 뜻으로만 안일 수밖에 없는 "쥐어"와 같은 어절을 사용하여 이런 경우에도(즉, 어절의 문맥이 특정 뜻으로 한정하는 경우) 구성 형태소로의 분석 과정이 일어나는지를 조사하였다. 실험 2의 결과는 실험 1의 결과와는 다르게 어간의 한가지 의미와 관련된 조건만 촉진적 점화 효과가 나타나는 것을 보여주었다. 특히, 실험 2에서 SOA가 1000msec일 경우, 두 의미의 활성화가 나타나는 것을 보여주었는데, 이 같은 결과는 어절 문맥이 특정한 의미로 한정시킬 경우는 심성어휘집에 활용형태로 들어있다는 것이다. 또한 명칭성 실어증 환자의 경우에는 즉시적 점화과제에서는 일반인과 같은 형태소 처리과정을 보였으나, 그이후의 처리과정이 일반인과 다른 형태를 보였다. 실험 1과 실험 2의 결과는 한국어 어절 분석이 구문분석 또는 활용형태를 통해 어휘 접근되는 가설을 지지하고 있다. 또 명칭성 실어증 환자의 경우에는 지연된 점화과제에서 형태소 처리가 일반인과 다르다는 것이 밝혀졌다. 이 결과가 옳다면 한국의 심성 어휘집은 어절 문맥에 따라서 어간이나 어근 또는 활용형 그 자체로 이루어져 있을 것이다.으며, 레드 클로버 + 혼파 초지가 건물수량과 사료가치를 높이는데 효과적이었다.\ell}$ 이었으며 , yeast extract 첨가(添加)하여 배양시(培養時)는 yeast extract 농도(濃度)가 증가(增加)함에

  • PDF

한국어 감정표현단어의 추출과 범주화 (Korean Emotion Vocabulary: Extraction and Categorization of Feeling Words)

  • 손선주;박미숙;박지은;손진훈
    • 감성과학
    • /
    • 제15권1호
    • /
    • pp.105-120
    • /
    • 2012
  • 본 연구 1에서는 한국어 감정표현단어의 목록을 제작하고, 연구 2에서는 제작된 감정표현단어가 어떤 범주의 감정에 속하는지를 조사하였다. 연구 1의 한국어 감정표현단어 목록 제작을 위하여 연세대학교에서 제작한 '현대 한국어의 어휘빈도' 자료집으로부터 감정단어들을 추출하는 작업을 여러 단계에 걸쳐 시행하였다. 일상생활에서 빈도 높게 사용하는 감정표현단어를 선정하기 위하여 국문학 전공자와 감정연구자 12명이 참가하였으며, 총 504개의 감정표현단어들로 구성된 목록을 완성하였다. 연구 2에서는 80명의 대학생을 대상으로 각 단어가 '기쁨', '공포', '분노' 등 10개 범주(중성포함)의 감정 중 어느 감정과 관련 있는지 복수 선택하도록 하여 각 단어에 대한 감정 범주를 조사하였다. 단어들의 감정 범주 분석 결과, 504개 단어 중 426개 단어는 한 범주의 감정을 의미하였는데, '슬픔'을 나타내는 단어가 가장 많았으며, 다음으로 '분노', '기쁨' 순으로 나타났다. 다음 72개 단어는 두 감정 범주를 나타내었는데, '분노'와 '혐오', '슬픔'과 '공포' 그리고 '기쁨'과 '흥미'로 묶이는 단어가 많았다. 세 감정 범주를 보인 6개의 단어는 '놀람', '흥미', '기쁨'의 조합이 가장 높은 빈도로 나타났다. 본 연구는 일상생활에서 실제로 사용하는 감정표현단어 목록을 제작하고, 이에 기반을 두어 각 단어와 관련된 감정 범주를 복수의 감정 범주를 포함하여 규명하였다는데 의의가 있다. 본 연구에서 개발된 감정표현단어들과 각 단어에 대한 감정 범주 정보는 심리학 분야뿐만 아니라 이후 HCI 분야에서 언어적 내용에 기반을 둔 감정인식 연구에 활용될 수 있을 것으로 기대한다.

  • PDF

카이 제곱 통계량과 지지벡터기계를 이용한 자동 스팸 메일 분류기 (An Automatic Spam e-mail Filter System Using χ2 Statistics and Support Vector Machines)

  • 이성욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2009년도 춘계학술대회
    • /
    • pp.592-595
    • /
    • 2009
  • 우리는 지지벡터기계를 이용하여 스팸 이메일을 자동으로 분류하는 시스템을 제안한다. 단어의 어휘 정보와 품사 태그 정보를 지지벡터기계의 자질로 사용한다. 우리는 카이 제곱 통계량을 이용하여 유용한 자질을 선택한 후 각각의 자질을 문서 빈도(TF)와 역문헌빈도(IDF) 값으로 표현하였다. 자질들을 이용하여 SVM을 학습한 후, SVM 분류기는 각각의 이메일의 스팸 유무를 결정한다. 실험 결과, 웹메일 시스템에서 수집한 이메일 데이터에 대해 약 82.7%의 정확률을 얻었다.

  • PDF

'디지털 분석 도구를 활용한 문학 연구 : 라클로의 『위험한 관계Les liaisons dangereuses』를 중심으로 (Literary Research Using Digital Analysis Tools: A Case Study of 『Dangerous Liaisons』)

  • 류선정;유은순
    • 문화기술의 융합
    • /
    • 제10권3호
    • /
    • pp.173-180
    • /
    • 2024
  • 본 연구는 디지털 분석 도구를 활용하여 서간체 형식의 18세기 리베르탱 소설의 걸작으로 꼽히는 『위험한 관계』를 대상으로 '리베르티나주(libertinage)'를 둘러싼 이성과 감정의 문제를 계량적으로 분석하였다. 첫째, Voyant과 LIWC 22의 사용 단어 빈도수 분석을 통해 리베르티나주가 'love'와 'time'과 같은 키워드로 발현되었음을 확인하였다. 둘째, Voyant의 'Contexts' 기능을 통해 발몽이 투르벨 부인에게 보낸 편지들과 메르퇴유 부인에게 보낸 편지들은 모두 'love'를 중심 테마로 하고 있지만, 전자에서는 감정적 어휘들이, 후자에서는 전략적 어휘들이 더 많이 사용된 것을 확인하였다. 그리고 메르퇴유가 보낸 편지에서 가장 많이 사용된 어휘는 'time'으로서 'love'보다 빈도수가 더 높은 것을 확인하였다. 셋째, LIWC 22를 이용하여 주요 인물들이 주고받은 편지들을 대상으로 인물별, 각부별 '분석적 사고(analytic thinking)'와 '감정적 어조(emotional tone)'를 각각 측정하고 분석하였다. 이상의 분석 결과들은 『위험한 관계』가 18세기 프랑스의 계몽주의 시대 때 배척의 대상이었던 '감정'이라는 문제에 천착하고 있는 작품임을, 그리고 루소의 『신 엘로이즈』처럼 낭만주의를 예고하는 작품임을 뒷받침하는 중요한 근거로서 유의미할 것이다.