• 제목/요약/키워드: 어휘추출

검색결과 438건 처리시간 0.022초

원자력과학공학 학술 논문에 나타난 기능적 어휘다발 분석 (Functional Lexical Bundles in Nuclear Science and Engineering Research Articles)

  • 남대현
    • 한국콘텐츠학회논문지
    • /
    • 제21권11호
    • /
    • pp.426-435
    • /
    • 2021
  • 본 연구의 목적은 영어로 작성된 원자력과학공학 학술 논문에 나타나는 어휘다발을 담화기능에 따라 분류한 후, 분류된 어휘다발이 일반 학술 논문에 나타나는 어휘뭉치와 비교하여 어떤 특징을 나타내는지 분석하는데 있다. 이를 위해 원자력과학공학 논문의 텍스트를 수집하여 제작한 약 1백만 단어의 코퍼스에서 기능적 어휘 다발을 추출한 후 이를 75만 단어 크기의 일반 학술 논문 코퍼스에 나타난 어휘다발 분포와 빈도를 카이제곱 검정과 표준화 잔차를 사용하여 비교하였다. 그 결과 원자력과학공학 분야에서는 일반 학술 논문과 비교했을 때 저자태도와 관련한 어휘다발이 주로 사용되었고, 어휘다발 사용에 있어서는 다양성이 결여된 어휘다발 사용이 나타나 동일한 타입의 어휘다발을 '재사용'하는 모습을 보여주었다. 이러한 연구결과를 바탕으로 원자력과학공학 학술목적영어 교육에 대한 교육적 함의와 후속연구의 방향에 관하여 제언하였다.

판별분석을 통해 살펴본 영어 능력 수준을 구별하는 어휘의 정교화 특성 (Lexical Sophistication Features to Distinguish the English Proficiency Level Using a Discriminant Function Analysis)

  • 이영주
    • 문화기술의 융합
    • /
    • 제8권5호
    • /
    • pp.691-696
    • /
    • 2022
  • 본 연구는 영어 능력 수준을 구별할 수 있는 어휘적 정교화 특징이 무엇인지를 자동화된 어휘 분석 프로그램인 TAALES를 활용하여 탐색하였다. 300명의 한국 대학생이 쓴 총 600개의 에세이가 ICNALE 코퍼스에서 추출되었고 SPSS 프로그램의 판별 분석이 수행되었다. 판별 분석 결과 한국 대학생을 상. 중. 하의 세 개의 영어 능력 수준으로 유의미하게 구분하는 어휘 특성은 SUBTLEXUS 코퍼스의 내용어 빈도, 내용어의 어휘 습득 연령, 기능어의 어휘 결정 반응 평균 시간, 상위어 동사로 나타났다. 영어 능력 수준이 높은 상 수준 학생은 SUBTLEXUS 코퍼스에 빈번하게 나오는 어휘는 많이 사용하지 않았고, 어휘 습득 연령이 높고 어휘 결정 과업에서 평균 반응시간이 길게 나타난 정교화된 어휘와 구체적인 동사를 많이 사용한 특징이 있다.

교과서 분석 기반 수학교육용 어휘 선정 연구: 초등학교 1~2학년을 중심으로 (Textbooks Analysis to Select Vocabulary for Mathematics Education: Focusing on 1st and 2nd Graders in the Elementary School)

  • 권미선
    • 한국수학교육학회지시리즈E:수학교육논문집
    • /
    • 제37권4호
    • /
    • pp.675-695
    • /
    • 2023
  • 어휘에 대한 이해는 효과적인 수학 학습을 위한 필수적인 요소이다. 이에 수학을 학습할 때 자주 사용되는 어휘를 수학교육용 어휘로 선정하고자 2009 개정 1~2학년 수학 교과서와 2015 개정 1~2학년 수학 교과서에서 공통적으로 사용된 고빈도 어휘를 추출하고 어휘 난이도와 유형에 따라 분류하였다. 이때 학교 현장에서 효과적으로 사용하기 위하여 학년 공통 어휘와 학기별 집중 어휘로 구분하여 제시하였다. 분석 결과, 1학년 공통 어휘는 수, 몇, 알아보다, 읽다, 모양, 쓰다, 만들다, 말하다, 나타내다, 덧셈, 뺄셈 등이 있으며, 2학년 공통 어휘는 수, 알아보다, 몇, 모형, 나타내다, 길이, 방법, 만들다, 모양, 모두 등이 있다. 2009 개정 수학 교과서와 2015 개정 수학 교과서의 고빈도 어휘는 유사한 경향을 보였으며, 이를 통해 수학교육용 어휘 선정에 실효성을 엿볼 수 있었다. 선정된 어휘는 1~5등급까지 난이도가 다양하였으며, 어휘 유형 중 사고도구어의 비중은 점차 증가하였으나 수학 전문어의 비중은 2학년 1학기 때 가장 높은 것으로 나타났다. 어휘에 대한 이해는 수학 학습에 많은 영향을 미치나 지금까지 수학교육용 어휘 목록은 제시된 바가 없다. 이 연구에서 제시된 수학교육용 어휘를 바탕으로 수학교육을 위한 다양한 어휘 자료가 개발 될 수 있을 것이다.

트위터 문서에서 시간 및 리트윗 분석을 통한 핵심 사건 추출 (Extracting Core Events Based on Timeline and Retweet Analysis in Twitter Corpus)

  • ;이경순
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제1권1호
    • /
    • pp.69-74
    • /
    • 2012
  • 인터넷 사용자들은 어떠한 이슈에 대해 소셜 네트워크 서비스를 통해 빠르고 간결하게 다른 사람들과 지속적인 커뮤니케이션을 원한다. 사회적 이슈에 대해 어떠한 사건이 일어나게 되면 그날의 트윗 글과 리트윗 개수에 영향을 미치게 된다. 본 논문에서는 트위터 자료에서 사회적인 핵심 사건을 추출하기 위해 시간 분석과 감성 자질 및 리트윗 정보를 이용하는 방법을 제안한다. 제안 방법의 유효성을 검증하기 위해 비교실험으로 어휘 빈도수를 이용하여 핵심 사건을 추출하는 방법, 어휘 빈도수와 감성 자질을 함께 이용한 방법, 시간 분석을 반영하기 위해 카이제곱만을 이용한 방법과 제안 방법인 어휘 빈도수, 감성 자질, 리트윗 및 카이제곱을 함께 이용한 방법으로 성능을 비교하였다. 성능 평가를 위해서는 추출된 사건리스트에서 상위 10개 결과에서 정확도를 계산하였는데, 제안 방법이 94.9%의 성능을 보였다. 실험을 통해 제안한 방법이 핵심 사건 추출에 효과적인 방법임을 알 수 있다.

정서 어휘에 반영된 선율 특성에 적합한 화음 구성과 전개 (Harmonic Compositions and Progressions for Tonal Characteristics Based on Emotion Vocabulary)

  • 이수연;정현주
    • 한국융합학회논문지
    • /
    • 제8권9호
    • /
    • pp.265-270
    • /
    • 2017
  • 본 연구의 목적은 정서 어휘에 반영된 선율에 적합한 화음 구성과 전개의 특성을 조사하는 것이다. 이를 위해 연구 1에서는 8명의 음악중재전문가를 대상으로 질문지를 이용하여 정서 어휘의 의미와 선율을 반영하는 화음 구성과 전개를 작곡하고 근거에 대해 서술하게 하였다. 자료 분석은 화음 구성 비율을 백분율로 환산하여 정서 어휘별로 비교하고, 유사한 답변의 내용을 추출하였다. 연구 2에서는 124명의 음악치료와 음악전공자를 대상으로 연구 1의 결과에 따른 정서 어휘별 화음 구성과 전개의 적합성을 조사하고, 타당도의 통계학적 유의성을 검증하였다. 연구 결과, 기쁨의 어휘는 장화음, 주화음, 연속적인 화음 변화, 화남의 어휘는 단화음, 증화음, 9 11화음, 미해결된 7화음의 전개, 슬픔의 어휘는 단화음, 감화음, 반음계 전개의 사용 비율이 높았다. 타당도 검증 결과, 기쁨(97.2), 화남(75), 슬픔(80.6)으로 나타나 기쁨의 어휘에서만 유의성이 높았다(p<.005). 본 연구의 결과는 노래의 선율 창작시 가사가 전달하는 정서적 측면을 효율적으로 표현하기 위한 화음 사용의 근거자료를 제시한다.

단서 구문과 어휘 쌍 확률을 이용한 인과관계 추출 (Causal Relation Extraction Using Cue Phrases and Lexical Pair Probabilities)

  • 장두성;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.163-169
    • /
    • 2003
  • 현재의 질의응답 시스템은 TREC(Text Retrieval Conference) 질의집합에 대해 최대 80% 정도의 응답 성공률을 보이고 있다. 하지만 질의 유형에 다라 성능의 많은 차이가 있으며, 인과관계에 대한 질의에 대해서는 매우 낮은 응답 성공률을 보이고 있다. 본 연구는 인접한 두 문장 혹은 두 문장 혹은 두 명사구 사이에 존재하는 인과관계를 추출하고자 한다. 기존의 명사구 간 인과관계 추출 연구에서는 인과관계 단서구문과 두 명사구의 의미를 주요한 정보로 사용하였으나, 사전 미등록어가 사용되었을 때 올바른 선택을 하기 어려웠다. 또한, 학습 코퍼스에 대한 인과관계 부착과정이 선행되어야 하며, 다량의 학습자료를 사용하기가 어려웠다. 본 연구에서는 인과관계 명사구 쌍에서 추출된 어휘 쌍을 기존의 단서구문과 같이 사용하는 방법을 제안한다. 인과관계 분류를 위해 나이브 베이즈 분류기를 사용하였으며, 비지도식 학습과정을 사용하였다. 제안된 분류 모델은 기존의 분류 모델과 달리 사전 미등록어에 의한 성능 저하가 없으며, 학습 코퍼스의 인과관계 분류 작업이 선행될 필요 없다. 문장 내 명사구간의 인과관계 추출 실험 결과 79.07%의 정확도를 얻었다. 이러한 결과는 단서구문과 명사구 의미를 이용한 방법에 비해 6.32% 향상된 결과이며, 지도식 학습방식을 통해 얻은 방법과 유사한 결과이다. 또한 제안된 학습 및 분류 모델은 문장간의 인과관계 추출에도 적용가능하며, 한국어에서 인접한 두 문장간의 인과관계 추출 실험에서 74.68%의 정확도를 보였다.

  • PDF

대학도서관 공간 평가를 위한 감성어휘 도출에 관한 연구 (A Study on the Emotional Vocabulary Based on Space Assessment of the Academic Library)

  • 노동조
    • 한국비블리아학회지
    • /
    • 제26권4호
    • /
    • pp.83-104
    • /
    • 2015
  • 본 연구는 대학도서관의 공간과 관련된 감성어휘들을 도출하여 향후 도서관 공간 설계 및 평가의 근거를 마련하고자 하는 연구이다. 이 연구의 목적을 달성하기 위하여 본 연구에서는 5단계의 추출 및 정제 과정을 통하여 대학도서관 공간과 관련된 주요 감성어휘 12개를 도출하였다. 감성어휘와 관련된 문헌조사 및 선행연구 분석, 대학도서관 사서 및 이용자를 대상으로 한 포커스그룹 인터뷰 및 설문조사, KJ법을 통한 유사도 평가 등을 한 결과, 최종적으로 '다양하다, 만족스럽다, 필요하다, 가득하다, 깨끗하다, 안정적이다, 알맞다, 조화롭다, 개방적이다, 따뜻하다, 자연스럽다, 훌륭하다'가 대학도서관 공간과 관련된 감성어휘로 선정되었다.

워드넷 신셋에 대한 사건구조 프레임 반자동 태깅 (Semi-automatic Event Structure Frame tagging of WordNet Synset)

  • 임서현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.101-105
    • /
    • 2018
  • 이 논문은 가장 잘 알려진 어휘부중 하나인 워드넷의 활용 범위 확장을 위해 워드넷 신셋에 "사건구조 프레임(Event Structure Frame)"을 주석하는 연구에 관한 것이다. 워드넷을 비롯하여 현재 사용되고 있는 어휘부는 풍부한 어휘의미정보가 구조화되어 있지만, 사건구조에 관한 정보를 포함하고 있지는 않다. 이 연구의 가장 큰 기여는 워드넷에 사건구조 프레임을 추가함으로써 워드넷과의 연결만으로 핵심적인 어휘의미정보를 모두 추출할 수 있도록 해준다는 점이다. 예를 들어 텍스트 추론, 자연어처리, 멀티 모달 태스크 등은 어휘의미정보와 배경지식(상식)을 이용하여 태스크를 수행한다. 워드넷에 대한 사건구조 주석은 자동사건구조 주석 시스템인 GESL을 이용하여 워드넷 신셋에 있는 예문에 먼저 자동 주석을 하고, 오류에 대해 수동 수정을 하는 반자동 방식이다. 사전 정의된 23개의 사건구조 프레임에 따라 예문에 출현하는 타겟 동사를 분류하고, 해당 프레임과 매핑한다. 현재 이 연구는 시작 단계이며, 이 논문에서는 빈도 순위가 가장 높은 100개의 동사와 각 사건구조 프레임별 대표 동사를 포함하여 총 106개의 동사 레마에 대해 실험을 진행하였다. 그 동사들에 대한 전체 워드넷 신셋의 수는 1337개이다. 예문이 없어서 GESL이 적용될 수 없는 신셋을 제외하면 1112개 신셋이다. 이 신셋들에 대해 GESL을 적용한 결과 F-Measure는 73.5%이다. 향후 연구에서는 워드넷-사건구조 링크를 계속 업데이트하면서 딥러닝을 이용해 GESL 성능을 향상 할 수 있는 방법을 모색할 것이다.

  • PDF

사용자 영화평의 감정어휘 분석을 통한 영화검색시스템 (Movie Retrieval System by Analyzing Sentimental Keyword from User's Movie Reviews)

  • 오성호;강신재
    • 한국산학기술학회논문지
    • /
    • 제14권3호
    • /
    • pp.1422-1427
    • /
    • 2013
  • 본 논문에서는 사용자가 작성한 영화평으로부터 추출한 감정어휘에 기반한 영화검색시스템을 제안한다. 먼저, 사용자의 영화평을 형태소분석하고 수작업으로 감정어휘사전을 구축한다. 그 다음, 검색의 대상이 되는 영화별로 감정어휘사전에 포함되어 있는 감정어휘들의 가중치를 TF-IDF를 이용하여 계산한다. 이러한 결과를 이용하여 제안 시스템은 영화의 감정 분류를 결정하고, 랭킹하여 사용자에게 보여주게 된다. 사용자들은 영화평을 읽지 않고도, 감정 어휘로 구성된 질의어를 입력하여 원하는 영화를 찾을 수 있게 된다.

빅데이터 분석을 위한 한국어 SentiWordNet 개발 방안 연구 : 분노 감정을 중심으로 (The Study of Developing Korean SentiWordNet for Big Data Analytics : Focusing on Anger Emotion)

  • 최석재;권오병
    • 한국전자거래학회지
    • /
    • 제19권4호
    • /
    • pp.1-19
    • /
    • 2014
  • 빅데이터 내에 존재하는 감정 정보를 추출하여 사용자들이 특정 대상에 대하여 갖고 있는 인식이 어떠한지를 파악하고자 하는 노력이 활발히 이루어지고 있다. 상품, 영화, 그리고 사회적 이슈 등에 대한 문장을 분석하여 사람들이 해당 주제에 어떠한 견해를 가지고 있는지를 분석하고 측정하여 구체적인 선호도를 알아내는 것이다. 문장에서 드러나는 감정 정도를 얻기 위해서는 감정어휘의 목록과 정도값을 제시할 수 있는 감정어휘사전이 필요하므로 본 연구에서는 감정어휘를 발견하는 방법과 이들의 정도값을 결정하는 문제를 다룬다. 기본적인 방법은 기초 감정어휘의 목록 수집과 이들의 정도값은 선행연구 결과와 직접 설문 방식을 이용하고, 확장된 목록의 수집과 정도값은 사전의 표제어 설명부(glosses)를 이용해 추론하는 것이다. 그 결과 발견된 감정어휘는 전형성을 띠고 있는 기본형 감정어휘, 기본형 감정어휘의 gloss에 사용된 확장형 1단계 1층위 감정어휘, 비 감정어휘 중 gloss에 기본형 또는 확장형 감정어휘를 가지고 있는 확장형 2단계 1층위 감정어휘, gloss의 gloss에 기본형 또는 확장형 감정어휘가 사용된 확장형 2단계 2층위 감정어휘의 네 종류로 나뉜다. 그리고 확장형 감정어휘의 정도값은 기본형 감정어휘의 정도값을 기초로 문형의 가중치와 강조승수를 적용하여 얻었다. 실험 결과 AND, OR 문형은 내포된 어휘의 감정 정도값을 평균내는 가중치를, Multiply 문형은 정도 부사어의 종류에 따라 1.2~1.5의 가중치를 갖는 것으로 파악되었다. 또한 NOT 문형은 사용된 어휘의 감정 정도를 일정 정도로 낮추어 역전시키는 것으로 추정된다. 또한 확장형 어휘에 적용되는 강조승수는 1층위에서 2, 2층위에서 3을 갖는 것으로 예상된다.