• 제목/요약/키워드: 자연어 처리 도구

검색결과 47건 처리시간 0.02초

문법성과 어휘 응집성 기반의 영어 작문 평가 시스템 (An English Essay Scoring System Based on Grammaticality and Lexical Cohesion)

  • 김동성;김상철;채희락
    • 인지과학
    • /
    • 제19권3호
    • /
    • pp.223-255
    • /
    • 2008
  • 본 논문에서 우리는 문장의 문법성과 텍스트의 어휘 응집성 측정을 위주로 하는 영어 작문 자동평가시스템을 소개하려고 한다. 문법 검사를 위해서는 링크 파서를 사용하고 어휘 연쇄를 측정하기 위해서는 로제 시소러스를 사용한다. 자동 평가 시스템의 채점 신뢰도를 측정하기 위해서 자동 채점과 수동 채점의 결과를 통계적으로 비교한다. 카파 통계와 다국면 Rasch 모형에 따른 분석 결과 자동 채점은 수동 채점과 유사성이 크며 수동 채점과 비교해서 신뢰성에 특별한 문제가 없다는 결론을 내리게 된다. 본 연구의 가장 큰 의의는 다양한 종류의 기술과 도구를 바탕으로 신뢰할 만한 수준의 영작문 자동 평가 시스템을 개발했다는 것이다. 평가 대상이 문장 단위를 넘어 선 텍스트 단위이며, 단어나 문법 등의 형식적 측면만 검사하는 것이 아니라 내용적 측면도 평가한다.

  • PDF

온톨로지 생성과 공유를 위한 시맨틱 웹 기반 위키 시스템 (A Semantic Web-enabled Woo System for Ontology Construction and Sharing)

  • 김현주;최중민
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권8호
    • /
    • pp.703-717
    • /
    • 2006
  • 시맨틱 웹은 컴퓨터가 처리 가능한 의미 정보를 표현하고 공유할 수 있는 보편적인 매체를 개발하는 것이 목적이며, 따라서 시맨틱 웹에서는 이러한 의미 정보를 표현하는 온툴로지를 웹에 배포하여 이용 가능하게 만드는 것이 매우 중요하다. 하지만 현존하는 대부분의 온톨로지 저작 도구는 웹이 아닌 환경에서 운용되기 때문에 작성된 온톨로지를 바로 웹에 배포할 수 없으며 온톨로지를 여러 사람이 공동으로 저작할 수 없다는 단점이었다. 이 논문에서는 위키 (Wiki)를 이용하여 온톨로지를 쉽게 웹에 배포할 수 있고 온툴로지 생성과 공유를 용이하게 해주는 기반구조를 제안한다. 위키는 사람을 대상으로 하는 지식 공동 저작과 공유를 위한 기반 구조 중 하나로서 웹에서 운용되며, 위키의 내용은 웹 문서 서식을 위한 간단한 마크업 언어와 자연어로 구성된다. 이 논문은 보다 용이한 온톨로지 생성과 공유를 위해 기존의 위키 시스템에 시맨틱 웹 요소를 추가하여 인간을 위한 지식 공동 저작과 공유를 위한 시스템인 통시에 에이전트 소프트웨어도 쉽게 접근하여 온툴로지 정보를 얻을 수 있는 시맨틱 웹 기반 구조를 제안하였으며 이를 통해 시맨틱 조회, 시맨틱 탐색, 시맨틱 질의를 실현하고자 하였다.

한국어 Hedge 문장 인식을 위한 태깅 말뭉치 및 단서어구 패턴 구축 (Constructing Tagged Corpus and Cue Word Patterns for Detecting Korean Hedge Sentences)

  • 정주석;김준혁;김해일;오성호;강신재
    • 한국지능시스템학회논문지
    • /
    • 제21권6호
    • /
    • pp.761-766
    • /
    • 2011
  • Hedge는 불확실함을 나타내는 언어적 표현으로, 저자가 자신의 글에 내포된 내용이 불확실하거나 의심이 갈 때 사용한다. 이러한 불확실성 때문에 hedge가 포함된 문장은 사실이 아닌 문장으로 간주된다. 문장이 사실인지 아닌지를 판단하는 것은 여러 응용에서 사용될 수 있는데, 정보검색, 정보추출, 질의응답 등의 응용분야에서 전처리 과정으로 사용되어, 보다 정확한 결과를 얻게 한다. 본 논문에서는 한국어 hedge 말뭉치를 구축하고, 이로부터 hedge 단서 어구들을 추출하여 일반화된 단서어구 패턴을 구축한 후, 한국어 hedge 인식 실험을 하였다. 실험을 통하여 78.6%의 F1-measure값을 얻을 수 있었다.

애널리스트 보고서 텍스트의 주가예측력에 대한 검증 (Verification on stock return predictability of text in analyst reports)

  • 이영선;야마다 아키히코;양철원;노호석
    • 응용통계연구
    • /
    • 제36권5호
    • /
    • pp.489-499
    • /
    • 2023
  • 온라인 플랫폼을 통한 애널리스트 보고서의 공유가 가능해짐에 따라 애널리스트들이 생성한 보고서는 시장 참여자들 간 금융 정보 격차를 줄일 수 있는 유용한 도구가 되었으며, 애널리스트 보고서의 정량적 정보가 주식수익률 예측에 다수 활용되었다. 하지만 상대적으로 애널리스트 보고서 내 텍스트 정보의 주식수익률 예측 정보력에 대한 국내 자료 기반 연구는 상대적으로 많이 부족하다. 본 연구는 애널리스트 보고서에서 추출 가능한 텍스트로부터 어조 변수를 생성하여 주식수익률 예측에 정보력이 있는지를 검증하되, 기존 연구들의 선형모형 가정 기반 검정의 한계를 해결하고자 랜덤 포레스트 기반의 F-test를 사용하여 기업수익률 예측력을 검증하였다.

기술로드맵핑을 위한 특허정보의 SAO기반 텍스트 마이닝 접근 방법 (An SAO-based Text Mining Approach for Technology Roadmapping Using Patent Information)

  • 최성철;김홍빈;윤장혁
    • 기술혁신연구
    • /
    • 제20권1호
    • /
    • pp.199-234
    • /
    • 2012
  • 기술로드맵 (Technology RoadMap: TRM)은 전략적 기술기획 및 관리를 위한 필수적인 도구이다. 최근 급속한 기술변화와 시장경쟁의 심화로 인해 TRM은 점차 중요시되고 있는데, 이는 TRM이 기업의 전략적 목적과 기술을 연계함으로써 장기적으로 필요한 기술들을 확보하기 위한 일종의 지도 역할을 하기 때문이다. 그러나 TRM을 개발하고 유지하기 위해서는 기술 전문가의 정성적 노력에 따른 많은 비용과 시간이 수반됨으로 인해, 기술문서의 자동화된 분석을 통해 TRM 개발 생산성을 높이는 방법에 대한 연구가 기업과 정부기관들의 최근 주요 관심사 중의 하나이다. 비록 TRM 개발을 위해 키워드 기반의 접근방법 (Keyword-based Patent Analysis)이 제시된 바 있으나, 이 방법은 미리 정의된 키워드의 출현정보에만 기반하므로 기술요소들간의 명시적 연관관계를 담지 못한다. 즉, 키워드 기반의 접근은 기술의 목적, 구성, 효과 (Objective, Structure, Effect: OSE)에 대한 정보를 제공하지 못하기 때문에 기술로드맵핑 시 기술정보의 활용성 측면에서 한계점을 지닌다. 이에, 본 연구는 기능 (Function) 기반의 접근법을 활용한 기술로드맵핑 방법을 제시한다. 기능이란 기술의 OSE 정보를 담고 있으며 Subject-Action-Object (SAO) 구조로 표현될 수 있기 때문에, 본 연구에서 제시되는 방법은 기술문서의 자연어처리분석을 통해 기술의 OSE 정보를 추출하여 TRM을 개발할 수 있도록 한다. 본 연구의 방법을 연구개발 기획단계에 적용함으로써, TRM 개발에 따른 비용과 시간의 절감이 가능하며, 제품이나 기술 OSE에 대한 연구개발 기획전문가의 시야를 넓혀 보다 효과적인 의사결정이 가능할 것으로 기대된다.

  • PDF

2015 및 2022 개정 초등학교 과학과 교육과정에 대한 비교 - 네트워크 분석을 중심으로 - (Comparing the 2015 with the 2022 Revised Primary Science Curriculum Based on Network Analysis)

  • 조헌국
    • 한국초등과학교육학회지:초등과학교육
    • /
    • 제42권1호
    • /
    • pp.178-193
    • /
    • 2023
  • 본 연구는 2015 및 2022 개정 과학과 교육과정 중 초등학교급과 관련된 성취기준을 중심으로 네트워크 분석을 통해 어떠한 변화 양상을 갖는지 비교하고 이를 토대로 초등학교 과학 교수학습을 위한 시사점을 제공하는 것을 목적으로 하였다. 이에 따라 본 연구에서는 2015 및 2022 개정 초등 과학과 교육과 정의 성취기준을 추출하여 성취기준 영역 변화에 따른 차이를 살펴보고, 각 영역별 중심성 지수를 중심으로 한 비교, 커뮤니티 탐지 기법을 활용한 군집 분석을 통해 어떠한 변화가 있는지 분석하였다. 연구 결과, 2015 개정 과학과 교육과정에 비해 전체 성취기준은 10% 가량 감소하였으나, 성취 기준의 길이나 주요어의 빈도는 오히려 증가하였으며, 관찰이나 조사, 설명 외에도 공유, 실천, 설계 등 디지털 도구활용 및 협동학습과 관련된 과정·기능적 측면이 강조되었다. 그러나 이러한 변화는 과학의 각 영역에 따라 서로 다른 차이를 보임을 알 수 있었다. 또한 군집 분석 결과 대체적으로 군집의 숫자나 관련 개념이나 용어의 영역은 유사하였으나, 과정·기능 및 가치·태도와 관련된 주요어를 중심으로 수행 방식 등에 변화가 나타났음을 확인할 수 있었다. 이러한 연구 결과를 토대로 본 연구에서는 새로운 교육과정의 적용 시 고려해야 할 점들을 시사점으로 제시하였다.

언어 모델 기반 음성 특징 추출을 활용한 생성 음성 탐지 (Voice Synthesis Detection Using Language Model-Based Speech Feature Extraction)

  • 김승민;박소희;최대선
    • 정보보호학회논문지
    • /
    • 제34권3호
    • /
    • pp.439-449
    • /
    • 2024
  • 최근 음성 생성 기술의 급격한 발전으로, 텍스트만으로도 자연스러운 음성 합성이 가능해졌다. 이러한 발전은 타인의 음성을 생성하여 범죄에 이용하는 보이스피싱과 같은 악용 사례를 증가시키는 결과를 낳고 있다. 음성 생성 여부를 탐지하는 모델은 많이 개발되고 있으며, 일반적으로 음성의 특징을 추출하고 이러한 특징을 기반으로 음성 생성 여부를 탐지한다. 본 논문은 생성 음성으로 인한 악용 사례에 대응하기 위해 새로운 음성 특징 추출 모델을 제안한다. 오디오를 입력으로 받는 딥러닝 기반 오디오 코덱 모델과 사전 학습된 자연어 처리 모델인 BERT를 사용하여 새로운 음성 특징 추출 모델을 제안하였다. 본 논문이 제안한 음성 특징 추출 모델이 음성 탐지에 적합한지 확인하기 위해 추출된 특징을 활용하여 4가지 생성 음성 탐지 모델을 만들어 성능평가를 진행하였다. 성능 비교를 위해 기존 논문에서 제안한 Deepfeature 기반의 음성 탐지 모델 3개와 그 외 모델과 정확도 및 EER을 비교하였다. 제안한 모델은 88.08%로 기존 모델보다 높은 정확도와 11.79%의 낮은 EER을 보였다. 이를 통해 본 논문에서 제안한 음성 특징 추출 방법이 생성 음성과 실제 음성을 판별하는 효과적인 도구로 사용될 수 있음을 확인하였다.