• 제목/요약/키워드: sentence processing

검색결과 323건 처리시간 0.022초

사전과 말뭉치를 이용한 한국어 단어 중의성 해소 (Korean Word Sense Disambiguation using Dictionary and Corpus)

  • 정한조;박병화
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.1-13
    • /
    • 2015
  • 빅데이터 및 오피니언 마이닝 분야가 대두됨에 따라 정보 검색/추출, 특히 비정형 데이터에서의 정보 검색/추출 기술의 중요성이 나날이 부각되어지고 있다. 또한 정보 검색 분야에서는 이용자의 의도에 맞는 결과를 제공할 수 있는 검색엔진의 성능향상을 위한 다양한 연구들이 진행되고 있다. 이러한 정보 검색/추출 분야에서 자연어처리 기술은 비정형 데이터 분석/처리 분야에서 중요한 기술이고, 자연어처리에 있어서 하나의 단어가 여러개의 모호한 의미를 가질 수 있는 단어 중의성 문제는 자연어처리의 성능을 향상시키기 위해 우선적으로 해결해야하는 문제점들의 하나이다. 본 연구는 단어 중의성 해소 방법에 사용될 수 있는 말뭉치를 많은 시간과 노력이 요구되는 수동적인 방법이 아닌, 사전들의 예제를 활용하여 자동적으로 생성할 수 있는 방법을 소개한다. 즉, 기존의 수동적인 방법으로 의미 태깅된 세종말뭉치에 표준국어대사전의 예제를 자동적으로 태깅하여 결합한 말뭉치를 사용한 단어 중의성 해소 방법을 소개한다. 표준국어대사전에서 단어 중의성 해소의 주요 대상인 전체 명사 (265,655개) 중에 중의성 해소의 대상이 되는 중의어 (29,868개)의 각 센스 (93,522개)와 연관된 속담, 용례 문장 (56,914개)들을 결합 말뭉치에 추가하였다. 품사 및 센스가 같이 태깅된 세종말뭉치의 약 79만개의 문장과 표준국어대사전의 약 5.7만개의 문장을 각각 또는 병합하여 교차검증을 사용하여 실험을 진행하였다. 실험 결과는 결합 말뭉치를 사용하였을 때 정확도와 재현율에 있어서 향상된 결과가 발견되었다. 본 연구의 결과는 인터넷 검색엔진 등의 검색결과의 성능향상과 오피니언 마이닝, 텍스트 마이닝과 관련한 자연어 분석/처리에 있어서 문장의 내용을 보다 명확히 파악하는데 도움을 줄 수 있을 것으로 기대되어진다.

360 영상으로부터 텍스트 정보를 이용한 자연스러운 사진 생성 (Natural Photography Generation with Text Guidance from Spherical Panorama Image)

  • 김범석;정진웅;홍은빈;조성현;이승용
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제23권3호
    • /
    • pp.65-75
    • /
    • 2017
  • 360 영상은 상하좌우 모든 영역에 대한 정보를 갖고 있기 때문에 종종 지나치게 많은 정보를 포함하게 된다. 또한 360 영상의 내용을 2D 모니터를 이용하여 확인하기 위해서는 마우스를 이용하여 360 영상을 돌려 봐야 하거나, 또는 심하게 왜곡된 2D 영상으로 변환해서 봐야 하는 문제가 있다. 따라서 360 영상에서 사용자가 원하는 물체를 찾는 것은 상당히 까다로운 일이 될 수 있다. 본 논문은 물체나 영역을 묘사하는 문장이 주어졌을 때, 360 영상 내에서 문장과 가장 잘 어울리는 영상을 추출해 내는 방법을 제시한다. 본 논문에서 제시한 방법은 주어진 문장 뿐 아니라 구도 역시 고려하여 구도 면에서도 보기 좋은 결과 영상을 생성한다. 본 논문에서 제시하는 방법은 우선 360 영상을 2D 큐브맵으로 변환한다. 일반적인 큐브맵은 큐브맵의 경계 부분에 걸쳐 있는 물체가 있을 경우, 이를 검출하기 어려운 문제가 있다. 따라서 더 정확한 물체 검출을 위해 본 논문에서는 변형된 큐브맵을 제시한다. 이렇게 변형된 큐브맵에 Long Short Term Memory (LSTM) 네트워크 기반의 자연어 문장을 이용한 물체 검출 방법을 적용한다. 최종적으로 원래의 360영상에서 검출된 영역을 포함하면서도 영상 구도 면에서 보기 좋은 영역을 찾아서 결과 영상을 생성한다.

청음 음성학적 지식에 기반한 음가분류에 의한 핵심어 검출 시스템 구현 (The Design of Keyword Spotting System based on Auditory Phonetical Knowledge-Based Phonetic Value Classification)

  • 김학진;김순협
    • 정보처리학회논문지B
    • /
    • 제10B권2호
    • /
    • pp.169-178
    • /
    • 2003
  • This study outlines two viewpoints the classification of phone likely unit (PLU) which is the foundation of korean large vocabulary speech recognition, and the effectiveness of Chiljongseong (7 Final Consonants) and Paljogseong (8 Final Consonants) of the korean language. The phone likely classifies the phoneme phonetically according to the location of and method of articulation, and about 50 phone-likely units are utilized in korean speech recognition. In this study auditory phonetical knowledge was applied to the classification of phone likely unit to present 45 phone likely unit. The vowels 'ㅔ, ㅐ'were classified as phone-likely of (ee) ; 'ㅒ, ㅖ' as [ye] ; and 'ㅚ, ㅙ, ㅞ' as [we]. Secondly, the Chiljongseong System of the draft for unified spelling system which is currently in use and the Paljongseonggajokyong of Korean script haerye were illustrated. The question on whether the phonetic value on 'ㄷ' and 'ㅅ' among the phonemes used in the final consonant of the korean fan guage is the same has been argued in the academic world for a long time. In this study, the transition stages of Korean consonants were investigated, and Ciljonseeng and Paljongseonggajokyong were utilized in speech recognition, and its effectiveness was verified. The experiment was divided into isolated word recognition and speech recognition, and in order to conduct the experiment PBW452 was used to test the isolated word recognition. The experiment was conducted on about 50 men and women - divided into 5 groups - and they vocalized 50 words each. As for the continuous speech recognition experiment to be utilized in the materialized stock exchange system, the sentence corpus of 71 stock exchange sentences and speech corpus vocalizing the sentences were collected and used 5 men and women each vocalized a sentence twice. As the result of the experiment, when the Paljongseonggajokyong was used as the consonant, the recognition performance elevated by an average of about 1.45% : and when phone likely unit with Paljongseonggajokyong and auditory phonetic applied simultaneously, was applied, the rate of recognition increased by an average of 1.5% to 2.02%. In the continuous speech recognition experiment, the recognition performance elevated by an average of about 1% to 2% than when the existing 49 or 56 phone likely units were utilized.

언어창조성과 춈스키 문법 비판 (Linguistic Productivity and Chomskyan Grammar: A Critique)

  • Bong-rae Seok
    • 인문언어
    • /
    • 제1권1호
    • /
    • pp.235-251
    • /
    • 2001
  • 춈스키의 언어 이론에 따르면, 인간은 무한한 수의 어법에 맞는 문장을 말하고 이해할 수 있다. 언어 창조성이라고 하는 이러한 능력은 이상화된 언어 능력을 전제한다. 사람들이 실제로 언어를 사용하여 의사 소통을 할 때는 단기 기억이나 주의 집중이라는 인지 능력의 한계로 인해 이러한 창조성에 많은 제약이 따른다. 하지만 언어의 창조성은 이러한 언어 실행 능력과는 관계없는 순수 언어 능력을 고려할 때 이해된다고 춈스키는 주장한다. 충분한 시간과 기억 능력이 보장된다면, 인간 언어능력이 제약될 이유가 없다. 언어 창조성은 마치 덧셈을 하는 인간의 능력과 비교된다. 국민학교 산수를 공부한 학생은 덧셈을 할 수 있다. 덧셈 능력이 인간의 마음에 자리를 잡으면 어떤 숫자를 놓고도 덧셈을 할 수 있다. 물론 실제로 엄청난 숫자를 덧셈하는 데는 문제가 많다. 하지만 충분한 시간과 연필과 종이가 있다면 원칙상 어떤 숫자를 놓고도 덧셈을 할 수 있다. 본 논문에서는 필자는 이러한 언어 능력이 필요 이상 이상화되었음을 중앙 삽입형 문장들을 고찰함으로써 지적하고자 한다. 중앙 삽입형 문장 (center embedded sentences) 또는 양파 문장 (onion sentences) 들은 이상화된 언어능력의 측면에서는 문법적일지 모르지만 실제로 사람들은 이 문장들을 거의 사용하고 있지 않으며 거의 이해하고 있지도 않는 문장들이다. 그 이유는, 춈스키에 의하면, 비언어적 인지 능력의 제약 때문이다. 기억력이나 주의 집중력이 모자라서 그런 문장을 잘 쓰지 않지만 그런 조건이 따라 주면 그런 문장들이 무엇을 뜻하는 지 다 알 수 있다는 것이다. 따라서 이 문법적인 문장을 사용하지 않는다는 것이 언어 창조성에 대한도전이 될 수 없다고 그는 주장한다. 필자는 이 문장들이 단순한 단기 기억이나 주의 집중의 문제가 아니라 실제로 인간 언어 능력의 제약을 보여 줄 수 있는 인지적 조건들을 보여 주고 있다고 생각한다. 따라서 인간의 언어 능력이 무한수의 문장을 구성하고 이해할 수 있다는 주장은 언어 능력의 인지적 제약을 고려하지 못한 주장이다.

  • PDF

사회문제 해결 연구보고서 기반 문장 의미 식별 데이터셋 구축 (Building Sentence Meaning Identification Dataset Based on Social Problem-Solving R&D Reports)

  • 신현호;정선기;전홍우;권이남;이재민;박강희;최성필
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권4호
    • /
    • pp.159-172
    • /
    • 2023
  • 일반적으로 사회문제 해결 연구는 과학기술을 활용하여 다양한 사회적 현안들에 의미있는 해결 방안을 제시함으로써 중요한 사회적 가치를 창출하는 것을 연구 목표로 한다. 그러나 사회문제와 쟁점을 완화하기 위하여 많은 연구들이 국가적으로 수행되었음에도 불구하고 여전히 많은 사회문제가 남아 있는 상황이다. 사회문제 해결 연구의 전 과정을 원활하게 하고 그 효과를 극대화하기 위해서는 사회적으로 시급한 현안들에 대한 문제를 명확하게 파악하는 것이 중요하다. 사회문제 해결과 관련된 기존 R&D 보고서와 같은 자료에서 중요한 사안을 자동으로 식별할 수 있다면 사회문제 파악 단계가 크게 개선될 수 있다. 따라서 본 논문은 다양한 국가 연구보고서에서 사회문제와 해결방안을 자동으로 감지하기 위한 기계학습 모델을 구축하는 데에 필수적인 데이터셋을 제안하고자 한다. 우선 데이터를 구축하기 위해 사회문제와 쟁점을 다룬 연구보고서를 총 700건 수집하였다. 수집된 연구보고서에서 사회문제, 목적, 해결 방안 등 사회문제 해결과 관련된 내용이 담긴 문장을 추출 후 라벨링을 수행하였다. 또한 4개의 사전학습 언어모델을 기반으로 분류 모델을 구현하고 구축된 데이터셋을 통해 일련의 성능 실험을 수행하였다. 실험 결과 KLUE-BERT 사전학습 언어모델을 미세조정한 모델이 정확도 75.853%, F1 스코어 63.503%로 가장 높은 성능을 보였다.

부호화 전략 유형과 동시과제 처리 적절성이 미래계획기억 수행에 미치는 효과 (The Effect of Encoding strategy and Transfer Appropriate Processing on Prospective Memory Performance)

  • 박영신
    • 인지과학
    • /
    • 제27권1호
    • /
    • pp.101-127
    • /
    • 2016
  • 본 연구는 미래계획기억(PM) 수행에서 기억전략과 동시과제 처리적절성의 효과를 탐색하기 위해 수행되었다. 먼저 실험 1에서 목표단어 파지를 위한 기억전략 유형이 부호화 단계에서 조작되었다. 먼저 메타 전략을 통해 목표단어를 기억해야했던 참가자들은 PM 과제 수행에 대한 수행 난이도에 대한 주관적 평정과 자신의 수행 예측 정도를 판단해야 했으며, 인지 전략을 통해 목표단어를 기억해야 했던 참가자들은 목표단어에 대한 문장 산출과 주관적 호감도 평정을 해야 했다. 또한 모든 참가자들은 목표단어와의 처리적절성이 높은 동시과제와 낮은 동시과제 두 종류 모두를 수행하면서 PM 과제를 수행해야 했다. 실험 2는 실험 1의 반복검증을 위해 수행되었으며, 처리적절성에 대한 동시과제의 종류를 제외하고 실험 1과 모든 것이 동일하였다. 실험 결과, 두 실험 모두에서 메타 전략 조건의 참가자들이 인지 전략 조건의 참가자들보다 PM 수행 정확률이 더 높았다. 또한 처리적절성이 높은 과제에서 PM 수행 정확률이 더 높았다. 두 조건들 간에 상호작용도 나타났다. 메타 인지 조건에서는 처리적절성이 높은 동시과제를 수행하는 동안 PM 정확율이 좋았던 반면, 인지 전략 조건에서는 처리적절성에 따라 PM 정확율에 차이가 없었다. 동시과제에서는 조건들 간에 아무런 수행의 손실이나 이득이 나타나지 않았다. 본 연구의 결과를 통해 미래계획기억 수행에서 메타 인지처리과정에 의한 수행의 향상은 인지 자원의 영향에 따라 달라질 수 있다고 볼 수 있다.

  • PDF

안구이동추적을 통해 살펴본 관계절의 통사처리 과정 (Processing of syntactic dependency in Korean relative clauses: Evidence from an eye-tracking study)

  • 이미선;용남석
    • 인지과학
    • /
    • 제20권4호
    • /
    • pp.507-533
    • /
    • 2009
  • 관계절의 공백과 채움어의 의존관계(gap-filler dependencies)가 어떻게 해결되는지에 대한 가설은 '채움어촉발 처리전략(filler-driven parsing strategy)'과 '공백촉발 처리전략(gap-driven parsing strategy)'으로 요약할 수 있다. 두 가설의 언어보편적 타당성을 알아보기 위해, 본 연구는 안구이동추적법(eyetracking)을 이용하여, 한국어 화자들이 후핵언어(head-final language)인 한국어의 주격관계절과 여격관계절을 실시간으로 처리하는 과정을 살펴보았다. 그 결과, 피험자들이 관계절 내 공백의 위치에서 채움어에 상응하는 그림을 거의 응시하지 않았으나, 관계사와 결합한 관계절동사를 들은 시점부터는 채움어 그림을 응시하는 비율이 큰 폭으로 증가하기 시작하여 머리어를 들은 시점에서 가장 많이, 가장 오래 채움어 그림을 응시하였다. 이 결과는 공백이 관계절의 처리를 촉발하는 것이 아니라, 관계사와 결합한 관계절 동사에서 관계절의 통사처리가 시작되어 채움어가 인지된 시점에서 완성됨을 보여주는 것이다. 또한 주격관계절과 여격관계절 간의 상이한 안구이동 양상은 관계절 내의 논항과 결합한 격조사의 통사정보에 기인하는 것으로 보여서, 한국어의 관계절은 채움어촉발 처리전략을 따르기는 하지만 영어와 같은 선핵언어와는 다른 처리전략이 사용됨을 알 수 있다.

  • PDF

한글 편집거리 알고리즘을 이용한 한국어 철자오류 교정방법 (A Method for Spelling Error Correction in Korean Using a Hangul Edit Distance Algorithm)

  • 박승현;이은지;김판구
    • 스마트미디어저널
    • /
    • 제6권1호
    • /
    • pp.16-21
    • /
    • 2017
  • 컴퓨터가 상용화되면서 일반인들은 문서를 작성하기 위해 컴퓨터를 이용하는 방법을 자주 사용하게 되었다. 컴퓨터를 이용하여 문서를 작성하는 방법은 작성 속도가 빠르고 손의 피로가 적지만 철자오류가 발생할 확률이 매우 높다. 보통 철자오류는 발견하기 쉽기 때문에 곧바로 수정이 가능하지만, 사용자의 지식 부족 혹은 눈에 잘 띄지 않는 철자오류도 존재하기 때문에 철자오류가 존재하지 않는 문서를 작성하기 어렵다. 온라인상에서는 문서 작성에 대한 규칙 및 예절이 미비하기 때문에 철자오류에 의한 문제가 적지만 중요문서에서 발생하는 철자오류는 신뢰도 하락과 같은 큰 문제를 일으킨다. 철자오류 교정은 전문가 또한 완벽하게 수행하기 힘들기 때문에 비전문가인 일반인들을 위한 교정방법연구가 필요하다. 본 논문에서는 한글 편집거리 알고리즘을 이용해 철자오류를 교정하는 연구를 진행한다. 이전 연구를 통해 검출한 철자오류를 수집한 말뭉치 사전에서 등장하는 단어 중 철자오류 단어와 가장 유사한 단어를 발견하여 주위 단어와의 동시등장빈도를 계산하는 것으로 철자오류 교정을 수행하게 된다.

자연어 처리 모델을 활용한 블록 코드 생성 및 추천 모델 개발 (Development of Block-based Code Generation and Recommendation Model Using Natural Language Processing Model)

  • 전인성;송기상
    • 정보교육학회논문지
    • /
    • 제26권3호
    • /
    • pp.197-207
    • /
    • 2022
  • 본 논문에서는 코딩 학습 중 학습자의 인지 부하 감소를 목적으로 자연어 처리 모델을 이용하여 전이학습 및 미세조정을 통해 블록 프로그래밍 환경에서 이미 이루어진 학습자의 블록을 학습하여 학습자에게 다음 단계에서 선택 가능한 블록을 생성하고 추천해 주는 머신러닝 기반 블록 코드 생성 및 추천 모델을 개발하였다. 모델 개발을 위해 훈련용 데이터셋은 블록 프로그래밍 언어인 '엔트리' 사이트의 인기 프로젝트 50개의 블록 코드를 전처리하여 제작하였으며, 훈련 데이터셋과 검증 데이터셋 및 테스트 데이터셋으로 나누어 LSTM, Seq2Seq, GPT-2 모델을 기반으로 블록 코드를 생성하는 모델을 개발하였다. 개발된 모델의 성능 평가 결과, GPT-2가 LSTM과 Seq2Seq 모델보다 문장의 유사도를 측정하는 BLEU와 ROUGE 지표에서 더 높은 성능을 보였다. GPT-2 모델을 통해 실제 생성된 데이터를 확인한 결과 블록의 개수가 1개 또는 17개인 경우를 제외하면 BLEU와 ROUGE 점수에서 비교적 유사한 성능을 내는 것을 알 수 있었다.

CNN 기반 감성 변화 패턴을 이용한 가짜뉴스 탐지 (Fake News Detection Using CNN-based Sentiment Change Patterns)

  • 이태원;박지수;손진곤
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권4호
    • /
    • pp.179-188
    • /
    • 2023
  • 최근 가짜뉴스는 뉴스 콘텐츠 형식을 가장하고 중요한 사건이 발생할 때마다 등장하여 사회적 혼란을 초래한다. 이에 가짜뉴스를 탐지하기 위한 연구로 인공지능 기술이 사용된다. 자연어 처리를 통해 가짜뉴스를 자동으로 인지 및 차단하거나, 네트워크 인과 추론과 결합함으로써 허위 정보를 확산시키는 소셜미디어 인플루언스 계정을 감지하는 등의 가짜뉴스 탐지 접근법이 딥러닝을 통해 구현될 수 있었다. 그러나 가짜뉴스 탐지는 여러 자연어 처리 분야 중에서도 해결이 어려운 문제로 분류된다. 가짜뉴스가 가지는 형식 및 표현의 다양성으로 특성 추출의 난도가 높고, 뉴스가 속한 범주에 따라 하나의 특성이 서로 다른 의미를 가질 수도 있는 등 다양한 한계점이 존재한다. 본 논문에서는 가짜뉴스를 탐지하기 위한 추가적인 식별 기준으로 감성 변화 패턴을 제시한다. 합성곱 신경망을 가짜뉴스 데이터 세트에 적용하여 콘텐츠 특성에 기반한 분석을 수행하고, 감성 변화 패턴을 추가로 분석함으로써 성능이 개선된 모델을 제안한다. 뉴스를 구성하는 문장에 대하여 감성 극성을 산출하고 장단기 메모리를 적용함으로써 문장 순서에 의존적인 결괏값을 얻을 수 있다. 이를 감성 변화의 패턴으로 정의하고 뉴스의 콘텐츠 특성과 결합하여 가짜뉴스 탐지를 위한 제안 모델의 독립변수로 활용한다. 제안 모델과 비교 모델을 딥러닝으로 학습시키고 가짜뉴스 데이터 세트를 이용한 실험을 진행하여 감성 변화 패턴이 가짜뉴스 탐지 성능을 개선할 수 있음을 확인한다.