• 제목/요약/키워드: sentence processing

검색결과 323건 처리시간 0.028초

목적지향 대화에서 화자 의도의 통계적 예측 모델 (A Statistical Prediction Model of Speakers' Intentions in a Goal-Oriented Dialogue)

  • 김동현;김학수;서정연
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권9호
    • /
    • pp.554-561
    • /
    • 2008
  • 사용자 의도 예측 기술은 음성인식기의 탐색 공간을 줄이기 위한 후처리 방법으로 사용될 수 있으며, 시스템 의도 예측 기술은 유연한 응답 생성을 위한 전처리 방법으로 사용될 수 있다. 이러한 실용적인 필요성에 따라 본 논문에서는 화행과 개념열의 쌍으로 일반화된 화자의 의도를 예측하는 통계 모델을 제안한다. 단순한 화행 n-그램 통계만을 이용한 기존의 모델과는 다르게 제안 모델은 현재 발화까지의 대화 이력을 다양한 언어 레벨의 자질 집합(화행과 개념열 쌍의 n-그램, 단서 단어, 영역 프레임의 상태정보)으로 표현한다. 그리고 추출된 자질 집합을 CRFs(Conditional Random Fields)의 입력으로 사용하여 다음 발화의 의도를 예측한다. 일정 관리 영역에서 실험을 수행한 결과, 제안 모델은 사용자의 화행과 개념열 예측에서 각각 76.25%, 64.21%의 정확률을 보였다. 그리고 시스템의 화행과 개념열 예측에서 각각 88.11%, 87.19%의 정확률을 보였다. 또한 기존 모델과 비교하여 29.32% 높은 평균 정확률을 보였다.

엔티티 간의 관계명을 생성하는 알고리즘: 반자동화된 스키마 통합 (An Algorithm for Finding a Relationship Between Entities: Semi-Automated Schema Integration Approach)

  • 김용찬;박진수;서지혜
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.243-262
    • /
    • 2018
  • 데이터 베이스 스키마 통합은 정보 시스템에서 매우 중요한 이슈이다. 스키마 통합은 시간과 노력이 상당히 많이 필요하기 때문에 그동안 많은 연구들은 자동화된 스키마 통합 시스템을 구축하기 위해 노력했다. 하지만 지금까지의 연구에서는 XML을 소스 스키마로 사용하고 여전히 많은 부분을 데이터 베이스 관리자의 개입이 필요하도록 남겨두었다. 예를 들면, 스키마 통합 시 발생하는 관계명 명칭 충돌과 같은 문제는 데이터 베이스 관리자가 직접 개입하여야 해결할 수 있었다. 이 논문에서는 스키마 통합 시 발생하는 관계명 명칭 충돌을 해결하기 위해 관계명을 자동으로 생성해주는 알고리즘을 소개한다. 이 알고리즘은 인터넷 연어(Collocation) 사전과 영어 예문을 기반으로 한다. 사전 데이터를 기반으로 하여 추출한 예문들을 자연어처리 과정을 통해 분석한 후 두 엔티티 사이의 관계명을 생성한다. 반자동화된 스키마 통합 시스템을 구축하여 이 알고리즘을 테스트해보았으며 그 결과 약 90%의 정확도를 나타냈다. 이 알고리즘을 적용하면 스키마 통합 시에 데이터 베이스 관리자의 개입을 최소화할 수 있으며 이는 자동화된 스키마 통합 시스템을 구축하는 데에 큰 도움이 될 것이다.

개체추출기법을 이용한 관계성 도출기법 (A Study of Relationship Derivation Technique using object extraction Technique)

  • 김종희;이은석;김정수;박종국;김종배
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 춘계학술대회
    • /
    • pp.309-311
    • /
    • 2014
  • 최근, 산재된 비정형 데이터 분석 등을 통한 빅데이터 활용에 대한 요구들이 증가하고 있으나, 아직까지 이에 대한 연구들이 부족한 실정이다. 따라서 본 연구에서는 수집된 웹 정보에서 개체들을 추출하여 이들 간의 관계를 집단지성 기술과 언어처리 기술을 통해 자동 분석해 냄으로써 문장단위의 의미기반 분석을 할 수 있는 기법을 제시한다. 이를 위해, 수집된 정보를 DBMS에 정형화된 형태로 저장한 후 형태소와 자질정보를 분석한다. 획득한 형태소 중 관심개체, 주변개체, 비관심 개체를 분류하고 개체간 속성인식기법을 이용하여 각 개체간의 관계를 정도, 범위, 성격 등으로 분석한다. 그 결과, 긍정 부정의 판단이 가능한 개체간의 관계성 도출기법을 제시함으로써, 특정 키워드를 대상으로 분석된 정보들의 연관도를 분석할 수 있었다. 이 연구를 통해, 최근 실시간 대용량 처리 시스템에 적합한 시스템을 설계하여 이를 부가가치가 높은 서비스에 적용할 수 있는 방법을 제시하였다.

  • PDF

감정 분류를 이용한 표정 연습 보조 인공지능 (Artificial Intelligence for Assistance of Facial Expression Practice Using Emotion Classification)

  • 김동규;이소화;봉재환
    • 한국전자통신학회논문지
    • /
    • 제17권6호
    • /
    • pp.1137-1144
    • /
    • 2022
  • 본 연구에서는 감정을 표현하기 위한 표정 연습을 보조하는 인공지능을 개발하였다. 개발한 인공지능은 서술형 문장과 표정 이미지로 구성된 멀티모달 입력을 심층신경망에 사용하고 서술형 문장에서 예측되는 감정과 표정 이미지에서 예측되는 감정 사이의 유사도를 계산하여 출력하였다. 사용자는 서술형 문장으로 주어진 상황에 맞게 표정을 연습하고 인공지능은 서술형 문장과 사용자의 표정 사이의 유사도를 수치로 출력하여 피드백한다. 표정 이미지에서 감정을 예측하기 위해 ResNet34 구조를 사용하였으며 FER2013 공공데이터를 이용해 훈련하였다. 자연어인 서술형 문장에서 감정을 예측하기 위해 KoBERT 모델을 전이학습 하였으며 AIHub의 감정 분류를 위한 대화 음성 데이터 세트를 사용해 훈련하였다. 표정 이미지에서 감정을 예측하는 심층신경망은 65% 정확도를 달성하여 사람 수준의 감정 분류 능력을 보여주었다. 서술형 문장에서 감정을 예측하는 심층신경망은 90% 정확도를 달성하였다. 감정표현에 문제가 없는 일반인이 개발한 인공지능을 이용해 표정 연습 실험을 수행하여 개발한 인공지능의 성능을 검증하였다.

AI를 활용한 비정형 문서정보의 공간정보화 (Spatialization of Unstructured Document Information Using AI)

  • 윤상원;박정우;남광우
    • 한국지리정보학회지
    • /
    • 제26권3호
    • /
    • pp.37-51
    • /
    • 2023
  • 도시현상의 해석을 위해 공간정보는 필수적이다. 위치정보가 부족한 도시정보를 공간정보로 변환하기 위한 공간정보화 방법론이 꾸준히 개발되어왔다. 정형화된 주소정보나 지명 등을 이용한 Geocoding이나 이미 위치정보가 있는 공간정보와의 공간결합, 참조데이터를 활용한 수작업 형태 등이 대표적이다. 그러나 아직도 행정기관에서 작성되는 수많은 문서정보들은 비정형화된 문서형태로 인해 공간정보화의 수요가 있음에도 그동안 깊이 있게 다루어지지 못하였다. 본 연구는 자연어 처리 모델인 BERT를 활용하여 도시계획과 관련된 공개문서의 공간정보화를 진행한다. 주소가 포함된 문장 요소를 문서로부터 추출하고, 이를 정형화된 데이터로 변환하는 과정을 중점적으로 다룬다. 18년 동안의 도시계획 고시공고문을 학습 데이터로 사용하여 BERT 모델을 학습시켰으며, 모델의 하이퍼파라미터를 직접 조정하여 성능을 향상시켰다. 모델 학습 후의 테스트 결과, 도시계획시설의 유형을 분류하는 모델은 96.6%, 주소 인식 모델은 98.5%, 주소 정제 모델은 93.1%의 정확도를 보였다. 결과 데이터를 GIS 상에 맵핑하였을 때, 특정 지점의 도시계획시설에 관한 변경 이력을 효과적으로 표출할 수 있었다. 본 연구로 도시계획 문서의 공간적 맥락에 대한 깊은 이해를 제공하며, 이를 통해 이해관계자들이 더욱 효과적인 의사결정을 할 수 있게 지원하기를 기대한다.

온라인 커뮤니티에서 사용되는 댓글의 형태를 고려한 악플 탐지를 위한 전처리 기법 (Preprocessing Technique for Malicious Comments Detection Considering the Form of Comments Used in the Online Community)

  • 김해수;김미희
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제12권3호
    • /
    • pp.103-110
    • /
    • 2023
  • 인터넷이 보급되면서 사람들 간의 소통을 위한 커뮤니티가 활성화됨과 함께 익명 커뮤니티가 나타났고 익명성을 이용한 공격적인 게시글, 댓글을 남기는 등 타인에게 피해를 주는 행위를 하는 이용자가 많아지고 있다. 과거에는 관리자가 직접 글과 댓글을 확인하며 삭제 및 차단했지만, 커뮤니티 이용자가 늘어나면서 관리자가 계속 감시할 수 없는 수준에 이르렀다. 초기에는 특정 단어가 포함되면 해당 글을 게시하거나 댓글을 달 수 없는 형태로 악의적인 글이 게시되는 것을 막는 단어 필터링 기법을 사용하였으나 유사한 단어를 사용하는 등 우회하는 형식으로 필터링을 피해 갔다. 이를 해결하는 방법으로 딥러닝을 이용하여 실시간으로 이용자들이 게시하는 글들을 감시하였으나 최근 커뮤니티에서는 해당 커뮤니티에서만 이해할 수 있는 단어를 사용하거나 일반적인 한글이 아닌 인간의 시야에서만 이해할 수 있는 문자를 사용하고 있다. 이들이 사용하는 문자의 종류나 형태가 다양하여 인공지능 모델에 모든 것을 학습시키기에 어려움이 있다. 이에 본 논문에서는 한글의 자음과 모음 띄어쓰기 이미지를 학습시킨 CNN 모델을 이용해서 문장의 각 문자를 이미지화해 인간의 시야에서만 이해할 수 있는 문자를 모델이 예측한 문자로 변환하는 전처리 기법을 제안한다. 실험 결과, 제안한 전처리 기법을 통해 LSTM, BiLSTM, CNN-BiLSTM 모델에서의 성능이 각각 3.2%, 3.3%, 4.88% 증가함을 확인했다.

의존 구문 분석을 이용한 질의 기반 정답 추출 (Query-based Answer Extraction using Korean Dependency Parsing)

  • 이도경;김민태;김우주
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.161-177
    • /
    • 2019
  • 질의응답 시스템은 크게 사용자의 질의를 분석하는 방법인 질의 분석과 문서 내에서 적합한 정답을 추출하는 방법인 정답 추출로 이루어지며, 두 방법에 대한 다양한 연구들이 진행되고 있다. 본 연구에서는 문장의 의존 구문 분석 결과를 이용하여 질의응답 시스템 내 정답 추출의 성능 향상을 위한 연구를 진행한다. 정답 추출의 성능을 높이기 위해서는 문장의 문법적인 정보를 정확하게 반영할 필요가 있다. 한국어의 경우 어순 구조가 자유롭고 문장의 구성 성분 생략이 빈번하기 때문에 의존 문법에 기반한 의존 구문 분석이 적합하다. 기존에 의존 구문 분석을 질의응답 시스템에 반영했던 연구들은 구문 관계 정보나 구문 형식의 유사도를 정의하는 메트릭을 사전에 정의해야 한다는 한계점이 있었다. 또 문장의 의존 구문 분석 결과를 트리 형태로 표현한 후 트리 편집 거리를 계산하여 문장의 유사도를 계산한 연구도 있었는데 이는 알고리즘의 연산량이 크다는 한계점이 존재한다. 본 연구에서는 구문 패턴에 대한 정보를 사전에 정의하지 않고 정답 후보 문장을 그래프로 나타낸 후 그래프 정보를 효과적으로 반영할 수 있는 Graph2Vec을 활용하여 입력 자질을 생성하였고, 이를 정답 추출모델의 입력에 추가하여 정답 추출 성능 개선을 시도하였다. 의존 그래프를 생성하는 단계에서 의존 관계의 방향성 고려 여부와 노드 간 최대 경로의 길이를 다양하게 설정하며 자질을 생성하였고, 각각의 경우에 따른 정답추출 성능을 비교하였다. 본 연구에서는 정답 후보 문장들의 신뢰성을 위하여 웹 검색 소스를 한국어 위키백과, 네이버 지식백과, 네이버 뉴스로 제한하여 해당 문서에서 기존의 정답 추출 모델보다 성능이 향상함을 입증하였다. 본 연구의 실험을 통하여 의존 구문 분석 결과로 생성한 자질이 정답 추출 시스템 성능 향상에 기여한다는 것을 확인하였고 해당 자질을 정답 추출 시스템뿐만 아니라 감성 분석이나 개체명 인식과 같은 다양한 자연어 처리 분야에 활용 될 수 있을 것으로 기대한다.

잠재 토픽 기반의 제품 평판 마이닝 (Latent topics-based product reputation mining)

  • 박상민;온병원
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.39-70
    • /
    • 2017
  • 최근 여론조사 분야에서 데이터에 기반을 둔 분석 기법이 널리 활용되고 있다. 기업에서는 최근 출시된 제품에 대한 선호도를 조사하기 위해 기존의 설문조사나 전문가의 의견을 단순 취합하는 것이 아니라, 온라인상에 존재하는 다양한 종류의 데이터를 수집하고 분석하여 제품에 대한 대중의 기호를 정확히 파악할 수 있는 방안을 필요로 한다. 기존의 주요 방안에서는 먼저 해당 분야에 대한 감성사전을 구축한다. 전문가들은 수집된 텍스트 문서들로부터 빈도가 높은 단어들을 정리하여 긍정, 부정, 중립을 판단한다. 특정 제품의 선호를 판별하기 위해, 제품에 대한 사용 후기 글을 수집하여 문장을 추출하고, 감성사전을 이용하여 문장들의 긍정, 부정, 중립을 판단하여 최종적으로 긍정과 부정인 문장의 개수를 통해 제품에 대한 선호도를 측정한다. 그리고 제품에 대한 긍 부정 내용을 자동으로 요약하여 제공한다. 이것은 문장들의 감성점수를 산출하여, 긍정과 부정점수가 높은 문장들을 추출한다. 본 연구에서는 일반 대중이 생산한 문서 속에 숨겨져 있는 토픽을 추출하여 주어진 제품의 선호도를 조사하고, 토픽의 긍 부정 내용을 요약하여 보여주는 제품 평판 마이닝 알고리즘을 제안한다. 기존 방식과 다르게, 토픽을 활용하여 쉽고 빠르게 감성사전을 구축할 수 있으며 추출된 토픽을 정제하여 제품의 선호도와 요약 결과의 정확도를 높인다. 실험을 통해, K5, SM5, 아반떼 등의 국내에서 생산된 자동차의 수많은 후기 글들을 수집하였고, 실험 자동차의 긍 부정 비율, 긍 부정 내용 요약, 통계 검정을 실시하여 제안방안의 효용성을 입증하였다.

텍스트 마이닝을 이용한 감정 유발 요인 'Emotion Trigger'에 관한 연구 (A Study of 'Emotion Trigger' by Text Mining Techniques)

  • 안주영;배정환;한남기;송민
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.69-92
    • /
    • 2015
  • 최근 소셜 미디어의 사용이 폭발적으로 증가함에 따라 이용자가 직접 생성하는 방대한 데이터를 분석하기 위한 다양한 텍스트 마이닝(text mining) 기법들에 대한 연구가 활발히 이루어지고 있다. 이에 따라 텍스트 분석을 위한 알고리듬(algorithm)의 정확도와 수준 역시 높아지고 있으나, 특히 감성 분석(sentimental analysis)의 영역에서 언어의 문법적 요소만을 적용하는데 그쳐 화용론적 의미론적 요소를 고려하지 못한다는 한계를 지닌다. 본 연구는 이러한 한계를 보완하기 위해 기존의 알고리듬 보다 의미 자질을 폭 넓게 고려할 수 있는 Word2Vec 기법을 적용하였다. 또한 한국어 품사 중 형용사를 감정을 표현하는 '감정어휘'로 분류하고, Word2Vec 모델을 통해 추출된 감정어휘의 연관어 중 명사를 해당 감정을 유발하는 요인이라고 정의하여 이 전체 과정을 'Emotion Trigger'라 명명하였다. 본 연구는 사례 연구(case study)로 사회적 이슈가 된 세 직업군(교수, 검사, 의사)의 특정 사건들을 연구 대상으로 선정하고, 이 사건들에 대한 대중들의 인식에 대해 분석하고자 한다. 특정 사건들에 대한 일반 여론과 직접적으로 표출된 개인 의견 모두를 고려하기 위하여 뉴스(news), 블로그(blog), 트위터(twitter)를 데이터 수집 대상으로 선정하였고, 수집된 데이터는 유의미한 연구 결과를 보여줄 수 있을 정도로 그 규모가 크며, 추후 다양한 연구가 가능한 시계열(time series) 데이터이다. 본 연구의 의의는 키워드(keyword)간의 관계를 밝힘에 있어, 기존 감성 분석의 한계를 극복하기 위해 Word2Vec 기법을 적용하여 의미론적 요소를 결합했다는 점이다. 그 과정에서 감정을 유발하는 Emotion Trigger를 찾아낼 수 있었으며, 이는 사회적 이슈에 대한 일반 대중의 반응을 파악하고, 그 원인을 찾아 사회적 문제를 해결하는데 도움이 될 수 있을 것이다.

스마트폰에서 끌기 기능을 이용한 효과적인 한글 문자 자판 (New Effective Korean Character Keypads using Dragging on Smart Phones)

  • 최재영;임상글;양우철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권6호
    • /
    • pp.423-432
    • /
    • 2013
  • 주로 통화 기능을 제공하던 일반폰과 비교하여 스마트폰은 여러 면에서 기술적으로 진보된 기기이다. 하지만 사용자들은 일반폰에서 사용하던 한글 문자 자판들을 여전히 스마트폰에서 사용하고 있다. 터치스크린이 있는 스마트폰에서 보다 효과적으로 한글을 입력할 수 있는 자판이 요구되고 있다. 먼저 본 논문에서는 표준 한글 문자 자판인 천지인, 나랏글, 그리고 SKY한글에 끌기 기능을 추가하여 확장하였으며, 터치 횟수와 손가락이 움직이는 거리를 기준으로 기존의 한글 자판들과 입력 속도를 비교하여 성능이 향상되는 것을 확인하였다. 또한 추가적으로 스마트폰에 적합한 's-가나'와 's-바다' 한글 자판들을 제안하였다. s-가나 자판에서는 7개의 대표 자음과 5개의 대표 모음들을 순서대로 배치하였으며, s-바다 자판에서는 자음과 모음들을 사용빈도에 따라 많이 사용되는 자판들을 서로 가깝게 배치하였다. 표준 한글 자판들과 비교하여, s-가나 자판은 3~19%, s-바다 자판은 9~24%의 성능이 개선되었다. 마지막으로 본 논문에서는 스마트폰에서 한글 자판들의 사용성을 평가하기 위하여 SELF-T의 5가지 요소들을 설정하였으며, 이 요소들을 기준으로 한글 자판들을 비교하였다.