• 제목/요약/키워드: 텍스트 수집

검색결과 695건 처리시간 0.026초

멀티-세션 오픈 도메인 지식기반 대화 수집 툴 (Multi-Session Open Domain Knowledge-based dialog collection Tool)

  • 김태용;김산;신사임
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.491-496
    • /
    • 2022
  • 최근 멀티-세션 데이터로 장기간 페르소나와 대화 일관성을 유지하며 인터넷에서 대화와 관련된 지식을 활용하는 대화모델 연구가 활발히 진행되고 있다. 하지만 이를 위한 한국어 멀티-세션 오픈 도메인 지식 기반 대화 데이터는 공개되지 않아 한국어 대화모델 연구에 어려움이 있다. 따라서 본 논문에서는 한국어 멀티-세션 오픈 도메인 지식 기반 데이터의 필요성을 시사하고, 데이터 수집을 위한 툴을 제안한다. 제안하는 수집 툴은 양질의 데이터 수집을 위해 작업자들이 사용하기 편하도록 UI/UX를 구성하였으며, 대화 생성 시 텍스트뿐만 아니라 정보가 밀집된 테이블도 대화에 활용할 지식으로 참조할 수 있도록 구현하였다. 제안하는 수집 툴은 웹 랜덤채팅 시스템에 기반을 두어 작업자가 여러 다른 작업자와 같은 확률로 매칭되게 구현되었으며, 일정 확률로 기존 대화로부터 대화를 시작하도록 함으로써 멀티-세션 대화 수집이 가능하도록 하였다.

  • PDF

소셜 미디어에서 사용되는 한국어 정서 단어의 정서가, 활성화 차원 측정 (Measuring a Valence and Activation Dimension of Korean Emotion Terms using in Social Media)

  • 이신영;고일주
    • 감성과학
    • /
    • 제16권2호
    • /
    • pp.167-176
    • /
    • 2013
  • 소셜 미디어의 급속한 발달로 인해 사용자가 생성한 텍스트 데이터가 급증하고 있다. 오피니언 마이닝에서는 이러한 사용자의 텍스트를 분석하여 사용자의 의견을 추출하고 있다. 특히 오피니언 마이닝의 세부 분야인 정서분석에서는 텍스트에서 사용자의 정서를 추출하는 것이 주된 목적인데, 이를 위해서는 정서 단어 목록 구축이 필수적이다. 본 논문에서는 소셜 미디어의 정서 분석을 위해서 대표적인 소셜 미디어인 페이스북 텍스트를 사용하여 정서 단어 목록을 구축하였다. 페이스북 텍스트로부터 데이터를 수집한 후 정서 단어를 선별하고 설문을 통하여 정서가와 활성화 차원을 측정하였다. 그 결과 정서가, 활성화 차원을 포함한 267개 정서 단어 목록을 구축하였다.

  • PDF

생의학 분야 학술 논문에서의 개체명 인식 및 관계 추출을 위한 언어 자원 수집 및 통합적 구조화 방안 연구 (A Study on Collecting and Structuring Language Resource for Named Entity Recognition and Relation Extraction from Biomedical Abstracts)

  • 강슬기;최윤수;최성필
    • 한국문헌정보학회지
    • /
    • 제51권4호
    • /
    • pp.227-248
    • /
    • 2017
  • 본 논문에서는 급격히 증가하는 생의학 분야 비정형 텍스트에서 핵심적 내용을 추출할 수 있는 기계학습 기반 정보 추출시스템을 구축하기 위한 언어자원 수집 및 통합적 구조화 방안을 제안한다. 제안된 방법은 정보 추출 시스템을 크게 개체명 인식과 개체명 간 관계 추출 시스템으로 구분하고, 각각의 시스템에 적합한 학습데이터를 구성하기 위해 생의학 분야 개체명 사전과 학습 집합을 수집한다. 그리고 수집된 해당 자원들의 특성을 분석하여 개체 구별을 위해 필수적으로 포함시켜야 할 항목들을 도출하고 이를 통해 시스템 학습과정에서 사용될 학습 데이터를 구성하기 위한 항목을 선정한다. 이와 같이 선정된 학습데이터의 구성 내용에 따라 수집된 자원들을 가공하여 학습 데이터를 구축한다. 본 연구에서는 생의학 분야의 하위 분야인 유전자, 단백질, 질병, 약물 4개 분야에 대한 개체명 사전과 학습 집합을 수집하여 각각을 학습 데이터로 구축하였으며, 개체명 사전을 통해 구축된 개체명 인식용 학습 데이터를 대상으로 개체명 수용 범위를 측정하기 위한 검증 과정을 수행하였다.

SNS 텍스트 마이닝을 위한 웹문서 인코딩 자동 인식 기술 방안 (A method of web Document Encoding Automatic Recognition for SNS Text Mining)

  • 모은수;이재필;이재광;이준현;이재광
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.415-417
    • /
    • 2015
  • 사용자는 자신의 주변상황에 대한 정보를 수집 및 공유하기 위하여 SNS, 포탈사이트 및 커뮤니티를 사용한다. 본 논문에서는 사용자의 특성을 고려한 지역정보 수집 아이디어와 방법론을 제시한다. 또한 각각의 웹 시스템의 데이터를 수집하여, 광범위한 지역정보를 마이닝을 수행하고 가공해내는 시스템을 제안한다. 이를 위해 해결해야하는 이슈는 다음과 같다. 각 웹시스템의 문서들은 운영 체제에 따라 인코딩이 달리 사용되는데, 흔히 발생되는 오류 중 하나인 문자깨짐 현상이 그 예이다. 해결방법으로써 문서가 작성된 운영체제의 인코딩정보를 획득해야하며, 이 정보는 서버에서 제공하는 헤더정보에 명시되었거나 문서내에 내장되어 있다. 하지만 일부 웹사이트는 인코딩 정보를 제공하지 않으며, 국가별 인코딩이 다르기 때문에 이를 알기 쉽지않다. 그리하여 본 논문에서 제안하는 방법론은 텍스트 마이닝에 앞서 웹서버에서 제공하는 웹페이지를 읽어들여 인코딩정보를 획득하고, 문자의 깨짐없이 표시할 수 있도록 시스템을 구축하기 위해 Response Header, HTML의 meta tag 및 읽어드린 문서의 BOM(Byte Order Mark) 정보 및 인코딩 패턴을 통해 인식하도록 하여 글자 깨짐을 완하하도록 시스템을 설계하였다.

정서 차원 공간에서 소설의 지배 정서 분석 및 분류 (Analyzing and classifying emotional flow of story in emotion dimension space)

  • 이신영;함준석;고일주
    • 인지과학
    • /
    • 제22권3호
    • /
    • pp.299-326
    • /
    • 2011
  • 소설, 블로그, 채팅 메시지, 상품평 등의 텍스트는 전반적인 정서의 흐름을 가지고 있다. 텍스트 간의 정서 흐름의 유사도를 비교하면 유사한 정서 흐름을 갖는 텍스트를 분류할 수 있고, 상품 추천이나 의견 수집 등에 활용할 수 있다. 본 논문에서는 텍스트에서 정서 단어를 순차적으로 추출하고 쾌-불쾌, 활성화의 2차원으로 분석하여 텍스트의 정서 흐름을 파악하였다. 또한 텍스트의 순차적인 흐름을 시간 차원으로 설정하여 텍스트의 전반적인 정서 흐름인 '지배 정서(dominant emotion)'를 파악하기 위하여 쾌-불쾌, 활성화, 시간의 3차원 공간에서 정서 흐름을 탐색하였다. 또한 이 3차원 공간 안에서 유클리드 거리를 사용하여 지배 정서 흐름의 유사도를 계산함으로써 유사한 정서 흐름을 가지는 텍스트를 분류하는 방법을 제안하였다. 제안한 방법을 통해 한국 근대 단편 소설들을 분석하여 지배 정서를 분석하였고 유사한 지배 정서를 가지는 소설들을 분류하였다.

  • PDF

한국 플랫폼 정부의 방향성 모색 : 공공기관 연구보고서에 대한 토픽 모델링과 네트워크 분석 (An Exploratory Study of Platform Government in Korea : Topic Modeling and Network Analysis of Public Agency Reports)

  • 남현동;남태우
    • 디지털융복합연구
    • /
    • 제18권2호
    • /
    • pp.139-149
    • /
    • 2020
  • 새로운 플랫폼 정부는 지능적인 정보기술을 활용하여 정부와 국민이 서로 협력하는 새로운 생태계 기반 정부 혁신과 지속 가능한 발전을 견인하는 역할을 할 것이다. 이에 플랫폼 정부의 플랫폼 구축을 위해 최근 관련 연구 동향에 대해 살펴보고 향후 미래정책 방향 및 연구기반을 마련하기 위한 토대를 구축하고자 한다. 연구 분석을 위해 각 부처와 정부산하기관에서 발행된 연구보고서를 텍스트마이닝 기법을 활용하여 텍스트 자료를 수집하고, 수집된 텍스트 자료를 토픽 모델링과 네트워크 분석을 시행하였다. 분석결과 미래전략과 집단 내에서의 네트워크 연결이 제대로 이루워지지 않고 있으며 연결 중심성이 강할수록 관계성이 약해지는 것을 도출하였다. 이는 정부가 플랫폼을 설계하고 데이터와 서비스를 공급하는 공급 역할에서 통합적, 상호 교류적 접점이 필요하며 정부와 시민, 기업의 협치가 가능한 생태계가 조성되어야 할 것이다. 본 연구를 통해 플랫폼 정부의 공급과 수요적 접근의 이해를 높이고 잠재적 토픽에 따라 적절한 변경관리 방법을 구현하기 위한 논의가 다각적으로 이루어지길 기대한다.

텍스트마이닝 방법론을 활용한 웨어러블 관련 키워드의 트렌드 분석 (Analyzing the Trend of Wearable Keywords using Text-mining Methodology)

  • 김민정
    • 디지털융복합연구
    • /
    • 제18권9호
    • /
    • pp.181-190
    • /
    • 2020
  • 본 연구는 신문기사로부터 수집한 웨어러블 관련 텍스트를 대상으로 텍스트마이닝을 수행하여 웨어러블 관련 키워드의 트렌드를 분석하였다. 이를 위해 1992년부터 2019년까지 신문기사 11,952건을 수집하여 빈도분석과 바이그램 분석을 적용하였다. 빈도분석 결과 삼성전자, LG전자, 애플이 최상위 빈도어로 추출되었으며 스마트워치, 스마트밴드가 기기 측면에서 지속적으로 등장하였음을 알 수 있었다. 또한 IT전시회가 매년 고빈도어로 나타났으며 차세대 기술 관련 키워드와 융합된 내용이 기사화되는 것을 볼 수 있었다. 바이그램 분석 결과, 세계-최초, 세계-최대 같은 단어 묶음이 지속적으로 등장하였으며 이슈나 이벤트가 발생할 때마다 관련된 새로운 단어 묶음이 도출됨을 확인할 수 있었다. 이러한 웨어러블 관련 키워드의 트렌드 추이 파악은 웨어러블 동향과 향후 방향성을 이해하는데 유용할 것이다.

다크웹 아동 음란물 추적을 위한 연관규칙 기반 키워드 수집체계 (Keyword Collection System based on Association Rules to Track Pornography of Children on Dark Webs)

  • 김진경;김지연;김창훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.207-208
    • /
    • 2023
  • 다크웹을 통한 마약, 금융거래, 해킹 등 사이버 범죄가 증가하면서 다크웹 상의 범죄 추적을 위한 사이버 수사 필요성이 증대되고 있다. Tor와 같은 다크웹 접속 브라우저는 강력한 익명성을 제공하기 때문에 주로 다크웹 운영상의 취약점 분석, 악성코드를 활용한 함정수사 기법이 실효성 높은 다크웹 수사 기술로 간주된다. 그러나 사이트 개설 및 폐쇄가 빈번하게 발생하는 다크웹의 특성상 최신 범죄 정보를 수집하기 위해서는 방대한 다크웹 정보를 실시간 수집하고, 능동적으로 검색 키워드를 확장할 수 있는 고도화된 크롤러 기술 개발이 필요하다. 본 논문은 다양한 다크웹 사이트 중, 아동 음란물 사이트를 크롤링을 통해 수집하고, 수집된 텍스트의 연관 분석을 통해 검색 키워드를 확장하는 수집 체계를 제안한다.

  • PDF

채팅 텍스트로부터의 회자 감정상태 학습 (Learning Emotional States of Chatting Partners from Text Data)

  • 문현구;장벽탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.340-342
    • /
    • 2001
  • 현재 인터넷 환경에서 텍스트는 다루기 쉽고 부하가 적어 가장 많이 사용되는 통신 수단이다. 그러나 화상 채팅과는 달리 자신의 표정이나 체스춰를 전달할 수 있는 방법이 없기 때문에 표현상의 한계가 있다. 이 글은 일상 대화를 텍스트로 입력받아, naive Bayes 알고리즘을 사용해 미리 정의된 감정 범주, 즉 울기, 웃기, 화내기 등으로 분류해 주는 방법에 관해 다루고 있다. 채팅사이트에서 수집된 학습데이터는 사람에 의해 해당 감정 범주로 태깅되고, 이렇게 태깅된 데이터가 학습엔진에 의해 통계 정보로 구축되면, 실제 채팅사이트에서 감정인식 엔진은 입력된 데이터를 분석해 해당 감정으로 분류한다. 연령별로 5개의 그룹으로 나눈 대화방에서 각각 1000문장씩 테스트해본 결과 평균 91.6%의 정확도를 얻을 수 있었다.

  • PDF

텍스트 마이닝 기법을 이용한 학습 수요자 요구에 관한 연구 : SNS를 중심으로 (A Study on Learners' Needs Analysis Using Text Mining Techniques : Focusing on SNS)

  • 이명숙;이경미;임영규;한경임;박혜정
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2016년도 제53차 동계학술대회논문집 24권1호
    • /
    • pp.259-261
    • /
    • 2016
  • 본 연구는 교양교육에 대한 학습 수요자의 요구와 현재 편성되어 있는 교양교육 교과목들에 대한 차이를 알아본다. 학습 수요자의 다양한 생각들을 SNS를 통해 데이터를 수집하고, 텍스트 마이닝 기법을 이용하여 유용한 정보를 발견하고 시각화 분석을 통해 학습자의 요구를 제시한다. 분석 결과로는 학습자는 교수자와 상호작용 잘되는 수업 방식, 학습자가 참여할 수 있는 수업, 자기주도 학습을 선호하였다. 또한 교양교육 교과목 개설로서는 취업에 필요한 외국어, 자격증 취득이 가능한 과목, 실생활에 적용할 수 있는 실용적인 과목들을 요구하여 실제 균형에 맞게 개설된 교과목과는 차이를 보임을 알 수 있었다.

  • PDF