• 제목/요약/키워드: Keywords Extraction

검색결과 139건 처리시간 0.023초

키워드 추출을 통한 그림을 그려주는 그림일기의 구현 (Implementation of Picture Diary drawing Pictures through Keyword Extraction)

  • 이성준;이재진;김혜진;양지윤;한경숙
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권6호
    • /
    • pp.179-184
    • /
    • 2023
  • 많은 사람들이 코로나를 겪으면서 자신의 일상을 기록하는 그림일기에 관심을 가지기 시작했다. 하지만 기존 어플리케이션은 많은 유료 서비스가 있고, 그림을 직접 그리기 어려운 사람에게는 그림일기를 작성하는데 어려움이 있다. 이러한 문제점을 해결하기 위해 키워드 추출 그림일기인 A-Diary를 개발하였다. 그림 그리기, 일기 작성 기능을 제공하고 직접 그리는 기능에 그려진 그림을 제공하고 그림을 그리기 어려워 하는 사람들을 위해 키워드를 통해 그림을 그려주는 것을 가능하도록 하였다. 또한 감정분석 기능을 추가시켜 통계기능을 통해 자신의 과거의 감정 통계를 볼 수 있도록 하였다. A-Diary는 다른 앱에서 지원하지 않는 기능을 추가함으로써 편리성을 증대시킬 수 있고 그림을 잘 그리지 못하는 사람들도 누구든지 쉽게 그림일기를 작성할 수 있을 것이다.

비디오자료의 의미추출을 위한 영상초록의 효용성에 관한 실험적 연구 (An Experimental Study on the Effectiveness of Storyboard Surrogates in the Meanings Extraction of Digital Videos)

  • 김현희
    • 정보관리학회지
    • /
    • 제24권4호
    • /
    • pp.53-72
    • /
    • 2007
  • 본 연구에서는 12개의 표본 비디오 집단과 14명의 피조사자들을 이용하여 영상 초록 및 전체 클립 보기를 통한 색인어 및 요약문 추출의 정확도를 측정해 보았다. 측정결과 첫째, 비디오 유형에 따라 정확도가 차이가 있는 것으로 나타났으며 이는 이미지에 주로 의존하여 정보를 표출하는 비디오의 경우 텍스트 초록만으로 의미 파악을 하기에는 한계가 있으며 텍스트 초록이 영상 초록과 함께 사용되었을 때 시너지 효과를 낼 수 있음을 보여주고 있다. 둘째, 영상초록의 색인어 및 요약문 정확도가 전체 클립의 정확도 보다 떨어지지만 절반치에 근접한 것으로 나타나 영상 초록이 비디오 의미 추출에 효율적으로 활용될 수 있음을 확인하였다. 또한 영상 초록의 색인어 정확도(0.45)가 요약문 정확도(0.40) 보다더 높게 나타나 영상초록을 통해서 색인어 추출 작업을 더 효율적으로 할 수 있음을 확인할 수 있었다. 이러한 실험결과에 기초하여 영상 초록이 색인어 또는 요약문 추출 작업에 활용될 수 있을 뿐만 아니라, 디지털도서관 환경에서 텍스트 초록과 같은 다른 메타데이터 요소들과 함께 사용된다면 이용자의 적합성 판정을 좀 더 용이하게 할 것이며, 더 나아가 영상 질의의 매칭 자료로도 이용될 수 있음을 제안하였다. 끝으로 영상 초록의 품질을 높이기 위한 키프레임 추출 알고리즘 및 키프레임 배열 모형 설계 등 후속 연구에 대해서 제언하였다.

의견정보 모니터링을 위한 웹 마이닝 시스템에 관한 연구 (A Study on Web Mining System for Real-Time Monitoring of Opinion Information Based on Web 2.0)

  • 주해종;홍봉화;정복철
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권1호
    • /
    • pp.149-157
    • /
    • 2010
  • 최근에 인터넷 사용이 점차 활발해 짐에 따라, 다른 사람들이 인터넷 상에 올려놓은 의견정보를 참조하고자 하는 수요가 높아지고 있다. 하지만, 이러한인터넷상에존재하는의견들은개개의웹사이트들에만존재하여, 이러한 의견정보들을 사용하고자 할 경우에는 사용자가 일일이 이러한 개개의 모든 웹사이트를 수동으로 찾아보아야 하는 번거로움이 존재하는 문제점이 있다. 본 논문은 웹 콘텐츠에서의 통계기반 웹 마이닝(Web Mining)을 통한 의견 추출 및 분석 시스템에 관한 것으로, 인터넷 상에 존재하는 여러 웹사이트들에 흩어져 있는 웹문서에서 사용자 의견정보들을 자동으로 추출 및 분석한다. 또한, 긍정/부정 의견별로 실시간으로 검색 및 통계를 확인할 수 있는 의견정보 검색 서비스를 간편하게 제공할수 있으며, 의견정보 검색 사용자들은 특정 키워드에 대하여 다른 사용자들의 의견정보를 손쉽게 실시간으로 검색 및 모니터링(Monitoring)할 수 있는 시스템이다. 제안한 기법들은 기존의 다른 기법들과의 비교 실험을 수행하여 실제 성능이 우수함을 증명하였다. 성능 평가는 긍정/부정 의견정보를 추출하는 기능의 성능 평가를 실시하였다. 그 적용 사례로 대표적인 영화 리뷰 문장 실험 데이터를 대상으로 실험하고 그 결과를 분석하였다.

개체추출기법을 이용한 관계성 도출기법 (A Study of Relationship Derivation Technique using object extraction Technique)

  • 김종희;이은석;김정수;박종국;김종배
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 춘계학술대회
    • /
    • pp.309-311
    • /
    • 2014
  • 최근, 산재된 비정형 데이터 분석 등을 통한 빅데이터 활용에 대한 요구들이 증가하고 있으나, 아직까지 이에 대한 연구들이 부족한 실정이다. 따라서 본 연구에서는 수집된 웹 정보에서 개체들을 추출하여 이들 간의 관계를 집단지성 기술과 언어처리 기술을 통해 자동 분석해 냄으로써 문장단위의 의미기반 분석을 할 수 있는 기법을 제시한다. 이를 위해, 수집된 정보를 DBMS에 정형화된 형태로 저장한 후 형태소와 자질정보를 분석한다. 획득한 형태소 중 관심개체, 주변개체, 비관심 개체를 분류하고 개체간 속성인식기법을 이용하여 각 개체간의 관계를 정도, 범위, 성격 등으로 분석한다. 그 결과, 긍정 부정의 판단이 가능한 개체간의 관계성 도출기법을 제시함으로써, 특정 키워드를 대상으로 분석된 정보들의 연관도를 분석할 수 있었다. 이 연구를 통해, 최근 실시간 대용량 처리 시스템에 적합한 시스템을 설계하여 이를 부가가치가 높은 서비스에 적용할 수 있는 방법을 제시하였다.

  • PDF

비정형 빅데이터를 이용한 COVID-19 주요 이슈 분석 (Analysis of Major COVID-19 Issues Using Unstructured Big Data)

  • 김진솔;신동훈;김희웅
    • 지식경영연구
    • /
    • 제22권2호
    • /
    • pp.145-165
    • /
    • 2021
  • 2019년 12월 말, 전 세계를 혼란에 빠트린 코로나바이러스감염증-19(COVID-19)의 팬데믹이 시작되었다. 이러한 위기를 극복하고 피해를 최소화하기 위해 정부와 기관에서는 기존의 정책지원 효과를 극대화하고 변화하는 사회를 반영한 전방위적 대응책 마련이 필요하다. 사회적으로 부각되는 논제와 관심사항의 주제를 파악하기 위해, 본 연구는 소셜미디어의 빅데이터를 통해 코로나19와 관련된 주요 생각, 태도, 감정 등을 파악한다. 특히 정부의 대응에 관한 대중의 견해를 알기 위해 '정부 대응방향'을 기준으로 시기를 나누어 분석을 진행했다. 분석에 활용한 데이터는 네이버를 통해 2019년 12월 31일부터 2020년 12월 12일까지 수집되었다. 또한, 분석을 위해 텍스트마이닝 기법 중 TF-IDF 키워드 추출과 LDA 토픽모델링을 활용하였다. 그 결과, 8개의 코로나19 관련 주요 이슈가 도출되었으며, 이러한 이슈 사항과 주요 키워드를 기반으로 해당 분야에서의 코로나19 및 감염병 대응 정책 전략을 제시하였다. 본 연구는 코로나19 팬데믹과 같은 위기상황에 정부와 관련 기관이 국민의 필요와 요구에 따른 정확한 대응책을 마련하는 데 기초자료를 제공했다는 점에서 의의를 가진다.

사회문제 해결형 기술수요 발굴을 위한 키워드 추출 시스템 제안 (A Proposal of a Keyword Extraction System for Detecting Social Issues)

  • 정다미;김재석;김기남;허종욱;온병원;강미정
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.1-23
    • /
    • 2013
  • 융합 R&D가 추구해야 할 바람직한 방향은 이종 기술 간의 결합에 의한 맹목적인 신기술 창출이 아니라, 당면한 주요 문제를 해결함으로써 사회적 니즈를 충족시킬 수 있는 기술을 개발하는 것이다. 이와 같은 사회문제 해결형 기술 R&D를 촉진하기 위해서는 우선 우리 사회에서 주요 쟁점이 되고 있는 문제들을 선별해야 한다. 그런데 우선적이고 중요한 사회문제를 분별하기 위해 전문가 설문조사나 여론조사 등 기존의 사회과학 방법론을 사용하는 것은 참여자의 선입견이 개입될 수 있고 비용이 많이 소요된다는 한계를 지닌다. 기존의 사회과학 방법론이 지닌 문제점을 보완하기 위하여 본 논문에서는 사회적 이슈를 다루고 있는 대용량의 뉴스기사를 수집하고 통계적인 기법을 통하여 사회문제를 나타내는 키워드를 추출하는 시스템의 개발을 제안한다. 2009년부터 최근까지 3년 동안 10개 주요 언론사에서 생산한 약 백 30만 건의 뉴스기사에서 사회문제를 다루는 기사를 식별하고, 한글 형태소 분석, 확률기반의 토픽 모델링을 통해 사회문제 키워드를 추출한다. 또한 키워드만으로는 정확한 사회문제를 파악하기 쉽지 않기 때문에 사회문제와 연관된 키워드와 문장을 찾아서 연결하는 매칭 알고리즘을 제안하다. 마지막으로 사회문제 키워드 비주얼라이제이션 시스템을 통해 시계열에 따른 사회문제 키워드를 일목요연하게 보여줌으로써 사회문제를 쉽게 파악할 수 있도록 하였다. 특히 본 논문에서는 생성확률모델 기반의 새로운 매칭 알고리즘을 제안한다. 대용량 뉴스기사로부터 Latent Dirichlet Allocation(LDA)와 같은 토픽 모델 방법론을 사용하여 자동으로 토픽 클러스터 세트를 추출할 수 있다. 각 토픽 클러스터는 연관성 있는 단어들과 확률값으로 구성된다. 그리고 도메인 전문가는 토픽 클러스터를 분석하여, 각 토픽 클러스터의 레이블을 결정하게 된다. 이를 테면, 토픽 1 = {(실업, 0.4), (해고, 0.3), (회사, 0.3)}에서 토픽 단어들은 실업문제와 관련있으며, 도메인 전문가는 토픽 1을 실업문제로 레이블링 하게 되고, 이러한 토픽 레이블은 사회문제 키워드로 정의한다. 그러나 이와 같이 자동으로 생성된 사회문제 키워드를 분석하여 현재 우리 사회에서 어떤 문제가 발생하고 있고, 시급히 해결해야 될 문제가 무엇인지를 파악하기란 쉽지 않다. 따라서 제안된 매칭 알고리즘을 사용하여 사회문제 키워드를 요약(summarization)하는 방법론을 제시한다. 우선, 각 뉴스기사를 문단(paragraph) 단위로 세그먼트 하여 뉴스기사 대신에 문단 세트(A set of paragraphs)를 가지게 된다. 매칭 알고리즘은 각 토픽 클러스터에 대한 각 문단의 확률값을 측정하게된다. 이때 토픽 클러스터의 단어들과 확률값을 이용하여 토픽과 문단이 얼마나 연관성이 있는지를 계산하게 된다. 이러한 과정을 통해 각 토픽은 가장 연관성이 있는 문단들을 매칭할 수 있게 된다. 이러한 매칭 프로세스를 통해 사회문제 키워드와 연관된 문단들을 검토함으로써 실제 우리 사회에서 해당 사회문제 키워드와 관련해서 구체적으로 어떤 사건과 이슈가 발생하는 지를 쉽게 파악할 수 있게 된다. 또한 매칭 프로세스와 더불어 사회문제 키워드 가시화를 통해 사회문제 수요를 파악하려는 전문가들은 웹 브라우저를 통해 편리하게 특정 시간에 발생한 사회문제가 무엇이며, 구체적인 내용은 무엇인지를 파악할 수 있으며, 시간 순서에 따른 사회이슈의 변동 추이와 그 원인을 알 수 있게 된다. 개발된 시스템을 통해 최근 3년 동안 국내에서 발생했던 다양한 사회문제들을 파악하였고 개발된 알고리즘에 대한 평가를 수행하였다(본 논문에서 제안한 프로토타입 시스템은 http://dslab.snu.ac.kr/demo.html에서 이용 가능함. 단, 구글크롬, IE8.0 이상 웹 브라우저 사용 권장).

Analysis of Major Changes in Press Articles Related to 'High School Credit System'

  • Kwon, Choong-Hoon
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권7호
    • /
    • pp.183-191
    • /
    • 2020
  • 본 연구의 목적은 최근 교육정책 중 관심거리가 되고 있는 '고교학점제' 관련 언론사 기사들의 최근 변화(2017년~2019년: 3년간) 모습을 객관적으로 분석하여 제시하는 것이다. 주요 연구방법론은 BIGKinds 서비스의 특정 검색어 뉴스 검색, 뉴스 트렌드 분석, 키워드 추출 및 워드클라우드 구현, 네트워크 분석 및 네트워크 그림 제시 등 이었다. 연구결과는 첫째, 2017년~2019년 3년간 국내 주요 언론사에 등장한 고교학점제 관련 기사건수는 총 3,649건이며, 정부(교육부)의 관련 정책발표를 계기로 4번 정도 특정 시점에서 기사건수가 급격하게 증가하는 뉴스 트렌드를 보였다. 둘째, 분석대상 3년간의 고교학점제 관련 언론사 기사들에서 추출한 상위출현빈도 20위 키워드들을 제시하였으며, 연도별 키워드의 변화가 나타난 것을 확인하였다. 셋째, 고교학점제 관련 언론사 기사들의 연도별 네트워크는 인물, 기관, 키워드 별로 다른 모습으로 시각화하여 제시하였다. 이와 같은 연구결과는 고교학점제 교육정책이 문재인 정부의 대표적인 교육정책으로 채택되어, 정책 결정 단계를 거쳐 정책 집행 단계로 진행되고 있음을 확인해 주었다.

국내 핀테크 동향 및 모바일 결제 서비스 분석: 텍스트 마이닝 기법 활용 (Fintech Trends and Mobile Payment Service Anlaysis in Korea: Application of Text Mining Techniques)

  • 안정국;이소현;안은희;김희웅
    • 정보화정책
    • /
    • 제23권3호
    • /
    • pp.26-42
    • /
    • 2016
  • 최근 O2O 시장의 급성장과 더불어 금융과 ICT 기술이 융합된 핀테크가 "금융의 O2O"화를 이끌 혁신으로 주목 받고 있으며, 핀테크 기반의 결제, 인증, 보안 기술 및 관련 서비스가 주목 받고 있다. 핀테크와 같은 신기술 산업에는 기술적인 원천과 더불어 관련 제도 및 규제가 중요한데, 아직은 국내 핀테크 산업의 제도와 기술동향에 관한 심층적인 연구가 부족한 실정이다. 따라서 본 연구에서는 국내 핀테크 동향을 분석하고, 더 나아가 국내 대표적 모바일 결제서비스인 카카오페이와 삼성페이를 비교하여, 향후 국내 핀테크 산업의 기술과 제도의 방향성에 대한 시사점을 찾고자 한다. 본 연구는 핀테크가 언급된 트윗들을 2014년 8월부터 2016년 6월까지 전수 조사하여, 토픽 추출, 감성 분석, 키워드 네트워크 분석들을 시각화 하였다. 분석한 결과, 2014년에서 2016년 사이에 기술과 제도에서 다양한 주제들이 생성되어 왔음을 확인할 수 있었으며, 카카오톡과 같은 "서비스" 기반의 카카오페이와 갤럭시와 같은 "기기" 기반의 삼성페이의 토픽들 간에도 서로 다른 키워드들과 반응들이 추출되었다. 본 연구는 소셜미디어 마이닝을 이용하여 소셜미디어의 비정형 데이터를 기간 별로 분석하고, 감성분석을 통해 서비스에 대한 소비자들의 기대와 반응을 정량화한 것에 의의가 있다. 이를 통하여 핀테크 관련 실무자들에게 전략적 방향을 제시함으로써 핀테크 산업발전의 기반이 될 수 있을 것으로 기대한다.

과학기술 전거데이터 시스템에서의 해외 학술논문 저자 식별요소 추출 (Extraction of Author Identification Elements of Overseas Academic Papers on Authority Data System for Science and Technology)

  • 최현미;이석형;김광영;김환민
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2013년도 춘계학술대회
    • /
    • pp.711-713
    • /
    • 2013
  • 페이스북, 트위터, 등의 소셜 네트워크의 확산으로 전 세계의 다양한 인적정보를 접할 수 있다. 과학기술 분야에서도 많은 인적정보가 있지만 과학기술자 정보가 체계적으로 정리되지 않아 협력 연구 파트너, 등 업무에 적합한 연구자를 찾기 어려운 문제점이 있다. 이런 문제점을 해결하고자 학술문헌 저자를 중심으로 과학기술 전거데이터를 구축하고 있다. 이 논문에서는 1994년부터 2012년까지 수집한 해외 학술논문 저자명 전거데이터를 구축하기 위하여 수백만건의 학술논문에서 저자 식별 요소를 추출한다. 저자 식별요소는 한글, 영문, 한문(일본어 포함)을 대상으로 저자명, 소속기관명, 학술지명, 발행년도, 키워드, 공저자와 공저자 소속기관, 등이 있다. 이 언어별 식별정보를 기반으로 해외 학술논문 정보에서 저자 식별 정보를 추출하여 데이터베이스를 구축하였다. 향후, 이 추출된 정보를 기반으로 저자 식별 정보를 클러스터링하고 수정, 편집하여 연구자에 대한 학술정보 활동내역을 정리할 예정이다. 구축될 해외 학술논문 전거 데이터는 연구 협력 파트너 찾기, 과제 심사위원 추천, 등 연구자 정보의 활용도를 높여 연구자 커뮤니티를 활성화시키는데 유용하게 사용될 수 있다.

  • PDF

온라인 텍스트 분석을 통해 추정한 기업의 사회적책임 성과가 기업의 단기적 장기적 성과에 미치는 영향 분석 (Investigating the Impact of Corporate Social Responsibility on Firm's Short- and Long-Term Performance with Online Text Analytics)

  • 이희승;진윤선;권오병
    • 지능정보연구
    • /
    • 제22권2호
    • /
    • pp.13-31
    • /
    • 2016
  • 그동안 기업의 사회적 책임(CSR)관련 활동의 결과가 기업 성과에 미치는 단기적 및 장기적 영향에 대한 다양한 연구가 진행되었지만 그 결과는 일관되지 못한데 그 주된 원인은 기업의 사회적책임이라고 하는 개념의 불일치였다. 따라서 본 연구는 온라인 뉴스와 같은 비정형 공개 데이터로부터 기업의 사회적책임에 관련한 키워드를 텍스트 마이닝 기법을 사용하여 추출하고 그 개념에 대한 통계치와 기업 성과와의 관계성을 이해하려고 했다. 이를 위해 개념과 관련한 키워드는 뉴욕타임즈와 구글 스칼러에서 CSR이라고 하는 단어로 검색한 비정형 데이터로부터 인식하였다. 그런 다음 점검 대상이 되는 기업에 대한 글이 실려 있는 온라인 문서를 수집하여 기업의 사회적 책임과 기업 단기적 및 장기적 성과 사이의 인과관계를 분석하였다. 그 결과, 기업의 사회적 책임에 대한 전문적인 평가 보고서의 도움 없이도 본 연구에서 개발한 기업의 사회적 책임 인덱스만으로 기업의 단기적 성과에는 영향이 없지만 장기적 성과와는 통계적으로 유의하게 정비례관계가 있는 것이 밝혀졌다. 본 연구는 빅데이터 분석을 통해 효율적이고 의미 있는 기업의 사회적 책임 평가 방법을 개발한 첫 번째 시도라는 의미가 있다.