• 제목/요약/키워드: 단어빈도

검색결과 542건 처리시간 0.022초

빅데이터 환경에서 텍스트마이닝 기법을 활용한 공공문서 분류체계의 적용사례 연구 (Case Study on Public Document Classification System That Utilizes Text-Mining Technique in BigData Environment)

  • 심장섭;이강욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 추계학술대회
    • /
    • pp.1085-1089
    • /
    • 2015
  • 과거의 텍스트마이닝기법은 텍스트 자체의 복잡성과 텍스트 내에 산재한 변수의 자유도 때문에 분석 알고리즘을 구현하는데 어려움이 있었다. 의미 있는 정보를 얻기 위하여 어렵게 알고리즘을 구현했다고 하더라도, 기계적으로 텍스트 분석에 소요되는 시간이 텍스트를 사람이 직접 읽어 분석 하는 것보다 많은 시간이 요구 되었다. 그러나 최근 하드웨어와 분석 알고리즘의 발전과 함께 빅데이터라는 기술이 등장하였으며, 앞에서 설명한 제약사항을 극복할 수 있게 되었고, 텍스트마이닝을 통한 분석이 현실세계에서 그 가치를 충분히 인정받고 있다. 만약, 텍스트의 탐색 수준에서 벗어나 마이닝을 통하여 분석이 가능하다면 텍스트 분석에 소비되는 인적, 물적 자원의 비용을 절감할 수 있기 때문에 공공분야에서 절실히 요구되는 창조적인 일에 더 많은 자원을 효과적으로 활용할 수 있을 것이다. 이에 본 논문에서는 인적 자원이 수작업으로 하는 공공분야 문서 분류의 결과값과 빅데이터 환경에서 텍스트마이닝기반의 문서내 단어 빈도수(TF-IDF)와 문서간 코사인 유사도(Cosine Similarity)를 활용한 공공분야 문서분류의 결과값을 비교하여 평가한다.

  • PDF

네트워크 분석을 통한 국내 융합기술 연구동향 분석 (An Analysis on the Trends and Issues of Convergence Technology Research)

  • 임정연
    • 사물인터넷융복합논문지
    • /
    • 제4권1호
    • /
    • pp.23-29
    • /
    • 2018
  • 본 연구는 국내 융합기술 관련 연구물의 네트워크 분석을 통해 연구동향을 파악하고, 연구특성과 구조, 현황을 분석하는데 목적이 있다. 이를 위해 지난 13년(2005년~2018년)동안 연구명에 '융합기술' 단어를 사용한 학술지 177편의 저자키워드 653개에 대한 네트워크 분석을 실시하였다. 연구결과는 다음과 같다. 첫째, 국내 융합기술 연구는 지난 13년 동안 꾸준히 수행되어 왔으며 주로 융합, 디지털, 기술, 예술디자인 분야에서 활발히 이루어졌다. 둘째, 검색어 빈도분석 결과, '융합기술', '기술융합', '융합', '디자인', '융합교육', 'STEAM', '융합연구', '4차 산업혁명', '특허분석' 등이 융합기술의 주요 키워드로 사용되었다. 셋째, 커뮤니티 분석결과, 5개의 커뮤니티가 분류되었고, 검색어의 특성을 반영해 '나홀로 IT', '융합콘텐츠를 활용한 문화산업', '기술혁신과 연구분석', '융합교육', '기술융합과 특허개발'의 주제가 도출되었다. 이러한 연구결과를 통해 미래사회 융합기술교육 연구의 과제와 방향을 제안하였다.

키워드 네트워크 분석 방법을 활용한 블록체인 트렌드 분석에 관한 연구 (A Study on Analysis of the Trend of Blockchain by Key Words Network Analysis)

  • 조성환
    • 한국정보전자통신기술학회논문지
    • /
    • 제11권5호
    • /
    • pp.550-555
    • /
    • 2018
  • 본 연구는 키워드 네트워크 분석에 사용되는 텍스트마이닝과 의미연결망 분석 방법을 활용하여 블록체인의 산업 활용 분야로 언론 및 정부 발표에서 언급되고 있는 '금융', '에너지', '물류'를 언급한 기사들을 비교 분석하였다. 블록체인 적용이 언급된 산업 분야별로 기사의 내용 및 키워드의 차이를 파악하고 비교 분석하는 것을 목적으로 하였다. 2017년 1월부터 2018년 7월까지 언론에서 보도한 총 43,093건의 기사를 Python BeautifulSoup을 이용하여 네이버 뉴스에서 수집하였고, 세 용어의 상호 중복을 제거하기 위한 정제 작업을 수행하였다. 이후 키워드 간 네트워크 분석을 위해 텍스톰(Textom)과 UCINET을 이용하여 세 용어에 대한 텍스트마이닝과 의미연결망 분석을 진행하였다. 분석 결과, 세 용어는 모두 '기술' 측면에서는 유사한 단어들이 있었으나, '정부 정책'이나 '산업'측면의 이슈 등에서 내용적 차이가 있었다. 또한 빈도 및 중심성에 있어서도 차이가 있음을 확인할 수 있었다.

중증 언어장애인을 위한 의사소통 시스템 (Communication Support System for Person with Language Disabilities)

  • 홍승욱;박수현
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2006년도 춘계종합학술대회
    • /
    • pp.324-327
    • /
    • 2006
  • 언어 장애를 가진 사람들 중에서는 언어 장애와 더불어 신체적인 장애를 동반하는 경우도 있다. 특히, 루게릭병이라 불리는 ALS병을 가진 사람들의 경우는 시간이 지날수록 장애의 정도가 변하여, 간병인 혹은 주변의 가족들과의 의사소통이 되었던 사람들도 간단한 의사소통도 어려운 상황이 되는 것이 보편적인 경우이다. 따라서 본 연구개발에서는 루게릭병으로 의사소통이 어려운 분들을 대상으로 의사소통할 수 있는 시스템을 설계 및 구현하였다. 본 시스템은 이러한 사람들의 원활한 의사소통을 위한 것으로, 사용빈도가 높은 단어들을 미리 입력해두고 선택함으로써 의사를 전달하거나, 화상키보드를 통해 확장된 언어를 구현할 수 있도록 한다. 또한 신체의 불편함으로 인해 기존 입력인터페이스를 사용하지 못할 경우를 대비하여 마우스의 클릭이라는 간단한 입력만으로 화면의 내용을 선택할 수 있도록 하였다. 마지막으로 본 논문에서는 이러한 기능들의 구현 및 그 방법에 대해 논해보고, 향후 발전될 방향을 살펴보았다.

  • PDF

도메인 온톨로지를 이용한 검색 시스템 설계 및 구현 (Design and Implementation of Search System Using Domain Ontology)

  • 강래구;정채영
    • 한국정보통신학회논문지
    • /
    • 제11권7호
    • /
    • pp.1318-1324
    • /
    • 2007
  • 지금까지의 상품 검색 방법으로는 찾고자하는 정보를 검색할 때 주로 단어의 빈도수나 어휘 정보를 이용하는 키워드 기반의 검색이 주로 쓰이고 있었다. 키워드 기반의 검색에서는 사용자의 질의와 관련이 없는 문서들까지도 같은 결과로 나타내 주고 이로 인해 사용자는 제시된 결과를 한번 더 수동적으로 검색해야하는 부담을 않게 되었다. 이러한 문제점을 해결하기 위해 온톨로지가 대두되었다. 본 논문에서는 온톨로지를 이용한 상품 검색 시스템을 직접 구축하여 분류별 검색을 통해 얼마나 정확한 검색을 하는지 실험하였다. 실험을 위해 전국적으로 On/Off라인 할인점을 운영 중에 있는 A할인점의 상품 데이터 약 40,000여개를 데이터 베이스로 구축하였고 User Interface 개발환경은 JSP와 PowerBuilder9.0을 사용하여 검색 시스템을 개발하여 실험하였다. 그 결과 본 논문에서 제안하고 설계한 상품 도메인 온톨로지를 이용한 검색 방법이 기존의 기반의 검색 방법보다 우수한 결과를 나타내고 있음을 입증하였다.

토픽 모델링 분석을 통한 수학교육 연구 주제 분석 (Analysis of trends in mathematics education research using text mining)

  • 진미르;고호경
    • 한국수학교육학회지시리즈E:수학교육논문집
    • /
    • 제33권3호
    • /
    • pp.275-294
    • /
    • 2019
  • 본 연구는 최근 수학교육 연구 논문들의 연구 동향을 파악하기 위하여 2016년 이후의 수학교육 학술지 논문들을 대상으로 텍스트마이닝 기법 중 토픽 모델링과 트랜드 분석 기법을 활용하여 분석을 실시하였다. 분석 결과 빈도수가 높은 단어들을 조합하여 5개의 토픽을 추출하였으며 이를 통해 최근 활발히 이루어지고 있는 수학교육 연구 주제들을 파악할 수 있었다. 이는 다시 기 수행된 동향 연구들과 차이점과 유사한 점들을 도출할 수 있었는데, 이와 같은 동향 분석을 통해 최근 연구자들이 수학교육 연구에서 중요시 여기는 관점을 읽어 나감과 동시에 향후 주목하여야할 연구 주제 및 방향에 대한 시사점을 제공한다.

저소득층 대학생들의 진로준비과정에서의 성별·전공별 특성에 대한 사례연구: 텍스트 빈도분석과 연관분석의 적용 (A Case Study on Characteristics of Gender and Major in Career Preparation of University Students from Low-income Families: Application of Text Frequency Analysis and Association Rules)

  • 이지혜;이신혜
    • 디지털융복합연구
    • /
    • 제16권12호
    • /
    • pp.61-69
    • /
    • 2018
  • 이 연구는 청년들의 높은 비정규직 비율과 계층 양극화의 우려 속에서 저소득층 대학생의 진로준비과정에 대해 이해하고 시사점을 구하기 위한 것이다. 이를 위하여 S 장학재단에서 장학금 지원을 받는 13명의 대학생들을 연구 대상으로 선정하였고, 6회의 인터뷰를 진행하여 그 축어록을 바탕으로 텍스트마이닝 기법을 활용한 분석을 실시하였다. 분석 결과, 대학생들은 인터뷰 과정에서 이전의 학업 경험을 회상하거나 진로를 설계할 때, 가정환경과 소득수준의 영향을 받는 것으로 보이며, 이러한 차이는 성별, 전공별로 다른 특성이 있는 것으로 나타났다. 이 연구는 질적 연구 방법으로 축적된 자료에 텍스트마이닝 기법을 융합적으로 적용하여 분석한 연구로 종래의 진로연구에 비하여 방법론적 확장을 시도했다는 의의를 갖고 있다. 그 결과, 저소득층 대학교 장학생들의 성별 및 전공별 진로준비과정의 차이를 대학생활 및 진로준비와 관련된 단어들의 관계를 통해 탐색적으로 살펴볼 수 있었다.

언어 분석 자질을 활용한 인공신경망 기반의 단일 문서 추출 요약 (Single Document Extractive Summarization Based on Deep Neural Networks Using Linguistic Analysis Features)

  • 이경호;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권8호
    • /
    • pp.343-348
    • /
    • 2019
  • 최근의 문서요약 시스템은 인공신경망을 이용한 End-to-End 방식이 주류를 이루고 있다. 이러한 시스템은 인간의 자질 추출 과정이 필요 없으며 데이터 중심의 접근 방법을 채택한다. 그러나 기존의 관련 연구들은 품사 정보, 개체명 정보, 단어의 빈도 정보와 같은 언어 분석 자질이 중요 문장을 선택하여 요약을 작성하는데 유용함을 보여왔다. 본 연구에서는 기존의 언어 분석 자질을 활용하여 인공신경망을 기반으로 한 단일 문서의 추출 요약 시스템을 제안한다. 언어 분석 자질의 유용성을 보이기 위해 자질을 사용하는 모델과 사용하지 않는 모델을 비교하였다. 실험 결과 자질을 사용하는 모델이 그렇지 않은 모델에 비해 약 0.5점의 Rouge-2 F1점수 향상을 보였다.

사용자 개인 프로파일을 이용한 개인화 검색 기법 (Personalized Search Technique using Users' Personal Profiles)

  • 윤성희
    • 한국전자통신학회논문지
    • /
    • 제14권3호
    • /
    • pp.587-594
    • /
    • 2019
  • 본 논문은 사용자의 검색 의도와 개별 관심을 반영한 순위화된 검색 결과 문서를 제공하는 개인화 검색 기법을 제안한다. 개인화 검색에서는 사용자의 개별 관심사와 선호도를 정확하게 판별하기 위한 사용자 프로파일을 생성하는 기술이 개인화 검색의 성능을 좌우한다. 개인 프로파일은 사용자의 최근 입력 질의어들과 검색과정에서 참조했던 문서들에 나타나는 주제어들의 가중치와 빈도가 기록된 데이터 집합이다. 사용자 프로파일은 웹 검색에 앞서 사용자의 입력 질의어를 개인화된 질의어들로 확장하기 위해 사용된다. 중의적 질의어의 정확한 의미를 결정하기 위해서 워드넷을 사용하여 프로파일에 등록된 단어들과 의미 유사도를 계산한다. 검색 시스템의 사용자 측에 질의확장 모듈과 순위 재계산 모듈을 확장모듈로 구축하여 진행한 실험에서 개인화 검색 기술을 적용한 실험 결과가 상위문서들에 대해서 정확률과 재현률이 크게 향상된 성능을 보이고 있다.

인플루언서 속성 분석 기반 추천 시스템 (Influencer Attribute Analysis based Recommendation System)

  • 박정련;박지원;김민우;오하영
    • 한국정보통신학회논문지
    • /
    • 제23권11호
    • /
    • pp.1321-1329
    • /
    • 2019
  • 소셜 정보망의 발달로 마케팅의 방법도 다양하게 변화되고 있다. 기존의 유명인, 경제적 지원 기반의 성공적인 마케팅방법론과 달리, 최근 인플루언서 기반 유튜브 마케팅이 큰 대세를 이루고 있다. 본 논문 에서는 처음으로 유튜브 양적 정보 및 댓글분석 기반 다각도 질적 분석을 활용하여 54개 이상의 유튜브 채널에서 인플루언서 특징을 추출하고 대표적인 주제들을 모델링하여 개인 맞춤형 영상 만족도 극대화는 물론 기업체가 새로운 아이템을 마케팅 할 때 기존의 인플루언서 특징을 참고하여 새로운 아이템의 영상을 제작하고 배포함으로써 성공적인 홍보 효과를 누릴 수 있도록 보조 수단 제공을 목적으로 한다. 유튜브 채널 별 다양한 영상의 모든 댓글을 각 문서로 가정하고 TF-IDF 및 LDA알고리즘을 적용하여 성능 극대화 향상을 보였다.