• 제목/요약/키워드: 텍스트 출현 빈도

검색결과 102건 처리시간 0.023초

텍스트마이닝을 활용한 건설실무정보의 특성 분석 - 건설기술, 사례, 원가절감 등 정보를 중심으로 - (Analysis on the Characteristics of Construction Practice Information Using Text Mining: Focusing on Information Such as Construction Technology, Cases, and Cost Reduction)

  • 정성윤;김진욱
    • 한국문헌정보학회지
    • /
    • 제56권4호
    • /
    • pp.205-222
    • /
    • 2022
  • 본 연구는 전문지식을 갖지 않은 건설기술자와 건설사업 참여자가 건설 실무에서 중요도가 높은 단어와 단어 간의 상호 연관관계를 쉽게 이해할 수 있도록 정보서비스를 개선하고자 하였다. 이를 위해 텍스트마이닝과 네트워크 중심성을 이용하여 건설기술정보시스템에서 가장 많이 사용하고 있는 기술정보, 사례정보 및 원가절감 등 건설실무정보에 대해 단어의 출현 빈도, 주제 모형화, 네트워크 중심성을 분석하였다. 이러한 분석을 통해 도로, 포장, 교량, 터널 등 도로공사와 관련한 설계, 시공, 사업관리, 시방·기준, 유지관리 등이 건설 실무에서 중요한 정보로 파악되었다. 또한, 연결 중심성과 고유벡터 중심성 측정을 통해 중요도가 높은 단어 간의 상관도를 분석하였다. 상관도 분석을 통해 기술정보를 확충한다면 보다 유용한 정보를 제공할 수 있다는 결과를 얻었다. 끝으로, 연구 결과가 갖는 제약과 이에 따른 추가적인 연구를 제시하였다.

Analysis of Work-Related Musculoskeletal Disorders Research Trends Using Keyword Frequency Analysis and CONCOR Technique

  • Geon-Hui Lee;Seo-Yeon Choi
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권8호
    • /
    • pp.137-144
    • /
    • 2023
  • 사회문제를 해결하는 방법들 중 하나로 활용성이 제시되고 있는 빅데이터 분석기법을 이용하여 작업관련성 근골격계질환에 관한 연구동향을 분석하고자 키워드 네트워크 분석 기법과 CONCOR 분석기법을 적용하여 본 연구를 진행하였다. 본 연구에서 도출한 연구결과는 첫째, 작업관련성 근골격계질환 논문 수는 근골격계 유해요인조사가 실시된 2003년 이후 20년간 연평균 33편 이상 게재되었으며 2007~2009년 게재 비율이 증가하였다. 둘째, 텍스트 마이닝을 이용하여 출현된 상위 키워드의 빈도는 작업(4,940), 근골격계질환(2,197), 증상(1,836), 관련(1,769), 근골격계(1,421) 등의 순으로 나타났다. 셋째, CONCOR 분석결과 '근골격계질환 치료', '안전보건관리', '근로환경조사', '작업환경측정' 4개의 군집으로 나뉘었다. 본 연구가 근골격계질환 연구의 발전방안을 위한 세부적인 연구로서 다양한 방향으로 모색하는데 활용되기를 기대한다.

딥러닝 기반의 뉴스 분석을 활용한 주제별 최신 연관단어 추출 기법 (A Topic Related Word Extraction Method Using Deep Learning Based News Analysis)

  • 김성진;김건우;이동호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.873-876
    • /
    • 2017
  • 최근 정보검색의 효율성을 위해 데이터를 분석하여 해당 데이터를 가장 잘 나타내는 연관단어를 추출 및 추천하는 연구가 활발히 이루어지고 있다. 현재 관련 연구들은 출현 빈도수를 사용하는 방법이나 LDA와 같은 기계학습 기법을 활용해 데이터를 분석하여 연관단어를 생성하는 방법을 제안하고 있다. 기계학습 기법은 결과 값을 찾는데 사용되는 특징들을 전문가가 직접 설계해야 하며 좋은 결과를 내는 적절한 특징을 찾을 때까지 많은 시간이 필요하다. 또한, 파라미터들을 직접 설정해야 하므로 많은 시간과 노력을 필요로 한다는 단점을 지닌다. 이러한 기계학습 기법의 단점을 극복하기 위해 인공신경망을 다층구조로 배치하여 데이터를 분석하는 딥러닝이 최근 각광받고 있다. 본 논문에서는 기존 기계학습 기법을 사용하는 연관단어 추출연구의 한계점을 극복하기 위해 딥러닝을 활용한다. 먼저, 인공신경망 기반 단어 벡터 생성기인 Word2Vec를 사용하여 다양한 텍스트 데이터들을 학습하고 룩업 테이블을 생성한다. 그 후, 생성된 룩업 테이블을 바탕으로 인공신경망의 한 종류인 합성곱 신경망을 활용하여 사용자가 입력한 주제어와 관련된 최근 뉴스데이터를 분석한 후, 주제별 최신 연관단어를 추출하는 시스템을 제안한다. 또한 제안한 시스템을 통해 생성된 연관단어의 정확률을 측정하여 성능을 평가하였다.

워드넷 신셋에 대한 사건구조 프레임 반자동 태깅 (Semi-automatic Event Structure Frame tagging of WordNet Synset)

  • 임서현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.101-105
    • /
    • 2018
  • 이 논문은 가장 잘 알려진 어휘부중 하나인 워드넷의 활용 범위 확장을 위해 워드넷 신셋에 "사건구조 프레임(Event Structure Frame)"을 주석하는 연구에 관한 것이다. 워드넷을 비롯하여 현재 사용되고 있는 어휘부는 풍부한 어휘의미정보가 구조화되어 있지만, 사건구조에 관한 정보를 포함하고 있지는 않다. 이 연구의 가장 큰 기여는 워드넷에 사건구조 프레임을 추가함으로써 워드넷과의 연결만으로 핵심적인 어휘의미정보를 모두 추출할 수 있도록 해준다는 점이다. 예를 들어 텍스트 추론, 자연어처리, 멀티 모달 태스크 등은 어휘의미정보와 배경지식(상식)을 이용하여 태스크를 수행한다. 워드넷에 대한 사건구조 주석은 자동사건구조 주석 시스템인 GESL을 이용하여 워드넷 신셋에 있는 예문에 먼저 자동 주석을 하고, 오류에 대해 수동 수정을 하는 반자동 방식이다. 사전 정의된 23개의 사건구조 프레임에 따라 예문에 출현하는 타겟 동사를 분류하고, 해당 프레임과 매핑한다. 현재 이 연구는 시작 단계이며, 이 논문에서는 빈도 순위가 가장 높은 100개의 동사와 각 사건구조 프레임별 대표 동사를 포함하여 총 106개의 동사 레마에 대해 실험을 진행하였다. 그 동사들에 대한 전체 워드넷 신셋의 수는 1337개이다. 예문이 없어서 GESL이 적용될 수 없는 신셋을 제외하면 1112개 신셋이다. 이 신셋들에 대해 GESL을 적용한 결과 F-Measure는 73.5%이다. 향후 연구에서는 워드넷-사건구조 링크를 계속 업데이트하면서 딥러닝을 이용해 GESL 성능을 향상 할 수 있는 방법을 모색할 것이다.

  • PDF

위키피디아를 이용한 분류자질 선정에 관한 연구 (An Experimental Study on Feature Selection Using Wikipedia for Text Categorization)

  • 김용환;정영미
    • 정보관리학회지
    • /
    • 제29권2호
    • /
    • pp.155-171
    • /
    • 2012
  • 텍스트 범주화에 있어서 일반적인 문제는 문헌을 표현하는 핵심적인 용어라도 학습문헌 집합에 나타나지 않으면 이 용어는 분류자질로 선정되지 않는다는 것과 형태가 다른 동의어들은 서로 다른 자질로 사용된다는 점이다. 이 연구에서는 위키피디아를 활용하여 문헌에 나타나는 동의어들을 하나의 분류자질로 변환하고, 학습문헌 집합에 출현하지 않은 입력문헌의 용어를 가장 유사한 학습문헌의 용어로 대체함으로써 범주화 성능을 향상시키고자 하였다. 분류자질 선정 실험에서는 (1) 비학습용어 추출 시 범주 정보의 사용여부, (2) 용어의 유사도 측정 방법(위키피디아 문서의 제목과 본문, 카테고리 정보, 링크 정보), (3) 유사도 척도(단순 공기빈도, 정규화된 공기빈도) 등 세 가지 조건을 결합하여 실험을 수행하였다. 비학습용어를 유사도 임계치 이상의 최고 유사도를 갖는 학습용어로 대체하여 kNN 분류기로 분류할 경우 모든 조건 결합에서 범주화 성능이 0.35%~1.85% 향상되었다. 실험 결과 범주화 성능이 크게 향상되지는 못하였지만 위키피디아를 활용하여 분류자질을 선정하는 방법이 효과적인 것으로 확인되었다.

키워드 네트워크 분석을 통한 『한국초등수학교육학회지』 연구의 동향 분석 (A Study on the Research Trends of 『Journal of Elementary Mathematics Education in Korea』 through a Keyword Network Analysis)

  • 문소영;조진석
    • 한국초등수학교육학회지
    • /
    • 제23권4호
    • /
    • pp.459-479
    • /
    • 2019
  • 본 연구에서는 키워드 네트워크를 통해 국내 초등수학교육 분야의 대표적인 학술지인 『한국초등수학교육학회지』에 수록된 논문의 키워드를 대상으로 본 학술지의 연구 동향을 살펴보았다. 자료수집은 창간호부터 2018년까지 총 378편의 논문을 대상으로 하였으며, 논문에 포함된 총 1140개의 키워드들에 대하여 Krkwic 프로그램과 NodeXL 프로그램을 활용하여 빈도 분석 및 키워드 네트워크 분석을 실시하였다. 연구 결과 첫째, 빈도분석 결과 최소 5회 이상 출현하여 나타난 키워드는 48개로 수학과교육과정, 수학교과서, 학교수학, 수학문제해결, 수학영재 등이 있었다. 둘째, 키워드 네트워크 분석 결과에서 중요성이 높게 나타난 키워드는 수학교과서, 학교수학, 수학과교육과정, 수학문제해결, 수학적의사소통 등이 나타났다. 이러한 연구 결과를 바탕으로 본 학술지의 연구의 주요한 연구 주제어를 파악하고 연구 동향을 논의하였으며 연구의 제한점을 바탕으로 제언을 할 수 있었다.

  • PDF

패션 트렌드의 주기적 순환성에 관한 빅데이터 융합 분석 (The Analysis of Fashion Trend Cycle using Big Data)

  • 김기현;변혜원
    • 한국융합학회논문지
    • /
    • 제11권12호
    • /
    • pp.113-123
    • /
    • 2020
  • 본 논문은 과거와 현재의 패션 트렌드와 패션 유행 주기에 관한 빅데이터 분석을 실시하였다. 패션 전문가나 패션쇼가 아닌 일반 사람들의 데일리룩을 위한 패션 트렌드를 분석하는데 집중하였다. 소셜 매트릭스 도구인 텍스톰을 활용하여 빈도수 분석, N-gram 분석, 네트워크 분석 및 구조적 등위성 분석을 수행하였다. 분석 결과, 첫째, 패션 전문가가 아닌 일반 사람들의 데일리 룩을 대상으로 과거(1980년대, 1990년대)와 현재(2019년, 2020년)의 패션 키워드를 도출하였다. 둘째, 과거의 패션이 현재의 패션으로 재현되는 순환성과 순환 주기가 30-40년 정도로 짧아졌음을 빅데이터 분석을 통해 과학적으로 검증하였다. 셋째, 도출된 패션 키워드들의 구조적 등위성 분석을 수행한 결과, 과거 패션에서는 청바지 패션, 레트로 코디, 애슬레저룩, 연예인 복고패션의 4개의 군집으로, 현재 패션에서는 레트로 청바지, 뉴트로, 레이디 쉬크, 레트로 퓨처리즘의 4개의 군집을 확인하였다. 넷째, 과거의 패션이 현재의 패션으로 재현되고 진화하는 네트워크 연결 관계를 확인하고 그 배경에 관한 이슈를 고찰하였다. 이와 같은 연구결과는 과거와 현재의 패션 키워드를 도출하고 이로부터 패션 유행의 순환 주기를 확인함으로써 과거를 통해 미래 패션을 예측하도록 하는데 의의가 있다.

초등지리 교육과정에 반영된 세계시민교육 관련 요소의 구조적 특성에 관한 연구: 2009 개정 교육과정 성취기준에 대한 내용분석을 중심으로 (Global Citizenship Education in the Primary Geography Curriculum of the Republic of Korea: Content Analysis Focusing on the Semantic Structure of 2009 Revised School Curriculum)

  • 이동민
    • 대한지리학회지
    • /
    • 제49권6호
    • /
    • pp.949-969
    • /
    • 2014
  • 본 연구의 목적은 현행 2009 개정 초등사회과 지리영역 교육과정에 반영된 세계시민교육 관련 요소의 구조적 특성을 분석하는데 있다. 분석대상으로는 세계에 관한 부분을 다룬 5~6학년군 지리영역 교육과정의 성취기준을 선정하였으며, 한글 텍스트의 내용분석을 위한 소프트웨어인 KrKwic 및 의미연결망 분석도구인 UciNet/NetDraw를 활용하여 관련 개념의 출현빈도 및 의미연결망, 연결중심성을 분석하였다. 분석 결과 2009 개정 초등사회과 지리영역 교육과정은 세계시민성 함양 등 세계시민교육의 이상과 요소를 반영하고는 있지만, 교육과정상의 세계에 대한 단원들은 세계나 세계공동체 등 세계시민교육 관련 요소보다는 주로 국가를 중심으로 구성되는 특성을 보이고 있었다. 세계시민교육 관련 요소는 교육과정 성취기준상에서의 출현빈도가 낮았을 뿐만 아니라, 세계와 관련된 주요 개념들과 밀접한 관계를 맺지 못한채 사실상 고립되다시피한 특성을 나타내었다. 이로 인해 환경 및 지속가능개발, 갈등, 협력 등 세계시민교육적으로 접근할 필요성이 높은 개념들 역시 세계시민교육적인 관점과 연결될 수 있는 가능성이 제한될 수 있다는 문제점도 지적된다. 세계화 시대에는 국가도 중요한 역할을 하지만, 기존의 국가 경계가 투과적인 형태로 변화하고 국경을 넘어선 세계공동체적 관점이 중요시되는만큼 지리교육 역시 이러한 현실을 감안하여 세계시민교육적 요소를 보다 적극적으로 반영할 필요성이 제기된다. 이러한 논의를 향후 교육과정 개정에 반영함으로써, 국가뿐만 아니라 세계공동체 또한 중요시되는 세계화 시대에 보다 높은 적합성을 갖는 교육과정을 구성할 수 있으리라고 기대된다.

  • PDF

비정형 빅데이터를 이용한 치면열구전색(치아홈메우기)에 대한 인식분석 (A Study on the Perception of Pit and Fissure Sealant using Unstructured Big Data)

  • 조한아
    • 대한치위생과학회지
    • /
    • 제6권2호
    • /
    • pp.101-114
    • /
    • 2023
  • 연구배경: 본 연구는 치면열구전색(치아홈메우기)에 대한 전반적인 인식을 살펴봄으로써 현재 정체되어 있는 치면열구전색의 활성화를 위한 방안을 제시하고자 수행되었다. 연구방법: 치면열구전색 보장성 정책의 변화에 따른 사회적 인식을 확인하고자 5개 차수로 시기를 분류하였다. 1차시기(2009.12.1.~2010.11.30.), 2차시기(2010.12.1.~2012.9.30.), 3차시기(2012.10.1.~2013.5.5.), 4차시기(2013.5.6.~2017.9.30.), 5차시기(2017.10.1.~2022.12.31.)로 각각 설정하였다. 비정형 빅데이터 분석방법인 텍스트마이닝 분석방법을 활용하였다. 텍스톰을 사용하여 키워드를 수집 및 분석하였으며, 상위 키워드 30개의 빈도수, 의미 연결망의 구조적 특징, 중심성 분석, QAP 상관분석 및 동시출현 단어분석을 실시하였다. 연구결과: 빈도분석 결과 시기별로 상위권에 속한 키워드는 '충치', '치료', '어린이' 등이 공통적으로 나타났다. 치면열구전색의 시기별 의미연결망 구조적 특징에서 밀도지수는 모든 시기별 약 1.00으로 확인되었다. QAP 상관분석결과 1차시기와 2차시기, 4차시기와 5차시기의 상관계수가 0.834로 가장 높은 상관을 보였다. 동시출현 단어분석결과 모든 시기에 걸쳐 '충치'와 '예방'이 1위로 나타났다. 결론: 본 연구를 통해 치면열구전색은 충치예방을 위한 술식과 예방치료로써 사회적 인식이 잘 형성되었음을 알 수 있었다. 그러나 보건교육에 대한 인식은 낮았다. 정체된 치면열구전색을 활성화하기 위해서는 효과적인 교육을 강화해 나가야 하는 노력이 필요하겠다.

완전성과 간결성을 고려한 텍스트 요약 품질의 자동 평가 기법 (Automatic Quality Evaluation with Completeness and Succinctness for Text Summarization)

  • 고은정;김남규
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.125-148
    • /
    • 2018
  • 다양한 스마트 기기 및 관련 서비스의 증가에 따라 텍스트 데이터가 폭발적으로 증가하고 있으며, 이로 인해 방대한 문서로부터 필요한 정보만을 추려내는 작업은 더욱 어려워졌다. 따라서 텍스트 데이터로부터 핵심 내용을 자동으로 요약하여 제공할 수 있는 텍스트 자동 요약 기술이 최근 더욱 주목을 받고 있다. 텍스트 요약 기술은 뉴스 요약 서비스, 개인정보 약관 요약 서비스 등을 통해 현업에서도 이미 활발하게 적용되고 있으며, 학계에서도 문서의 주요 요소를 선별하여 제공하는 추출(Extraction) 접근법과 문서의 요소를 발췌한 뒤 이를 조합하여 새로운 문장을 구성하는 생성(Abstraction) 접근법에 따라 많은 연구가 이루어지고 있다. 하지만 문서의 자동 요약 기술에 비해, 자동으로 요약된 문서의 품질을 평가하는 기술은 상대적으로 많은 진전을 이루지 못하였다. 요약문의 품질 평가를 다룬 기존의 대부분의 연구들은 사람이 수작업으로 요약문을 작성하여 이를 기준 문서(Reference Document)로 삼고, 자동 요약문과 기준 문서와의 유사도를 측정하는 방식으로 수행되었다. 하지만 이러한 방식은 기준 문서의 작성 과정에 막대한 시간과 비용이 소요될 뿐 아니라 요약자의 주관에 의해 평가 결과가 다르게 나타날 수 있다는 한계를 갖는다. 한편 이러한 한계를 극복하기 위한 연구도 일부 수행되었는데, 대표적으로 전문에 대해 차원 축소를 수행하고 이렇게 축소된 전문과 자동 요약문의 유사도를 측정하는 기법이 최근 고안된 바 있다. 이 방식은 원문에서 출현 빈도가 높은 어휘가 요약문에 많이 나타날수록 해당 요약문의 품질이 우수한 것으로 평가하게 된다. 하지만 요약이란 본질적으로 많은 내용을 줄여서 표현하면서도 내용의 누락을 최소화하는 것을 의미하므로, 단순히 빈도수에 기반한 "좋은 요약"이 항상 본질적 의미에서의 "좋은 요약"을 의미한다고 보는 것은 무리가 있다. 요약문 품질 평가의 이러한 기존 연구의 한계를 극복하기 위해, 본 연구에서는 요약의 본질에 기반한 자동 품질 평가 방안을 제안한다. 구체적으로 요약문의 문장 중 서로 중복되는 내용이 얼마나 적은지를 나타내는 요소로 간결성(Succinctness) 개념을 정의하고, 원문의 내용 중 요약문에 포함되지 않은 내용이 얼마나 적은지를 나타내는 요소로 완전성(Completeness)을 정의한다. 본 연구에서는 간결성과 완전성의 개념을 적용한 요약문 품질 자동 평가 방법론을 제안하고, 이를 TripAdvisor 사이트 호텔 리뷰의 요약 및 평가에 적용한 실험 결과를 소개한다.