• 제목/요약/키워드: 키워드 추출 방법

검색결과 355건 처리시간 0.022초

공문서의 기계가독형(Machine Readable) 전환 방법 제언 (Suggestions on how to convert official documents to Machine Readable)

  • 임진희
    • 기록학연구
    • /
    • 제67호
    • /
    • pp.99-138
    • /
    • 2021
  • 빅데이터 시대에 정형데이터 뿐만 아니라 비정형데이터를 분석하는 것이 중요한 과제로 대두되고 있다. 정부기관이 생산하는 공문서도 텍스트 기반의 대형 비정형데이터로 빅데이터 분석의 대상이 된다. 기관 내부의 업무효율, 지식관리, 기록관리 등의 관점에서 공문서 빅데이터를 분석하여 유용한 시사점을 도출해 나가야 할 것이다. 그러나, 현재 공공기관이 보유 중인 공문서의 상당수가 개방포맷이 아니어서 빅데이터 분석을 하려면 비트스트림에서 텍스트를 추출하는 전처리 과정이 요구된다. 또한, 문서파일 내에 맥락 메타데이터가 충분히 저장되어 있지 못하여 품질 높은 분석을 하려면 별도의 메타데이터 확보 노력이 필요하다. 결론적으로 현재의 공문서는 기계가독(machine readable) 수준이 낮아 빅데이터 분석에 비용이 많이 들게 된다. 이 연구에서는 향후 공문서가 기계가독 수준을 높이기 위해서는 공문서의 개방포맷화, 기안문 서식의 표준태그화, 자기 기술(self-descriptive) 메타데이터 확보, 문서 텍스트 태깅 등이 선행될 필요가 있다는 점을 제안한다. 첫째, 문서가 스스로를 설명하기 위해 추가되어야 하는 메타데이터 항목들을 제시하고 이 메타데이터들이 기계가독형이 되도록 문서파일에 저장하는 방법을 제안한다. 둘째, 문서 내용 분석 시 자연어 처리에만 의존하지 않고 행정 맥락에 따라 중요한 키워드를 미리 국제표준 태그로 마킹하여 기계가독형이 되도록 하는 방안을 제안한다.

토픽모델링과 사회네트워크분석을 활용한 사회적기업의 미션 연구 (Mission of Social Enterprises in South Korea -A Topic Modeling and Social Network Analysis-)

  • 이새미;변장섭;최지혜;브라운 앨런
    • 디지털융복합연구
    • /
    • 제20권4호
    • /
    • pp.31-38
    • /
    • 2022
  • 본 연구의 목적은 사회적기업의 미션 분석을 통해 사회적기업이 추구하는 사회적 목적을 탐색하여 사회적 문제에 대한 사회적기업의 인식을 파악하고, 이를 바탕으로 한국 사회적경제의 시대적 사명에 대해 재고하는 것이다. 이를 위해 사회적기업 자율공시자료를 수집하여 LDA 토픽모델링과 사회네트워크분석 방법을 사용하여 미션 토픽 7개를 추출하고 핵심 키워드를 중심으로 네트워크를 도출하였다. 분석결과, 사회적기업의 사회적 목적은 크게 세 가지로 '사회적 기업이 달성하고자 하는 사회적 목적', '목적을 달성하기 위한 활동 내용', '목적을 달성하기 위한 운영 방법'으로 나타났다. 본 연구는 사회적기업의 미션 분석을 통해 사회적기업의 경제적 가치 실현뿐만 아니라 사회적경제 관점에서 사회적 목적 수립 및 실천의 중요성을 강조하였다는 것에 의의가 있다.

지식 데이타베이스를 적용한 효율적인 세균 의료영상 검색 시스템의 구현 (Implementation of an Efficient Microbial Medical Image Retrieval System Applying Knowledge Databases)

  • 신용원;구봉오
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권1호
    • /
    • pp.93-100
    • /
    • 2005
  • 본 연구는 신규 임상병리사로 하여금 보다 정확한 의사결정과 효율적인 교육에 이용할 수 있는 지식 및 내용 기반 의료 세균화상 검색 시스템을 설계 및 구현하는 것이다. 이를 위해, 먼저 알고리듬방식의 검색 이전에 경험적 지식을 바탕으로 세균동정단계 중 가장 빠른 경로를 탐색하여 원인균 동정에 소요되는 시간을 줄일 수 있도록 룰 베이스를 근거로 유연성 있는 탐색경로를 설정하여 전체적인 추론을 수행한다. 다음으로, 색상 모델 중에서 HSV 컬러 모델을 이용하여 세균화상 중에서도 특히 세균화상으로부터 시각정보의 색상 특징 벡터를 추출할 수 있는 색상 특징 추출방법을 제안한다. 아울러 대용량 세균화상 데이터베이스를 기반으로 보다 빠른 검색 성능을 위해, 배지, 검체, 부서, 세균명과 같은 단순속성들에 대해서는 B+-트리, 세균화상에 대한 부가적인 설명 정보로부터 추출한 키워드들에 대해서는 역화일기법, 그리고 화상으로부터 추출한 고차원 색상 특징벡터에 대해서는 스캔-기반 필터링(Scan-Based Filtering:SBF) 기법을 결합한 통합 색인기법을 기술한다. 마지막으로 구현된 시스템은 시각적인 내용 자체의 정보와 지식을 이용하여 효과적으로 복잡한 세균화상을 검색 및 관리할 수 있는 가능성을 보인다. 아울러 구현한 지식 및 내-용기반 세균화상 검색 시스템을 통해 임상분야의 지식을 잘 구조화함으로써 초보적인 임상병리사의 학습기간을 현저히 단축시킬 수 있을 것으로 기대된다.

  • PDF

빅데이터 분석 기반의 메타스터디를 통해 본 공유경제에 대한 학술연구 동향 분석 (Trends Analysis on Research Articles of the Sharing Economy through a Meta Study Based on Big Data Analytics)

  • 김기연
    • 인터넷정보학회논문지
    • /
    • 제21권4호
    • /
    • pp.97-107
    • /
    • 2020
  • 본 연구의 목적은 빅데이터 분석기법을 활용하여 공유경제 관련 국내 학술연구 동향을 탐색하기 위해 내용분석 관점에서 종합적 메타스터디를 수행하는데 있다. 종합적 메타분석 연구방법론은 일련의 전체 연구결과물들을 역사적으로 그리고 포괄적으로 살펴봄으로써 전체 연구동향의 규칙성이나 특성을 조명하여, 이를 통해 향후 연구에 대해 방향성을 제시할 수 있다. 공유경제를 주제로 하는 국내 학술연구는 Lawrence Lessig 교수가 2008년에 공유경제의 개념을 세상에 소개한 해에 등장하였으나, 본격적인 연구는 2013년부터 진행되었다. 특히, 2006~2008년 사이에 국내 공유경제 관련 학술연구는 양적으로 급격히 증가하였다. 본 연구는 2013년부터 현재까지 약 8년간의 논문들을 분석 논문으로 선정하고, 전자저널의 학술논문검색 및 원문서비스를 이용하여 제목, 키워드, 초록을 중심으로 텍스트 데이터를 수집하였다. 수집된 데이터를 정제, 분석, 시각화의 순서로 빅데이터 분석을 실시하여, 추출된 핵심어들을 통해 연도별 및 문헌 유형별 연구동향 및 인사이트를 도출하였다. 데이터 전처리 및 텍스트 마이닝, 메트릭스 빈도분석을 위해 Python3.7과 Textom 분석도구를 활용하였고, 핵심어 노드 간의 구조적 연관성을 파악하기 위해 UCINET6/NetDraw, Textom 프로그램 기반의 N-gram 차트, 중심성 및 소셜네트워크 분석, 그리고 CONCOR 클러스터링 시각화를 통해 8개로 군집화 한 키워드들을 토대로 연구동향의 유형별 특성을 발견하였다. 아직까지 사회과학적 관점에서 공유경제 관련 학술연구 동향에 관한 조사가 이루어진 바가 없기 때문에, 본 연구의 결과물은 선행연구로서 후속 연구들에게 이론적 고찰 및 향후 연구방향에 대해 유용한 정보를 제공하는 초석의 역할을 기대할 수 있다.

Improvement of a Product Recommendation Model using Customers' Search Patterns and Product Details

  • Lee, Yunju;Lee, Jaejun;Ahn, Hyunchul
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권1호
    • /
    • pp.265-274
    • /
    • 2021
  • 본 논문에서는 검색 키워드와 상품 상세정보를 활용한 Doc2vec 기반의 새로운 추천 모형을 제안한다. 지금까지 추천 시스템에 관한 많은 기존 연구에서는 고객의 구매 이력이나 평점 같은 정형 데이터만을 사용하는 협업 필터링(CF) 알고리즘에 기반한 추천 모델이 제안되었다. 그러나 CF에서 온라인 고객 리뷰와 같은 비정형 데이터를 사용하면, 보다 나은 추천결과를 도출할 수 있다. 이에 본 연구에서는 기존 연구에서 거의 활용되지 않았던 검색 키워드 정보와 상품 상세정보를 제품 추천에 활용할 것을 제안한다. 본 연구의 제안 모형은 고객이 구매한 상품에 대한 평점, 검색어, 상품 상세정보를 종합적으로 고려한 CF 알고리즘을 이용해 추천결과를 생성한다. 이 때 비정형 데이터로부터 정량적인 패턴을 추출하기 위한 방법으로는 Doc2vec이 적용된다. 실험 결과 제안 모형이 기존 추천 모형보다 더 나은 성능을 보이는 것을 알 수 있었고, 검색어 및 상품 상세정보가 추천에 유의한 영향을 미치는 것을 확인하였다. 본 연구는 고객의 온라인 행동 정보를 추천시스템에 적용하였다는 점과 전통적인 CF의 한계 중 하나인 콜드 스타트 문제를 완화하였다는 점에서 학술적 의의가 있다.

개체추출기법을 이용한 관계성 도출기법 (A Study of Relationship Derivation Technique using object extraction Technique)

  • 김종희;이은석;김정수;박종국;김종배
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 춘계학술대회
    • /
    • pp.309-311
    • /
    • 2014
  • 최근, 산재된 비정형 데이터 분석 등을 통한 빅데이터 활용에 대한 요구들이 증가하고 있으나, 아직까지 이에 대한 연구들이 부족한 실정이다. 따라서 본 연구에서는 수집된 웹 정보에서 개체들을 추출하여 이들 간의 관계를 집단지성 기술과 언어처리 기술을 통해 자동 분석해 냄으로써 문장단위의 의미기반 분석을 할 수 있는 기법을 제시한다. 이를 위해, 수집된 정보를 DBMS에 정형화된 형태로 저장한 후 형태소와 자질정보를 분석한다. 획득한 형태소 중 관심개체, 주변개체, 비관심 개체를 분류하고 개체간 속성인식기법을 이용하여 각 개체간의 관계를 정도, 범위, 성격 등으로 분석한다. 그 결과, 긍정 부정의 판단이 가능한 개체간의 관계성 도출기법을 제시함으로써, 특정 키워드를 대상으로 분석된 정보들의 연관도를 분석할 수 있었다. 이 연구를 통해, 최근 실시간 대용량 처리 시스템에 적합한 시스템을 설계하여 이를 부가가치가 높은 서비스에 적용할 수 있는 방법을 제시하였다.

  • PDF

빅데이터 토픽모델링과 감성분석을 활용한 물공급과정에서의 수질사고 기사 분석 (Analysis of articles on water quality accidents in the water distribution networks using big data topic modelling and sentiment analysis)

  • 홍성진;유도근
    • 한국수자원학회논문집
    • /
    • 제55권spc1호
    • /
    • pp.1235-1249
    • /
    • 2022
  • 본 연구에서는 웹 크롤링 방법을 이용한 자료수집, 텍스트 마이닝을 활용한 데이터 분석과 같은 빅데이터 분석기법을 이용하여 국내 상수도 수질사고에 대한 전개양상 분석을 수행하였다. 상수도 시스템의 수질사고 빅데이터 뉴스의 추출을 위한 웹크롤링 기법을 적용하고 정확한 수질사고 뉴스를 획득하고자 알고리즘을 절차화하여 제시하였다. 또한 대규모 수질사고의 경우 사고발생에 따른 사고인지, 사고확산, 사고대응, 사고해결 등과 같은 전개양상이 나타나므로, 각 단계에 따른 적절한 뉴스기사를 추출하고, 이에 따른 정보분석을 실시하였다. 즉, 각 단계 별 주요 키워드, 감성분석을 통한 수질사고 전개양상분석을 사례기반으로 상세히 실시하고 그 의미를 분석, 도출하였다. 제안된 방법론을 2020년 발생한 인천광역시 유충사고기간에 적용하여 분석하였다. 그 결과, 수질사고와 같은 소비자에게 직접적인 영향을 미치는 정보의 공개가 제한된 상황에서 사고발생시 장기간의 피해 지속성이 있는 수질사고에 대한 뉴스 기사 언론보도의 논조 및 소비자의 긍부정도가 시간에 따라 명확히 변화됨을 확인할 수 있었다. 이것은 공급자 입장에서의 수질사고의 전개양상은 시설물의 빠른 복구도 매우 중요하지만 소비자의 긍정도를 높이기 위한 소비자 중심의 정책마련의 필요성을 제시하고 있다.

텍스트마이닝 기반의 효율적인 장소 브랜드 이미지 강도 측정 방법 (An Efficient Estimation of Place Brand Image Power Based on Text Mining Technology)

  • 최석재;전종식;비스워스 수브르더;권오병
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.113-129
    • /
    • 2015
  • 장소 브랜딩은 특정 장소에 대한 의미 부여를 통해 장소성의 정체성 및 공동가치를 생성하며 가치 창출을 하는데 중요한 활동이며, 장소 브랜드에 대한 이미지 파악을 통해 이루어진다. 이에 마케팅, 건축학, 도시건설학 등 여러 분야에서는 인상적인 장소 브랜드의 이미지를 구축하기 위하여 많은 노력을 기울이고 있다. 하지만 설문조사를 포함한 대면조사 방법은 대부분 주관적인 작업이며 측정에 많은 인력 또는 고도의 전문 인력이 소요되어 고비용을 발생시키므로 보다 객관적이면서도 비용효과적인 브랜드 이미지 조사 방법이 필요하다. 이에 본 논문은 텍스트마이닝을 통하여 장소 브랜드의 이미지 강도를 객관적이고 저비용으로 얻는 방법을 찾는 것을 목적으로 한다. 제안하는 방법은 장소 브랜드 이미지를 구성하고 있는 요인과 그 키워드들을 관련 웹문서에서 추출하며, 추출된 정보를 통해 특정 장소의 브랜드 이미지 강도를 측정하는 방법이다. 성능은 안홀트 방법에서 평가에 사용하는 전세계 50개 도시 이미지 인덱스 순위와의 일치도로 검증하였다. 성능 비교를 위해 임의로 순위를 매기는 방법, 안홀트의 설문방식대로 일반인이 평가하는 방법, 본 논문의 방법을 사용하되 안홀트의 방법으로 학습한 것으로 유의한 것으로 추정되는 평가 항목만을 반영하는 방법과 비교하였다. 그 결과 제안된 방법론은 정확성, 비용효율성, 적시성, 확장성, 그리고 신뢰성 측면에서 우수함을 보일 수 있었다. 따라서 본 연구에서 제안한 방법론은 안홀트 방식에 상호 보완적으로 사용될 수 있을 것이다. 향후에는 장소 브랜드 이미지를 형성하는 속성 별로 등장횟수를 계산 한 후에 장소 브랜드에 대한 태도, 연상, 그리고 브랜드 자산과의 인과관계를 자동으로 파악할 수 있는 부분까지 구현하고 실증적 실험을 할 예정이다.

공동체 미디어의 담론 흐름과 연구경향 학술논문의 주제, 방법, 쟁점에 대한 메타분석을 중심으로 (The Study on Methodology and Flow of Discourses of Community Media Focusing on the Meta-analysis of Topics, Methods, and Issues of Academic Journals)

  • 강진숙
    • 한국언론정보학보
    • /
    • 제81권
    • /
    • pp.9-39
    • /
    • 2017
  • 2000년대 이후 온라인 커뮤니티는 다양한 이용자들의 참여를 통해 활성화되었고, 정치적 공론장이자 일상적인 유희의 놀이터가 되어왔다. 이를 통해 온라인 커뮤니티의 이용자들은 참여민주주의를 경험하고 궁극적으로는 일상의 삶 정치를 기획하는 새로운 주체상을 보여주기도 하였다. 본 연구의 목적은, 이와 관련한 현상들이 학술담론의 지형 속에서 어떻게 나타나고 진단되고 있는지를 분석하고, 공동체 미디어 연구의 이론과 방법론의 개발을 위한 방안들을 모색하는 데 있다. 이를 위해 선행 학술담론에 나타난 주제, 방법, 그리고 쟁점에 대한 메타분석 방법을 적용하여 역사적으로 축적된 학술 담론들의 경향성과 특이점 등을 분석하였다. 분석대상은 국내 언론학계의 학술등재지 논문들을 분석대상으로 설정했다. 이를 위해 다양한 언론 유관학회들 중에서도 한국언론학회, 한국방송학회, 한국언론정보학회, 사이버커뮤니케이션학회 등에서 발간하는 학술등재지들을 선정하여 분석하였다. 선정 이유는 다른 학회에 비해 상대적으로 학술지 발간의 역사가 오래되었고, 이에 따라 다양한 관련 학술담론들을 수집할 수 있기 때문이다. 키워드 입력은 여러 차례의 다양한 시도들을 거쳐 최종적으로 '공동체'와 '커뮤니티'를 투입한 결과 총 53건의 연구논문들을 추출하였다. 본 연구의 의의는 공동체 미디어 관련 논문이 처음 게재된 2001년 이후 2016년 11월 현재까지 축적된 과거의 학술담론들을 분석함으로써 향후 이론과 방법론, 그리고 지역 공동체의 활성화를 위한 방안들을 모색하고자 할 때 필요한 기초 자료를 제공하는 데 있다.

  • PDF

전문대학생이 인식하는 좋은 수업의 특성 분석 -K 대학 사례를 중심으로 (Analysis on the Characteristics of Good Teaching Perceived by Junior College Student : Based on a Case Study of K College)

  • 최석현
    • 한국콘텐츠학회논문지
    • /
    • 제14권8호
    • /
    • pp.517-527
    • /
    • 2014
  • 각 대학의 교수학습지원센터를 중심으로 최근 수강했던 과목들 중에서 다시 듣고 싶은 좋은 수업이나 가장 기억에 남는 강의를 에세이 형태로 공모전을 매년 실시하는 대학이 늘고 있다. 이는 학생들의 학문역량 개발에 기여하는 좋은 강의를 발굴하여 수업노하우를 확산하고 '좋은 수업'이란 어떤 것인지 되돌아보는 계기를 마련하고 있다. 본 연구는 전문대학 학생들이 인식하는 좋은 수업의 특성에 대해 분석하였다. 75편의 에세이에 대한 내용 분석을 통하여 학생들이 인식하는 좋은 수업의 특성을 키워드 추출 방법으로 조사 분석하였다. 연구결과, 전문대학 학생들이 인식하는 좋은 수업 특성은 '교수자의 열정이 느껴지는 수업', '흥미로운 수업', '강의내용을 쉽게 이해할 수 있는 수업', '학생들을 배려하는 수업', '교수자와 학습자간의 상호작용이 활발한 수업', '교수자의 경험을 공유할 수 있는 수업'으로 나타났다.