• 제목/요약/키워드: text-mining

검색결과 1,525건 처리시간 0.029초

Analysis of the ordering factors influencing the awarding price ratio of service contract in KONEPS

  • Jung-Sung Ha;Tae-Hong Choi;Wan-Sup Cho
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권12호
    • /
    • pp.239-248
    • /
    • 2023
  • 본 연구는 낙찰가율에 영향을 미치는 용역계약에 대한 요인을 나라장터의 사례를 중심으로 분석하는 것을 목적으로 한다. 연구에서 발주기관과 입찰자가 광범위한 나라장터에서 낙찰가율에 영향을 주는 용역계약을 분석함으로써 기존 연구와의 차별성을 살펴보았다. 분석모형으로 낙찰가율 영향 요인으로 예산액, 계약 방법, 공고 일수, 낙찰 방법, 낙찰 하한률 등 5개의 독립변수를 활용하였다. 조사분석은 지난 18년간 나라장터 용역입찰건에 대한 데이터를 텍스트 마이닝을 이용하여 빅데이터를 수집하고 다차원적인 방법으로 데이터를 분석하였다. 분석 결과 첫째, 예산액은 낙찰가율을 결정하지 않는다. 다만 소액의 경우에는 그러하지 아니하였다. 둘째, 계약 방법은 낙찰가율에 영향을 미치는 것으로 나타났다. 셋째, 공고 일수가 길어질수록 낙찰가율이 감소하고 있다. 넷째, 낙찰 방법은 낙찰가율에 영향을 미치고 있다. 다섯째, 낙찰 하한률은 낙찰가율을 결정하고 있다. 본 연구는 낙찰가율에 영향을 미치는 요인에 대한 실증분석 결과를 토대로 정책적 시사점을 찾고자 하였다.

딥러닝 기반 온라인 리뷰를 활용한 추천 모델 개발: 레스토랑 산업을 중심으로 (Developing a deep learning-based recommendation model using online reviews for predicting consumer preferences: Evidence from the restaurant industry)

  • 김동언;장동수;엄금철;이가은
    • 지능정보연구
    • /
    • 제29권4호
    • /
    • pp.31-49
    • /
    • 2023
  • 레스토랑 산업의 성장과 함께 레스토랑 오프라인 매장 수는 점차 증가하지만, 소비자는 자신의 선호도에 적합한 레스토랑을 선택하는 데 어려움을 경험하고 있다. 따라서 소비자의 선호도에 맞는 레스토랑을 추천하는 개인화된 추천 서비스의 필요성이 대두하고 있다. 기존 연구에서는 설문조사 및 평점 정보를 활용하여 소비자 선호도를 조사했으나, 이는 소비자의 구체적인 선호도를 효과적으로 반영하는데 어려움이 존재한다. 이러한 배경하에 온라인 리뷰는 방문 동기, 음식 평가 등 레스토랑에 대한 소비자 구체적인 선호도를 효과적으로 반영하기 때문에 필수적인 정보이다. 한편, 일부 연구에서는 리뷰 텍스트에 전통적인 기계학습 기법을 적용하여 소비자의 선호도를 측정하였다. 그러나 이러한 접근 방식은 주변 단어나 맥락을 고려하지 못하는 한계점이 존재한다. 따라서 본 연구는 딥러닝을 효과적으로 활용하여 온라인 리뷰에서 소비자의 선호도를 정교하게 추출하는 리뷰 텍스트 기반 레스토랑 추천 모델을 제안한다. 본 연구에서 제안된 모델은 추출된 높은 수준의 의미론적 표현과 소비자-레스토랑 상호작용을 연결하여 소비자의 선호도를 정확하고 효과적으로 예측한다. 실험 결과에 따르면 본 연구에서 제안된 추천 모델은 기존 연구에서 제안된 여러 모델에 비해 우수한 추천 성능을 보이는 것으로 나타났다.

민원 자료를 활용한 반려견 관련 옥외 공공공간 갈등 분석 (Analysis of Dog-Related Outdoor Public Space Conflicts Using Complaint Data)

  • 유예슬;손용훈;조경진
    • 한국조경학회지
    • /
    • 제52권1호
    • /
    • pp.34-45
    • /
    • 2024
  • 반려견이 사회의 일원으로 인식되기 시작하면서 도시의 옥외 공공공간을 함께 이용하는 주체로 부상하고 있다. 그러나 이러한 흐름은 위생, 소음 등의 문제를 발생시키거나 반려인과 비반려인 간 갈등을 야기하는 요인이 되기도 한다. 본 연구는 '반려견', '반려동물', '강아지'와 관련된 공개민원 자료를 텍스트마이닝 기법을 통해 분석하여, 반려견 관련 공간갈등의 원인과 주요 이슈를 밝히기 위해 수행되었다. 연구의 주요 결과는 다음과 같다. 첫째, 반려견과 관련된 민원자료 중 대다수는 옥외 공공공간의 이용과 연관이 있었다. 둘째, 주요 옥외 공공공간 유형별로 공간의 이슈가 다르게 발생하고 있다. 셋째, 반려견 관련 민원자료의 주제는 총 4개로, '반려견 놀이터 조성 요구', '동물 관련 안전 문제 제기', '반려견 전용구역 외 시설에 대한 이용 문제 제기', '펫티켓 관련 공원 관리·단속 강화 요청'이다. 본 연구는 동물이 이용할 수 있는 공공공간의 범위가 확대되는 시점에서, 반려견을 둘러싼 시민들의 인식을 분석했다. 특히, 시민들이 문제점과 요구사항을 명확하게 제시하는 민원자료를 분석 대상으로 채택함으로써, 시민들의 의견을 수렴하는 새로운 방식을 적용한 점에서 의의가 있다.

인공지능 문장 분류 모델 Sentence-BERT 기반 학교 맞춤형 고등학교 통합과학 질문-답변 챗봇 -개발 및 1년간 사용 분석- (A School-tailored High School Integrated Science Q&A Chatbot with Sentence-BERT: Development and One-Year Usage Analysis)

  • 민경모;유준희
    • 한국과학교육학회지
    • /
    • 제44권3호
    • /
    • pp.231-248
    • /
    • 2024
  • 본 연구에서는 오픈소스 소프트웨어와 인공지능 문서 분류 모델인 한국어 Sentence-BERT로 고등학교 1학년 통합과학 질문-답변 챗봇을 제작하고 2023학년도 1년 동안 독립형 서버에서 운영했다. 챗봇은 Sentence-BERT 모델로 학생의 질문과 가장 유사한 질문-답변 쌍 6개를 찾아 캐러셀 형태로 출력한다. 질문-답변 데이터셋은 인터넷에 공개된 자료를 수집하여 초기 버전을 구축하였고, 챗봇을 1년 동안 운영하면서 학생의 의견과 사용성을 고려하여 자료를 정제하고 새로운 질문-답변 쌍을 추가했다. 2023학년도 말에는 총 30,819개의 데이터셋을 챗봇에 통합하였다. 학생은 챗봇을 1년 동안 총 3,457건 이용했다. 챗봇 사용 기록을 빈도분석 및 시계열 분석한 결과 학생은 수업 중 교사가 챗봇 사용을 유도할 때 챗봇을 이용했고 평소에는 방과 후에 자습하면서 챗봇을 활용했다. 학생은 챗봇에 한 번 접속하여 평균적으로 2.1~2.2회 정도 질문했고, 주로 사용한 기기는 휴대폰이었다. 학생이 챗봇에 입력한 용어를 추출하고자 한국어 형태소 분석기로 명사와 용언을 추출하여 텍스트 마이닝을 진행한 결과 학생은 과학 질문 외에도 시험 범위 등의 학교생활과 관련된 용어를 자주 입력했다. 학생이 챗봇에 자주 물어본 주제를 추출하고자 Sentence-BERT 기반의 BERTopic으로 학생의 질문을 두 차례 범주화하여 토픽 모델링을 진행했다. 전체 질문 중 88%가 35가지 주제로 수렴되었고, 학생이 챗봇에 주로 물어보는 주제를 추출할 수 있었다. 학년말에 학생을 대상으로 한 설문에서 챗봇이 캐러셀 형태로 결과를 출력하는 형태가 학습에 효과적이었고, 통합과학 학습과 학습 목적 이외의 궁금증이나 학교생활과 관련된 물음에 답해주는 역할을 수행했음을 확인할 수 있었다. 본 연구는 공교육 현장에서 학생이 실제로 활용하기에 적합한 챗봇을 개발하여 학생이 장기간에 걸쳐 챗봇을 사용하는 과정에서 얻은 데이터를 분석함으로써 학생의 요구를 충족할 수 있는 챗봇의 교육적 활용 가능성을 확인했다는 점에 의의가 있다.

LDA 토픽 모델링과 Word2vec을 활용한 유사 특허문서 추천연구 (LDA Topic Modeling and Recommendation of Similar Patent Document Using Word2vec)

  • 이앞길;최근호;김건우
    • 경영정보학연구
    • /
    • 제22권1호
    • /
    • pp.17-31
    • /
    • 2020
  • 4차 산업혁명 시대의 시작과 함께 다양한 분야의 기술들이 서로 융합하며 새로운 형태의 기술과 제품들이 개발되고 있으며, 이와 더불어 그것들에 대한 시장 지배력을 갖기 위한 지식 재산권의 행사나 특허등록의 중요성이 높아지고 있어 국내는 물론 해외에서의 특허출원이 증가하고 있다. 이에 따라, 심사관 1인당 처리해야 할 특허 처리 건수가 해마다 많아지고 있어 선행기술조사에 소비되는 시간과 비용이 점점 증가하고 있는 실정이다. 본 연구는 다수의 해외특허 우선권 주장 시 동일 우선권 주장 특허문서 간 유사도를 계산하여 심사관 및 특허 출원인이 유사문서를 우선 검토 할 수 있도록 함으로써 심사 시간과 비용을 줄이고자 하였다. 이를 위해, 본 연구에서는 비정형 특허 문서의 데이터를 전처리 후 LDA 토픽 모델링과 Word2vec을 활용하여 특허 문서 간 유사도를 구하고, 이 유사도 점수가 높은 순으로 검토 문서를 우선 추천하는 유사 특허 추천 모델을 제안하였다. 3단계의 모델 생성과정을 통해 만들어진 모델을 사용하여 재현율 95%로 높은 결과를 보였다. 본 연구에서 제안한 모델을 통해, 심사관은 효율적으로 선행기술에 대한 조사가 가능해지며, 심사 수행 중 유사하다고 판단된 특허문서에 대한 심사 이력을 신속하게 참고할 수 있어 업무 부담감을 줄이고 심사풀질을 향상시킬 수 있을 것으로 기대된다.

지속가능한 자원관리를 위한 섬 지역 관광자원의 공간정보와 소셜미디어 빅데이터 분석 결과를 활용한 격차분석 (A Gap Analysis Using Spatial Data and Social Media Big Data Analysis Results of Island Tourism Resources for Sustainable Resource Management)

  • 이성희;이주경;손용훈;김용진
    • 농촌계획
    • /
    • 제30권2호
    • /
    • pp.13-24
    • /
    • 2024
  • This study conducts an analysis of social media big data pertaining to island tourism resources, aiming to discern the diverse forms and categories of island tourism favored by consumers, ascertain predominant resources, and facilitate objective decision-making grounded in scientific methodologies. To achieve this objective, an examination of blog posts published on Naver from 2022 to 2023 was undertaken, utilizing keywords such as 'Island tourism', 'Island travel', and 'Island backpacking' as focal points for analysis. Text mining techniques were applied to sift through the data. Among the resources identified, the port emerged as a significant asset, serving as a pivotal conduit linking the island and mainland and holding substantial importance as a focal point and resource for tourist access to the island. Furthermore, an analysis of the disparity between existing island tourism resources and those acknowledged by tourists who actively engage with and appreciate island destinations led to the identification of 186 newly emerging resources. These nascent resources predominantly clustered within five regions: Incheon Metropolitan City, Tongyeong/Geoje City, Jeju Island, Ulleung-gun, and Shinan-gun. A scrutiny of these resources, categorized according to the tourism resource classification system, revealed a notable presence of new resources, chiefly in the domains of 'rural landscape', 'tourist resort/training facility', 'transportation facility', and 'natural resource'. Notably, many of these emerging resources were previously overlooked in official management targets or resource inventories pertaining to existing island tourism resources. Noteworthy examples include ports, beaches, and mountains, which, despite constituting a substantial proportion of the newly identified tourist resources, were not accorded prominence in spatial information datasets. This study holds significance in its ability to unearth novel tourism resources recognized by island tourism consumers through a gap analysis approach that juxtaposes the existing status of island tourism resource data with techniques utilizing social media big data. Furthermore, the methodology delineated in this research offers a valuable framework for domestic local governments to gauge local tourism demand and embark on initiatives for tourism development or regional revitalization.

비정형 빅데이터를 이용한 치면열구전색(치아홈메우기)에 대한 인식분석 (A Study on the Perception of Pit and Fissure Sealant using Unstructured Big Data)

  • 조한아
    • 대한치위생과학회지
    • /
    • 제6권2호
    • /
    • pp.101-114
    • /
    • 2023
  • 연구배경: 본 연구는 치면열구전색(치아홈메우기)에 대한 전반적인 인식을 살펴봄으로써 현재 정체되어 있는 치면열구전색의 활성화를 위한 방안을 제시하고자 수행되었다. 연구방법: 치면열구전색 보장성 정책의 변화에 따른 사회적 인식을 확인하고자 5개 차수로 시기를 분류하였다. 1차시기(2009.12.1.~2010.11.30.), 2차시기(2010.12.1.~2012.9.30.), 3차시기(2012.10.1.~2013.5.5.), 4차시기(2013.5.6.~2017.9.30.), 5차시기(2017.10.1.~2022.12.31.)로 각각 설정하였다. 비정형 빅데이터 분석방법인 텍스트마이닝 분석방법을 활용하였다. 텍스톰을 사용하여 키워드를 수집 및 분석하였으며, 상위 키워드 30개의 빈도수, 의미 연결망의 구조적 특징, 중심성 분석, QAP 상관분석 및 동시출현 단어분석을 실시하였다. 연구결과: 빈도분석 결과 시기별로 상위권에 속한 키워드는 '충치', '치료', '어린이' 등이 공통적으로 나타났다. 치면열구전색의 시기별 의미연결망 구조적 특징에서 밀도지수는 모든 시기별 약 1.00으로 확인되었다. QAP 상관분석결과 1차시기와 2차시기, 4차시기와 5차시기의 상관계수가 0.834로 가장 높은 상관을 보였다. 동시출현 단어분석결과 모든 시기에 걸쳐 '충치'와 '예방'이 1위로 나타났다. 결론: 본 연구를 통해 치면열구전색은 충치예방을 위한 술식과 예방치료로써 사회적 인식이 잘 형성되었음을 알 수 있었다. 그러나 보건교육에 대한 인식은 낮았다. 정체된 치면열구전색을 활성화하기 위해서는 효과적인 교육을 강화해 나가야 하는 노력이 필요하겠다.

부산항 항만안전 주요 이슈 동향에 관한 연구 (A Study on Trends of Key Issues in Port Safety at Busan Port)

  • 이정민;하도연;김주혜
    • 한국항해항만학회지
    • /
    • 제48권1호
    • /
    • pp.34-48
    • /
    • 2024
  • 글로벌 공급망에 예측 불가능한 위험성이 확산되면서 세계의존도가 높은 항만물류산업의 위험부담이 높아지고 있다. 이에 본 연구에서는 기초적인 연구로 국내 항만의 안전성에 위험을 주는 다양한 이슈들을 알아보고자 하였다. 이를 위해 부산항의 항만안전과 관련된 뉴스 기사 데이터를 활용하여 LDA토픽모델링 분석과 시계열 선형회귀분석을 진행하였고 부산항 항만안전 주요 이슈들의 변화와 그 동향을 파악하였다. 본 연구의 분석 결과는 다음과 같다. 지난 30년동안 부산항 항만안전과 관련된 주요 이슈는 총 9개이며 이들을 5년 주기의 시기별로 살펴본 결과, 지난 30년 동안 해상안전 이슈, 수입화물 검역 안전 이슈, 노조파업 관련 이슈, 자연재해 관련 이슈가 지속해서 등장했다. 부산항 항만안전 주요 이슈는 주로 예측 불가능한 성격이 큰 사회환경적 유형과 자연현상적 유형으로 글로벌 불확실성의 영향을 많이 받고 있음을 알 수 있었다. 따라서 분석 결과로 도출된 항만안전 주요 이슈들을 위주로 부산항 항만안전 강화를 위한 정책을 체계적으로 수립할 필요가 있으며 예측 불가능한 위험상황을 대비한 부산항 항만안전 회복탄력성을 강화할 필요가 있다. 끝으로 다양하게 변화하는 사회적 여건에 맞춰 항만안전 강화를 도모할 수 있는 선진적인 연구 활동이 필요할 것이다.

온라인 정보 보호: 소셜 미디어 내 정보 유출 반응 분석 (Online Privacy Protection: An Analysis of Social Media Reactions to Data Breaches)

  • 서승우;고영준;이홍주
    • 지식경영연구
    • /
    • 제25권1호
    • /
    • pp.1-19
    • /
    • 2024
  • 최근 개인 정보 유출 사건이 빈번히 발생하고 빈도가 갈수록 증가하는 추세이지만, 개인 정보 유출 사건에 대한 사회나 정보주체인 시민들의 반응은 크게 대두되고 있지 않다. 또한, 개인 정보 유출 사건들에 대한 정보 주체의 반응을 여러 해 기간동안의 데이터에 기반하여 비교하는 연구는 많이 수행되어 있지 않다. 따라서, 본 연구는 2014년 1월부터 2022년 10월까지 국내에서 발생한 주요 개인정보 유출 사건들에 대한 정보주체의 소셜미디어 반응 변화를 분석하였다. 각 사건들이 발생한 직후 일주일간의 기간 동안 네이버 블로그에 작성된 총 1,317건의 포스팅을 수집하였다. 이 포스팅들에 대해 LDA 토픽 모델링 기법을 적용하여 주제를 분석한 결과, 개인정보 유출, 해킹, 정보기술 등 5개의 주요 토픽이 도출되었다. 토픽 분포의 시간변화를 분석한 결과, 개인정보 유출 사건 직후에는 해당 사건에 대한 직접적인 언급 토픽의 비중이 가장 높았으나, 시간이 지나면서 개인정보 유출과 간접적으로 관련된 토픽의 언급 비중이 증가하는 것을 확인하였다. 이는 개인정보 유출 사건 발생 후 정보주체의 관심이 시간이 지남에 따라 해당 사건에서 벗어나 관련 토픽으로 옮겨지고, 개인정보 보호에 대한 관심 또한 줄어든다는 것을 의미한다. 본 연구 결과는 향후 개인정보 유출 사건 이후 정보주체의 프라이버시 인식 변화에 대한 연구의 필요성을 시사한다.

ChatGPT는 우리에게 어떤 우려를 초래하는가?: 유튜브 영상 뉴스 댓글의 CTM(Correlated Topic Modeling) 분석을 중심으로 (What Concerns Does ChatGPT Raise for Us?: An Analysis Centered on CTM (Correlated Topic Modeling) of YouTube Video News Comments)

  • 송민호;이수범
    • 정보화정책
    • /
    • 제31권1호
    • /
    • pp.3-31
    • /
    • 2024
  • 본 연구는 ChatGPT로부터 촉박된 생성형 인공지능에 대해 국내의 특수성을 고려한 대중의 우려를 살펴보고자 하였다. 이를 위해 유튜브에서 102개의 윤리 관련 뉴스 영상에 포함된 댓글을 파이썬 스크래퍼를 개발하여 수집하였으며, 텍스톰을 통해 형태소 분석 및 전처리를 통해 15,735개 댓글을 대상으로 상관토픽모델(CTM)을 통해 분석하였다. 분석 결과, 뉴스 영상에 포함된 댓글의 주요 토픽은 '법적 및 윤리적 고려 사항', '지적 재산권 및 기술', '기술 발전과 인류 미래, 정보 처리에서 인공지능의 잠재력', 'AI에서의 감정 지능 및 윤리적 규제', '인간모방' 등 6개로 확인되었다. 또한 6개의 토픽을 10% 이상의 상관계수 값을 보이는 관계로 구조화한 결과 '법적 및 윤리적 고려 사항', 'ChatGPT의 데이터 생성 관련 이슈(지적 재산권 및 기술, 정보 처리에서의 인공지능의 잠재력, 인간모방', '인류 미래에 대한 두려움(기술 발전과 인류 미래, AI에서의 감정 지능 및 윤리적 규제)' 등 3개로 구조화할 수 있었다. 이를 바탕으로 ChatGPT로 인해 촉발된 생성형 인공지능에 관한 관심과 더불어 다양한 우려가 공존하고 있는 것을 확인하였고, 국내의 역사적 및 사회적 맥락을 반영한 특수성을 가진 우려도 존재하고 있음을 확인하였다. 이러한 결과를 통해 데이터 공정성에 대한 국가 주도의 노력이 필요함을 제안하였다.