• 제목/요약/키워드: language processing

검색결과 2,692건 처리시간 0.033초

Head-Tail 토큰화 기법을 이용한 한국어 품사 태깅 (Korean Part-Of-Speech Tagging by using Head-Tail Tokenization)

  • 서현재;김정민;강승식
    • 스마트미디어저널
    • /
    • 제11권5호
    • /
    • pp.17-25
    • /
    • 2022
  • 기존의 한국어 품사 태깅 방식은 복합어를 단위 형태소들로 분해하여 품사를 부착하므로 형태소 태그가 세분화되어 있어서 태거의 활용 목적에 따라 불필요하게 복잡하고 다양한 어절 유형들이 생성되는 단점이 있다. 딥러닝 언어처리에서는 키워드 추출 목적으로 품사 태거를 사용할 때 복합조사, 복합어미 등 문법 형태소들을 단위 형태소로 분할하지 않는 토큰화 방식이 효율적이다. 본 연구에서는 어절을 형태소 단위로 토큰화할 때 어휘형태소 부분과 문법형태소 부분 두 가지 유형의 토큰으로만 분할하는 Head-Tail 토큰화 기법을 사용하여 품사 태깅 문제를 단순화함으로써 어절이 과도하게 분해되는 문제점을 보완하였다. Head-Tail 토큰화된 데이터에 대해 통계적 기법과 딥러닝 모델로 품사 태깅을 시도하여 각 모델의 품사 태깅 정확도를 실험하였다. 통계 기반 품사 태거인 TnT 태거와 딥러닝 기반 품사 태거인 Bi-LSTM 태거를 사용하여 Head-Tail 토큰화된 데이터셋에 대한 품사 태깅을 수행하였다. TnT 태거와 Bi-LSTM 태거를 Head-Tail 토큰화된 데이터셋에 대해 학습하여 품사 태깅 정확도를 측정하였다. 그 결과로, TnT 태거는 97.00%인데 비해 Bi-LSTM 태거는 99.52%의 높은 정확도로 품사 태깅을 수행할 수 있음을 확인하였다.

코로나 19에 따른 프로야구 무관중 시청품질요인의 중요도, 만족도 분석 (Analysis of the Importance and Satisfaction of Viewing Quality Factors among Non-Audience in Professional Baseball According to Corona 19)

  • 백승헌;김기탁
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제15권2호
    • /
    • pp.123-135
    • /
    • 2021
  • 본 연구의 자료처리는 '코로나 19와 프로야구', '코로나 19와 프로야구 무관중'과 관련된 키워드를 중심으로 텍스톰(textom)프로그램의 텍스트마이닝과 소셜네트워크 분석을 활용해 문제점 도출 및 시청품질의 변인을 설정하는데 활용하였다. 정량적 분석을 위해 시청품질에 관한 설문지를 구성하였으며, 270부의 설문응답자 중 250부의 설문을 최종연구에 사용하였다. 설문지의 타당도와 신뢰도를 확보하기 위한 도구로 탐색적 요인 분석과 신뢰도 분석을 실시하였으며, 타당도와 신뢰도가 확보된 설문을 바탕으로 IPA분석(중요도-만족도)을 실시하여 결과 및 전략을 제시하였다. IPA분석을 실시한 결과 1사분면에 영상과 관련된 요인(영상구성, 영상배색, 영상 선명도, 영상 확대 및 구도, 고음질 영상)이 나타났고 2사분면은 경기상황(응원 팀 경기수준, 응원 선수 경기수준, 스타선수 발굴, 라이벌 팀과의 경기)과 경기정보(경기일정 안내, 선수정보 확인, 팀 성적 및 선수성적, 경기정보), 상호작용(응원팀과의 공감대) 일부의 요인이 나타났으며, 3사분면은 해설자(야구관련 지식, 의사전달 능력, 발음과 목소리, 표준어 사용, 경기관련 정보 소개)와 상호작용(프런트와 실시간 소통, 시청자와의 공감대, 채팅 등의 정보교환)의 요인이 나타났다.

학술논문 내에서 참고문헌 정보가 포함된 서지 메타데이터 자동 생성 연구 (Automatic Generation of Bibliographic Metadata with Reference Information for Academic Journals)

  • 정선기;신현호;지선영;최성필
    • 한국문헌정보학회지
    • /
    • 제56권3호
    • /
    • pp.241-264
    • /
    • 2022
  • 서지정보는 연구 주제의 최신 동향의 인지와 유용성을 검증하는 데에 참고할 수 있다. 즉, 각자 연구자들이 필요로 하는 문헌에 신속하게 접근하기 위해서는 학술논문에서 저자 정보, 요약, 초록, 참고문헌 등을 쉬운 방법으로 파악해야 한다. 그러나, 현재 출판되는 PDF 형식의 전자 학술논문은 출판 주체별로 고유한 양식을 띄고 있어서, 몇몇 특징에 의한 규칙 기반 추출법으로는 수많은 문헌에서 목표 정보를 추출하여 요약된 서지사항으로 자동 생성하기 어렵다. 이에 본 연구는 학술논문 서지사항 자동 생성에 있어서 양식의 다양성으로 인한 메타데이터 자동 추출의 난점을 극복할 방법을 제안한다. 제안하는 모델은 서지사항이 주로 기술되는 학술논문의 첫 페이지에서 목표 영역과 본문의 시작점을 구분할 수 있는 심층신경망 기반 모델과 앞의 모델로 추출된 서지사항을 상세한 메타데이터로 분류하고 재생성하는 규칙 기반 모델로 구성된다. 제안하는 모델은 참고문헌 요약정보를 생성하는 모델도 포함하는데, 본문의 말미와 참고문헌 시작점의 분리, 그리고 개별 참고문헌 추출을 규칙 기반 방법으로 진행하고, 추출한 각개 참고문헌의 서지정보를 분류하는 데에 심층신경망을 이용하도록 구성하였다. 추가로, 논문 자체의 서지정보를 전후처리 없이 추출/생성하는 모델의 가능성을 확인하기 위하여 참고문헌 영역까지 아우르는 모델을 구축하여 비교 실험을 진행하였다. 실험 결과 본 논문에서 제안하는 방식이 서지정보를 전후처리 하지 않고 진행한 비교 실험에 비하여 더 높은 성능을 보였다.

텍스트 마이닝 분석을 통한 노인학대 관련 연구 동향 분석 : 2004년~2021년까지 발행된 국내 학술논문을 중심으로 (Analysis of Research Trends in Elder Abuse Using Text Mining : Academic Papers from 2004 to 2021.)

  • 윤기혁
    • 사물인터넷융복합논문지
    • /
    • 제8권4호
    • /
    • pp.25-40
    • /
    • 2022
  • 본 연구는 초고령화사회 진입을 목전에 두고 있는 우리나라에서 지속적으로 증가하고 있는 노인학대 학술 연구 동향을 파악하기 위해서 텍스트 마이닝 기법을 활용하였다. 분석 자료는 노인보호전문기관이 설립된 2004년부터 2021년까지 18년간 국내 전문학술지에 게재된 노인학대 관련 학술논문의 제목, 주제어, 초록을 텍스트로 전환하고, 분석 시기는 3개 구간으로 세분화 하여 논문의 패턴 및 전체 데이터 속에 의미를 파악하였다. 연구 결과를 요약하면 다음과 같다. 첫째, 본 연구에서 총 249편의 논문이 선정되었고(1구간은 81편, 2구간 64편, 3구간은 104편이 논문이 각각 선정). 연 평균 13.8편으로 2014년 이후 꾸준히 증가 후 2020년부터 연 평균이하로 감소하고 있다. 둘째 노인학대 텍스트 마이닝 결과 i) 상위 주요 키워드인 단어 빈도분석 결과 모든 구간(2004년~2021년)에 공통적으로 나타난 키워드는 노인학대, 노인, 영향, 요인, 인식, 가족, 사회, 방안, 경험, 학대피해노인, 학대예방, 우울 등이다. ii) TF-IDF 분석 결과 모든 구간에 공통적으로 출현한 키워드는 영향, 인식, 사회, 방안, 학대예방, 경험, 우울 등으로 나타났고, iii) 연결중심성 분석 결과 전 구간에 공통적으로 출현한 키워드는 노인학대, 노인, 영향, 요인, 특성, 인식, 가족, 방안, 사회, 학대예방, 경험 등이다. 셋째, CONCOR 분석 결과 1구간은 5개의 군집으로, 2구간은 7개의 군집으로, 3구간은 6개의 군집으로 각각 나타났다. 상기의 분석 결과 등을 바탕으로 노인학대 학술 연구의 동향을 살펴보았고, 이를 바탕으로 향후 노인학대 학술 연구를 위한 다양한 제언을 제시하였다.

온라인 커뮤니티 이용자 참여 증진을 위한 관리자의 운영 전략: 대학별 대나무숲 분석을 중심으로 (Can Online Community Managers Enhance User Engagement?: Evidence from Anonymous Social Media Postings)

  • 김혜정;황승엽;곽유신;최정혜
    • 지식경영연구
    • /
    • 제23권2호
    • /
    • pp.211-228
    • /
    • 2022
  • 소비자와의 소통을 위한 온라인 커뮤니티의 중요성이 점차 강조됨에 따라, 이용자의 참여를 증진시키고 성공적으로 커뮤니티를 운영하기 위해서는 관리자의 역할에 대한 이해와 세분화된 운영 전략 도출이 필요하다. 본 연구에서는 온라인 커뮤니티 이용자 참여를 소극적 참여와 적극적 참여의 두 가지 유형으로 분류하고, 관리자로서의 전략적 참여 요소가 어떻게 이용자 참여에 차별적으로 영향을 주는지 살펴보았다. 구체적으로, 관리자가 가시적으로 존재하는 대학별 대나무 숲 데이터를 활용하였으며, 상관관계를 반영하여 보다 효율적인 추정이 가능한 SUR(Seemingly Unrelated Regression; 겉보기 무관 회귀분석) 모형을 적용해 실증적으로 검증하였다. 분석 결과, 관리자의 직접적인 커뮤니티 참여는 이용자의 소극적 참여와 적극적 참여 모두에 긍정적인 영향을 주는 것으로 나타났다. 한편, 관리자가 간접적인 커뮤니티 참여의 일환으로 게시글 및 댓글을 관리함에 있어, 게시글에 포함된 감성 단어의 수는 이용자의 소극적 참여에 긍정적인 영향을 주지만 적극적인 참여에는 오히려 부정적인 영향을 주는 것으로 나타났다. 또한, 게시글의 감성과 극성이 일치하는 댓글이 상단에 노출된 경우, 이용자의 소극적 참여가 증진되었다. 본 연구는 온라인 커뮤니티 이용자 참여에 영향을 주는 요인에 대한 실증 분석을 통해 관련 이해의 확장에 기여하고 이를 토대로 커뮤니티 관리자의 역할 및 운영 전략의 방향을 제시한다는 점에서 이론적 의미와 실천적 의미를 지닌다.

키워드 출현 빈도 분석과 CONCOR 기법을 이용한 ICT 교육 동향 분석 (Analysis of ICT Education Trends using Keyword Occurrence Frequency Analysis and CONCOR Technique)

  • 이영석
    • 산업융합연구
    • /
    • 제21권1호
    • /
    • pp.187-192
    • /
    • 2023
  • 본 연구는 기계학습의 키워드 출현 빈도 분석과 CONCOR(CONvergence of iteration CORrealtion) 기법을 통한 ICT 교육에 대한 흐름을 탐색한다. 2018년부터 현재까지의 등재지 이상의 논문을 'ICT 교육'의 키워드로 구글 스칼라에서 304개 검색하였고, 체계적 문헌 리뷰 절차에 따라 ICT 교육과 관련이 높은 60편의 논문을 선정하면서, 논문의 제목과 요약을 중심으로 키워드를 추출하였다. 단어 빈도 및 지표 데이터는 자연어 처리의 TF-IDF를 통한 빈도 분석, 동시 출현 빈도의 단어를 분석하여 출현 빈도가 높은 49개의 중심어를 추출하였다. 관계의 정도는 단어 간의 연결 구조와 연결 정도 중심성을 분석하여 검증하였고, CONCOR 분석을 통해 유사성을 가진 단어들로 구성된 군집을 도출하였다. 분석 결과 첫째, '교육', '연구', '결과', '활용', '분석'이 주요 키워드로 분석되었다. 둘째, 교육을 키워드로 N-GRAM 네트워크 그래프를 진행한 결과 '교육과정', '활용'이 가장 높은 단어의 관계로 나타났다. 셋째, 교육을 키워드로 군집분석을 한 결과, '교육과정', '프로그래밍', '학생', '향상', '정보'의 5개 군이 형성되었다. 이러한 연구 결과를 바탕으로 ICT 교육 동향의 분석 및 트렌드 파악을 토대로 ICT 교육에 필요한 실질적인 연구를 수행할 수 있을 것이다.

A Study on Deep Learning Model for Discrimination of Illegal Financial Advertisements on the Internet

  • Kil-Sang Yoo; Jin-Hee Jang;Seong-Ju Kim;Kwang-Yong Gim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권8호
    • /
    • pp.21-30
    • /
    • 2023
  • 인터넷 불법금융광고는 인터넷 카페, 블로그 등을 통해 통장매매, 신용카드·휴대폰결제현금화 및 개인신용정보매매 등 불법금융행위를 목적으로 한다. 금융감독당국의 노력에도 불구하고 불법금융행위는 줄어들지 않고 있다. 본 연구는 인터넷 불법금융광고 게시글에 파이썬 딥러닝 기반 텍스트 분류기법을 적용해 불법여부를 탐지하는 모델을 제안한다. 텍스트 분류기법으로 주로 사용되는 합성곱 신경망(CNN: Convolutional Neural Network), 순환 신경망(RNN: Recurrent Neural Network), 장단기 메모리(LSTM: Long-Short Term Memory) 및 게이트 순환 유닛(GRU: Gated Recurrent Unit)을 활용한다. 그동안 수작업으로 심사한 불법확인 결과를 기초 데이터로 이용한다. 한국어 자연어처리와 딥러닝 모델의 하이퍼파라미터 조절을 통해 최적의 성능을 보이는 모델을 완성하였다. 본 연구는 그동안 이뤄지지 않았던 인터넷 불법금융광고 판별을 위한 딥러닝 모델을 제시하였다는데 큰 의미가 있다. 또한 딥러닝 모델에서 91.3~93.4% 수준의 정확도를 보임으로써 불법금융광고 탐지에 딥러닝 모델을 실제 적용하여 불법금융광고 근절에 기여할 수 있기를 기대해 본다.

2015 및 2022 개정 초등학교 과학과 교육과정에 대한 비교 - 네트워크 분석을 중심으로 - (Comparing the 2015 with the 2022 Revised Primary Science Curriculum Based on Network Analysis)

  • 조헌국
    • 한국초등과학교육학회지:초등과학교육
    • /
    • 제42권1호
    • /
    • pp.178-193
    • /
    • 2023
  • 본 연구는 2015 및 2022 개정 과학과 교육과정 중 초등학교급과 관련된 성취기준을 중심으로 네트워크 분석을 통해 어떠한 변화 양상을 갖는지 비교하고 이를 토대로 초등학교 과학 교수학습을 위한 시사점을 제공하는 것을 목적으로 하였다. 이에 따라 본 연구에서는 2015 및 2022 개정 초등 과학과 교육과 정의 성취기준을 추출하여 성취기준 영역 변화에 따른 차이를 살펴보고, 각 영역별 중심성 지수를 중심으로 한 비교, 커뮤니티 탐지 기법을 활용한 군집 분석을 통해 어떠한 변화가 있는지 분석하였다. 연구 결과, 2015 개정 과학과 교육과정에 비해 전체 성취기준은 10% 가량 감소하였으나, 성취 기준의 길이나 주요어의 빈도는 오히려 증가하였으며, 관찰이나 조사, 설명 외에도 공유, 실천, 설계 등 디지털 도구활용 및 협동학습과 관련된 과정·기능적 측면이 강조되었다. 그러나 이러한 변화는 과학의 각 영역에 따라 서로 다른 차이를 보임을 알 수 있었다. 또한 군집 분석 결과 대체적으로 군집의 숫자나 관련 개념이나 용어의 영역은 유사하였으나, 과정·기능 및 가치·태도와 관련된 주요어를 중심으로 수행 방식 등에 변화가 나타났음을 확인할 수 있었다. 이러한 연구 결과를 토대로 본 연구에서는 새로운 교육과정의 적용 시 고려해야 할 점들을 시사점으로 제시하였다.

OLAP 큐브에서의 집계함수 AVG의 적용 (Applying an Aggregate Function AVG to OLAP Cubes)

  • 이승현;이덕성;최인수
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권1호
    • /
    • pp.217-228
    • /
    • 2009
  • 데이터에 내재되어 있는 특이 패턴을 찾고자 데이터 분석을 할 때에 보통 다차원적인 데이터 집계를 하는데, 이때에 표준 SQL 쿼리를 사용해도 좋지만 쿼리가 아주 복잡해진다는 단점이 생기게 된다. 쿼리가 복잡해지면 표준 테이블을 여러 번 참조해야 되고 결과적으로 쿼리의 성능이 저하된다는 뜻이다. OLAP 쿼리는 복잡한 것이 대다수이기 때문에 SQL 쿼리를 대신할 새로운 집계용 연산자인 데이터 큐브를 간단히 불러 큐브를 만들 필요가 생기는 것이다. 집계를 하고, 부분 합을 구하는 것과 같은 OLAP 업무를 지원해 주는 것이 데이터 큐브이다. 이러한 데이터 큐브를 작성하는데 관련된 집계함수에는 여러 가지가 있는데, 이를 분배적 함수, 대수적 함수 그리고 전체관적 함수의 3가지로 분류할 수 있다. 이 중, SUM, COUNT, MAX, MIN과 같은 분배적 함수는 데이터 큐브를 작성하는 데에 직접사용 할 수 있고, AVG와 같은 대수적 함수는 매개함수를 활용하면 사용가능 하다고 알려져 있다. 즉, AVG 자체는 분배적 함수가 아니지만, (SUM, COUNT)와 같은 매개함수로 분배적 함수가되기 때문에 매개함수를 이용하여 구하면 된다는 뜻이다. 그러나 본 연구에서는 (SUM, COUNT)와 같은 매개함수를 통해 AVG를 구하는 것이 OLAP 큐브 작성에 적용시킬 수 없다는 사실을 확인했으며, 결과적으로 이 매개함수를 활용하면 잘못된 결론에 다다르고 그릇된 의사결정을 하게 된다는 사실을 확인하게 되었다. 따라서 본 연구에서는 집계함수 AVG를 OLAP 큐브에 적용시켰을 때의 여러 문제점을 밝혀내고 또한 이들 문제점을 해결할 방안을 찾고자 하는 데에 목적을 두고 있다.

주거환경에 대한 거주민의 만족도와 영향요인 분석 - 직방 아파트 리뷰 빅데이터와 딥러닝 기반 BERT 모형을 활용하여 - (Analysis of Resident's Satisfaction and Its Determining Factors on Residential Environment: Using Zigbang's Apartment Review Bigdata and Deeplearning-based BERT Model)

  • 권준현;이수기
    • 지역연구
    • /
    • 제39권2호
    • /
    • pp.47-61
    • /
    • 2023
  • 주거환경에 대한 만족도는 주거지 선택 및 이주 등에 영향을 미치는 주요인으로, 도시에서의 삶의 질과 직접적으로 연결된다. 최근 온라인 부동산 서비스의 증가로 주거환경에 대한 사람들의 만족도를 쉽게 확인할 수 있으며, 사람들이 평가하는 내용을 바탕으로 주거환경 만족 요인에 대한 분석이 가능하다. 이는 기존에 활용되던 설문조사 등의 방식보다 더 많은 양의 평가를 효율적으로 활용할 수 있음을 의미한다. 본 연구는 서울특별시를 대상으로 온라인 부동산 서비스인 '직방'에서 수집된 약 3만여 건의 아파트 리뷰를 분석에 활용하였다. 리뷰에 포함된 추천 평점을 토대로, 아파트 리뷰를 긍정적, 부정적으로 분류하고, 딥 러닝 기반 자연어 처리 모델인 BERT(Bidirectional Encoder Representations from Transformers)를 사용하여 리뷰를 자동으로 분류하는 모델을 개발하였다. 이후 SHAP(SHAPley Additive exPlanation)를 이용하여 분류에 중요한 역할을 하는 단어 토큰을 도출함으로 주거환경 만족도의 영향요인을 도출하였다. 더 나아가 Word2Vec을 이용하여 관련 키워드를 분석함으로써 주거환경에 대한 만족도 개선을 위한 우선 고려사항을 제시하였다. 본 연구는 거주자의 정성평가 자료인 아파트 리뷰 빅데이터와 딥러닝을 활용하여 주거환경에 대한 만족도를 긍정적, 부정적으로 자동 분류하는 모형을 제안하여 그 영향요인을 도출하는데 의의가 있다. 분석결과는 주거환경 만족도 향상을 위한 기초자료로 활용될 수 있으며 향후 아파트 단지 인근 주거환경 평가, 신규 단지 및 기반시설의 설계 및 평가 등에 활용될 수 있다.