• 제목/요약/키워드: 논문제목

검색결과 313건 처리시간 0.03초

단문 텍스트의 자연어 처리 기법을 통한 크라우드 펀딩 추천 시스템 개발 (Development of a Recommendation System for Crowdfunding Using NLP in Short Text)

  • 이영아;이선명;이주연;이기용
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.466-469
    • /
    • 2021
  • 최근 자연어 처리에 대한 관심이 증가함에 따라 자연어 처리 기술을 활용한 다양한 추천 시스템이 등장하고 있다. 본 논문에서는 자연어 처리를 이용한 서비스를 개발한다. 본 논문에서 개발한 서비스는 KoNLPy 와 Word2Vec 을 이용하여 크라우드 펀딩 프로젝트 창작자 및 후원자에게 키워드 및 키워드와 유사한 단어가 제목에 포함되는 프로젝트를 추천해준다. 단문 텍스트로서 프로젝트 제목을 사용하여 데이터를 자연어 처리 한 후, 딥러닝 모델에 적용시켜 추출한 데이터를 기반으로 창작자와 후원자에게 추천해주는 방식이다. 따라서 본 서비스는 프로젝트 제목 정보를 통한 추천 시스템의 개발로, 나아가 영화, 도서와 같은 콘텐츠 추천 분야에도 적용할 수 있을 것으로 기대한다.

메일 주소 유효성과 제목-내용 가중치 기법에 의한 스팸 메일 필터링 (Junk-Mail Filtering by Mail Address Validation and Title-Content Weighting)

  • 강승식
    • 한국멀티미디어학회논문지
    • /
    • 제9권2호
    • /
    • pp.255-263
    • /
    • 2006
  • 스팸 메일의 특성을 분석해 보면 스팸 메일 발송 프로그램이 메일 헤더에 기록된 주소와 송신자 및 수신자 메일 주소가 일치하지 않는 경우가 빈번하게 발견된다. 또한, 스팸 메일과 정상적인 메일을 비교-분석해 보면 제목만 살펴봐도 스팸 메일인지 여부를 쉽게 판별할 수가 있다. 본 논문에서는 이와 같은 스팸 메일의 특성을 이용하여 스팸 메일 필터링 시스템의 성능을 향상시키는 방안으로 메일 주소 유효성 검사 및 제목과 내용을 구분하여 각각 스팸 확률을 계산하는 기법을 제안하였다. 제안한 방법의 효용성을 검증하기 위하여 단순 베이스 기법에 대해 주소 유효성 검사 및 제목과 내용 등 각 요인의 중요도에 따른 스팸 메일 필터링의 성능 향상 정도를 측정하였다. 그 결과로, 제안한 방법을 적용했을 때 재현율이 11.6%, 정확률은 2.1%의 성능 향상 효과가 있음을 확인하였으며, 스팸 메일 필터링 시스템의 성능 향상에 많은 기여를 하는 것을 알 수 있었다.

  • PDF

텍스트마이닝과 동시출현단어분석을 이용한 한국, 중국, 일본의 우제목 연구 동향 분석 (The Tresnds of Artiodactyla Researches in Korea, China and Japan using Text-mining and Co-occurrence Analysis of Words)

  • 이병주;김백준;이제민;어수형
    • 한국환경생태학회지
    • /
    • 제33권1호
    • /
    • pp.9-15
    • /
    • 2019
  • 우제목은 짝수 개의 발굽을 갖는 포유동물로 다양한 종이 전 세계적으로 광범위하게 서식하고 있다. 최근 국내에서는 멧돼지, 고라니와 같은 야생 우제목 동물에 의한 농작물 피해, 로드킬 등의 급증과 산양, 사향노루 등 일부 종의 개체수 급감으로 사회적 관심을 받고 있다. 그러나 이러한 사회적 관심에도 불구하고 우제목 관련 국내 연구는 매우 부족하며, 국내 우제목의 연구 동향 분석도 이루어지지 않아 실질적인 문제점을 파악하는데 어려움이 있다. 최근 연구 동향분석에 있어 텍스트마이닝과 동시출현단어분석은 연구 문헌들에서 나타나는 주요 단어들을 추출하고 단어들 간의 연관성을 정량화하는데 활용되고 있으며, 연구 주제의 분류에 있어 객관성을 증가시킨다. 본 연구에서는 텍스트마이닝과 동시출현단어분석을 통해 한국, 중국, 일본 3국의 우제목 연구 논문을 분석하고 국가별 연구 주제를 비교하여, 국내 우제목 연구에서의 부족한 점과 향후 필요한 점을 알아보고자 하였다. 각 국가별로 우제목과 관련된 연구 논문을 검색하여 수집한 665편의 논문들에 대한 텍스트마이닝 결과, 총 199개 단어가 추출되었다. 추출된 단어들에 대한 동시출현단어분석 결과 3개의 단어군이 형성되었다. 각 단어군에 포함된 단어들을 살펴본 결과, 단어군1은 "서식환경/생태", 단어군2는 "질병", 단어군3은 "보전유전학/분자생태"와 관련 있는 것으로 판단된다. 국가별로 각 단어군의 비율을 살펴본 결과, 중국과 일본은 비교적 고른 단어군 비율을 나타낸 반면, 한국은 "질병"과 관련된 단어군2의 비율이 69%로 상당히 큰 편중을 나타내었다. 연도에 따른 각 단어군별 단어수 회귀 분석 결과에서도 중국과 일본은 3개의 단어군에 해당하는 단어수가 시간 경과에 따라 비교적 고르게 증가하였지만, 한국은 단어군2의 증가율이 나머지 단어군의 5배 이상을 나타냈다. 국내 우제목 연구는 중국과 일본에 비해 질병과 관련된 연구 위주로 진행된 것으로 판단되며, 서식 특성, 행동, 분자생태를 포함한 연구는 매우 적게 수행된 것으로 판단된다. 향후 국내 야생 우제목 동물에 의한 피해 조절과 멸종위기종 보호를 위한 합리적인 정책 수립을 위해, 야생 우제목에 대한 생태 연구를 집중적으로 실시하여 기초생태 자료를 축적시켜 나가야 할 것이다.

텍스트 기반 논문 유사도 계산 방안 (A Text-based Similarity Measure for Scientific Literature)

  • 윤석호;황원석;김상욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 춘계학술발표대회
    • /
    • pp.858-859
    • /
    • 2010
  • 본 논문에서는 텍스트 기반 유사도 계산 방안을 이용하여 논문들 간의 유사도를 계산하는 방안을 제안한다. 논문 데이터베이스에는 논문의 본문이 거의 저장되어 있지 않다. 따라서 논문 데이터베이스에 저장되어 있는 논문의 제목과 요약글들의 키워드들을 이용하여 기존 텍스트 기반 유사도 계산 방안으로 논문들 간의 유사도를 계산할 수 있다. 그러나 논문의 제목과 요약글은 논문의 본문이 가지고 있는 키워드들에 비해서 너무나도 적은 수의 키워드들을 가지고 있기 때문에 해당 키워드들만으로 논문들 간의 유사도를 계산하면 정확도가 낮을 수 있다. 따라서 본 논문에서는 논문을 표현하는 키워드의 수를 증가시키기 위해서 새로운 논문 유사도 계산 방안을 제안한다. 실험을 통하여 제안하는 방안의 우수성을 검증한다.

문헌정보학의 정보행동과 의학분야의 건강정보탐색행동에 대한 연구들의 비교 분석 (A Comparative Analysis of Research on LIS Information Behavior and Health Information Seeking Behavior)

  • 김은기
    • 한국비블리아학회지
    • /
    • 제30권2호
    • /
    • pp.167-187
    • /
    • 2019
  • 본 논문은 정보행동 분야에 상당한 연구가 진척된 문헌정보분야의 정보행동에 관한 연구와 의학분야의 건강정보탐색행동 연구를 비교하였다. 이 연구는 계량서지학적 접근으로 진행하였다. 연구 실행을 위해 Scopus 데이터베이스를 사용하여 서지기록들을 문헌정보학과 건강과의학 분야별로 데이터 세트를 구성하였다. 계량서지학적 분석은 다음과 같은 영역으로 실행하였다: 출판된 논문, 인용, 논문지, 저자키워드, 제목에서 고유한 단어, 제목에서 "information" 앞에 이용되는 단어들, 제목에서 "study" 앞에 이용되는 단어들, 제목에서 국가명을 표기한 단어들, 저자 키워드와 색인 키워드. 결과적으로, 두 분야에서 드러난 정보행동에 관한 연구영역에서의 주요차이점은 정의, 주된 초점, 일반적인 인구통계학적 그룹에서 분명하게 나타났다. 이러한 다양한 차이점은 두 학계 연구자들에게 정보 탐색과 정보행동을 연구하는데 있어 학계별 특수한 차이와 상황들에 따라 유연하게 접근하고 적용해야 함을 시사하였다.

심층적 의미 매칭을 이용한 cQA 시스템 질문 검색 (Question Retrieval using Deep Semantic Matching for Community Question Answering)

  • 김선훈;장헌석;강인호
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.116-121
    • /
    • 2017
  • cQA(Community-based Question Answering) 시스템은 온라인 커뮤니티를 통해 사용자들이 질문을 남기고 답변을 작성할 수 있도록 만들어진 시스템이다. 신규 질문이 인입되면, 기존에 축적된 cQA 저장소에서 해당 질문과 가장 유사한 질문을 검색하고, 그 질문에 대한 답변을 신규 질문에 대한 답변으로 대체할 수 있다. 하지만, 키워드 매칭을 사용하는 전통적인 검색 방식으로는 문장에 내재된 의미들을 이용할 수 없다는 한계가 있다. 이를 극복하기 위해서는 의미적으로 동일한 문장들로 학습이 되어야 하지만, 이러한 데이터를 대량으로 확보하기에는 어려움이 있다. 본 논문에서는 질문이 제목과 내용으로 분리되어 있는 대량의 cQA 셋에서, 질문 제목과 내용을 의미 벡터 공간으로 사상하고 두 벡터의 상대적 거리가 가깝게 되도록 학습함으로써 의사(pseudo) 유사 의미의 성질을 내재화 하였다. 또한, 질문 제목과 내용의 의미 벡터 표현(representation)을 위하여, semi-training word embedding과 CNN(Convolutional Neural Network)을 이용한 딥러닝 기법을 제안하였다. 유사 질문 검색 실험 결과, 제안 모델을 이용한 검색이 키워드 매칭 기반 검색보다 좋은 성능을 보였다.

  • PDF

국제학술회의 참관기-「과학과 사회의 기술화」학술회의

  • 한국과학기술단체총연합회
    • 과학과기술
    • /
    • 제31권7호통권350호
    • /
    • pp.84-85
    • /
    • 1998
  • 지난 3월16일부터 1주일동안 일본 동경 등 3개 도시에서는 과학과 사회의 기술화라는 제목으로 33개국으로부터 2백 60여명의 학자들이 참석한 가운데 국제학술대회가 열렸다. 우리나라에선 필자를 비롯해 한림대 송상용교수와 전북대 정광수교수등 3명이 참석했는데 정교수는 '한국과학화의 현황과 전망'이라는 제목의 논문을 발표, 참석자들로부터 관심을 모았다.

  • PDF

복수 자질에 의한 지적 구조의 계량정보학적 분석연구: 국내 대학도서관 분야 연구논문을 대상으로 (An Informetric Analysis on Intellectual Structures with Multiple Features of Academic Library Research Papers)

  • 최상희
    • 정보관리학회지
    • /
    • 제28권2호
    • /
    • pp.65-78
    • /
    • 2011
  • 이 연구는 계량정보학적 기법을 적용하여 대학도서관의 연구분야를 파악하고자 하는 것이다. 적용된 계량정보학 기법은 용어클러스터링과 패스파인더 네트워크 알고리즘이다. 연구분야 분석을 위하여 2005년부터 2009년 동안 주요 학술지에 발표된 139건의 논문을 한국과학기술인용색인서비스(KSCI)에서 검색하여 데이터 콜렉션을 구축하였으며 연구분야를 분석하는 데 사용한 자질은 초록과 인용문헌의 제목에서 추출되었다. 분석 결과 인용문헌의 제목은 세분화된 연구분야를 표현하는 데 적절한 것으로 분석되었으며 초록과 인용문헌의 제목을 결합하여 적용하면 연관주제로 확장하여 주제구조를 효과적으로 표현해주는 것으로 나타났다.

포털 뉴스섹션의 편집요인이 뉴스 이용자의 기사선택에 미치는 영향에 대한 분석 (An Analysis of the influence of the Editorial Elements of Portal News Section on the News User's Choice of Articles)

  • 박광순
    • 한국산학기술학회논문지
    • /
    • 제13권5호
    • /
    • pp.2087-2095
    • /
    • 2012
  • 본 연구에 이용된 편집요인은 뉴스 카테고리, 사진기사, 굵은 활자체의 기사제목, 신문제호, 기사제목의 내용 등으로 구성되었다. 이 같은 요인 중 사진기사, 굵은 활자체의 기사제목, 기사제목의 내용 등 3개 요인만이 뉴스 이용자들의 기사선택에 영향을 미치는 것으로 나타났다. 이들 요인을 포털뉴스 이용시간의 차이에 따른 분석에서는 뉴스 카테고리, 굵은 활자체의 기사제목, 신문제호 등 3개 요인만이 영향을 미치는 것으로 나타났다. 뉴스 장르가 뉴스 이용자들의 기사선택에 미치는 영향에 대한 분석에서는 정치, 경제, 사회, 스포츠, 문화/연예, 국제, IT/과학 장르 중 사회, 문화/연예, 국제 등 3개 요인만이 이용자들의 기사선택에 영향을 미치는 것으로 나타났다. 이들 요인에 대한 남녀집단 간의 분석에서는 경제, 스포츠, 문화/연예, IT/과학 등 4개 장르에서 기사선택에 차이가 있는 것으로 나타났다. 본 연구는 오프라인 신문에 비해 다양한 방식으로 기사를 노출시키는 온라인 매체에서 전통적인 신문편집의 요소가 기사선택에 어떠한 영향을 미치는가를 파악하여 온 오프라인 신문 간 편집요소의 역할에 대한 차이와 온라인 매체에서의 효과적인 편집방안을 수립하는데 기초적인 단서를 제공할 목적으로 수행되었다.

문서범주화 성능 향상을 위한 의미기반 자질확장에 관한 연구 (A Semantic-Based Feature Expansion Approach for Improving the Effectiveness of Text Categorization by Using WordNet)

  • 정은경
    • 정보관리학회지
    • /
    • 제26권3호
    • /
    • pp.261-278
    • /
    • 2009
  • 기계학습 기반 문서범주화 기법에 있어서 최적의 자질을 구성하는 것이 성능향상에 있어서 중요하다. 본 연구는 학술지 수록 논문의 필수적 구성요소인 저자 제공 키워드와 논문제목을 대상으로 자질확장에 관한 실험을 수행하였다. 자질확장은 기본적으로 선정된 자질에 기반하여 WordNet과 같은 의미기반 사전 도구를 활용하는 것이 일반적이다. 본 연구는 키워드와 논문제목을 대상으로 WordNet 동의어 관계 용어를 활용하여 자질확장을 수행하였으며, 실험 결과 문서범주화 성능이 자질확장을 적용하지 않은 결과와 비교하여 월등히 향상됨을 보여주었다. 이러한 성능향상에 긍정적인 영향을 미치는 요소로 파악된 것은 정제된 자질 기반 및 분류어 기준의 동의어 자질확장이다. 이때 용어의 중의성 해소 적용과 비적용 모두 성능향상에 영향을 미친 것으로 파악되었다. 본 연구의 결과로 키워드와 논문제목을 활용한 분류어 기준 동의어 자질 확장은 문서 범주화 성능향상에 긍정적인 요소라는 것을 제시하였다.