통합 검색 | Korea Science

파일명 자동 부착 서비스를 위한 비지도 학습 기반 파일명 추출방법 (For Automatic File Name Attachment Service Unsupervised Learning-based File Name Extraction Method)

선주오;장영진;김학수
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
- /
- pp.596-599
- /
- 2022
심층 학습은 지속적으로 발전하고 있으며, 최근에는 실제 사용자에게 제공되는 애플리케이션까지 확장되고 있다. 특히 자연어처리 분야에서는 대용량 언어 말뭉치를 기반으로 한 언어모델이 등장하면서 사람보다 높은 성능을 보이는 시스템이 개발되었다. 그러나 언어모델은 높은 컴퓨팅 파워를 요구하기 때문에 독립적인 소형 디바이스에서 제공할 수 있는 서비스에 적용하기 힘들다. 예를 들어 스캐너에서 제공할 수 있는 파일명 자동 부착 서비스는 하드웨어의 컴퓨팅 파워가 제한적이기 때문에 언어모델을 적용하기 힘들다. 또한, 활용할 수 있는 공개 데이터가 많지 않기 때문에, 데이터 구축에도 높은 비용이 요구된다. 따라서 본 논문에서는 컴퓨팅 파워에 비교적 독립적이고 학습 데이터가 필요하지 않은 비지도 학습을 활용하여 파일명 자동 부착 서비스를 위한 파일명 추출 방법을 제안한다. 실험은 681건의 문서 OCR 결과에 정답을 부착하여 수행했으며, ROUGE-L 기준 0.3352의 성능을 보였다.
PDF

인공지능기반의 키워드 중심 회의록 자동 생성 시스템 (Automatic Creation of Artificial Intelligence Meeting Minutes System using Korean Keyword Extraction)

강수지;유진주;이태림;이하연;임양미
- 한국방송∙미디어공학회:학술대회논문집
- /
- 한국방송∙미디어공학회 2021년도 추계학술대회
- /
- pp.299-300
- /
- 2021
비대면 시대로 인한 화상 회의의 중요성이 높아졌다. 하지만 현재까지도 회의기록의 문서화 작업은 수작업으로 이루어지고 있어 시간과 인적자원이 많이 소모되고 있다. 본 논문은 기존 수작업으로 진행되는 회의 문서화 과정의 문제점을 개선하고자 한국어 키워드 추출을 활용한 인공지능 회의록 자동 생성 시스템을 제안한다. 회의 음성 파일을 기반으로 STT 기술을 활용한 회의 전문을 자동 생성하고 전문에 KR-WordRank 알고리즘을 적용해 키워드를 추출, Summary API를 사용하여 요약본을 생성한다. 최종 결과로 회의 전문과 키워드, 요약본이 담긴 PDF 형식의 회의록을 사용자에게 제공하여, 수기 회의록 작성 시 들이는 시간적, 인적 비용 절감을 돕는다.
PDF

협업 필터링을 이용한 순위 정렬 모델 기반 (IP)TV 프로그램 자동 추천 (Automatic Recommendation of (IP)TV programs based on A Rank Model using Collaborative Filtering)

김은희;표신지;김문철
- 방송공학회논문지
- /
- 제14권2호
- /
- pp.238-252
- /
- 2009
방송과 융합의 시대로 접어들면서 (IP)TV 단말에서 이용 가능한 프로그램 콘텐츠 수가 급격히 증가 하였다. 이로 인해, 사용자 (시청자)가 선호하는 방송 프로그램 콘텐츠로의 접근성이 주요한 사항이 되었다. 본 논문은 유사 사용자 선호도에 기반을 둔 협업 필터링을 이용하여(IP)TV 프로그램을 효율적으로 사용자에게 자동 추천하는 연구에 관한 내용이다. 개인의 시청 프로그램 선호도를 고려하여 방송 프로그램을 추천하기 위해서, 제안하는 추천 시스템의 구성은 오프라인과 온라인 연산으로 구성된다. 오프라인 연산과정에서 (IP)TV 프로그램, 장르, 채널에 대한 개인의 선호도를 묵시적으로 추론 하는 방법을 제시하고, 동적 퍼지 클러스터링 방법을 사용하여 각 개인의 선호도에 따라 사용자들을 그룹 짓되, 특징 벡터를 장르와 채널에 대한 선호도로 결합하여 사용하는 방법을 제시한다. 또한, (IP)TV 단말에 로그인 한 활동 사용자에게, 높은 정확도로 선호 프로그램을 추천하기 위해서, 활동 사용자와 관심 시청 프로그램이 유사한 사용자들을 유사도 측정 방법을 사용하여 한 번 더 추출하고, 이 추출된 유사 취향 사용자들의 선호 (IP)TV 프로그램들에 대해, EPG를 이용하여 현재 방송되지 않는 프로그램들을 제외시킨다. 마지막 단계에서는 추천 후보 프로그램들에 대해 본 논문에서 제안하는 순위 정렬 모델을 이용하여 추천 우선순위를 결정하여 제시한다. 특별히, 본 논문은 BM(Best Match) 알고리즘을 확장하여 개인 선호도를 고려한 순위 정렬 모델을 제시한다. 실험을 통해, 본 논문에서 제안한 프로그램 자동 추천 알고리듬은 2,441명의 사용자에 대해 5개의 프로그램을 추천하였을 경우, 62.1%의 예측 정확도를 나타내었다.
https://doi.org/10.5909/JBE.2009.14.2.238 인용 PDF KSCI

확률적 온톨로지와 연구자 네트워크를 이용한 심사자 자동 추천에 관한 연구 (Automatic Recommendation of Panel Pool Using a Probabilistic Ontology and Researcher Networks)

이정연;이재윤;강인수;신숙경;정한민
- 정보관리학회지
- /
- 제24권3호
- /
- pp.43-65
- /
- 2007
심사자 자동추천시스템은 심사 대상에 대한 포괄성, 전문성, 공정성, 타당성을 확보할 수 있도록 설계되어야 한다. 이를 위해 본 연구는 다면적인 학문분야분류표의 각 범주 간 연관성을 자동으로 산출할 수 있는 확률적 온톨로지를 적용하여 포괄적으로 심사자 추천 범위를 넓히고 전문성을 반영한 심사자 랭킹을 가능하도록 한다. 또한 연구자 간의 멘터, 공저역, 공동연구를 포함하는 연구자 네트워크를 구축하고 이를 심사자 배제 규칙으로 활용함으로써 공정한 심사자 추천이 이루어질 수 있도록 한다. 아울러, 전문가들을 통해 상기 방법론과 패널 결과를 검증 받아 타당성 있는 시스템이 갖추어야 할 방향을 제시한다.
https://doi.org/10.3743/KOSIM.2007.24.3.043 인용 PDF

자동화된 통합 프레임워크를 위한 시맨틱 웹 기반의 정보 검색 시스템 (Semantic Web based Information Retrieval System for the automatic integration framework)

최옥경;한상용
- 정보처리학회논문지C
- /
- 제13C권1호
- /
- pp.129-136
- /
- 2006
정보 검색 시스템은 사용자가 찾고자 하는 지식 정보를 보다 정확하고 빠르게 전달하는 데 그 목적이 있다. 그러나 현재의 검색 시스템은 단순 구문 분석 방식으로 사용자가 원하는 정확한 정보를 제공하지 못한다. 따라서 본 논문에서는 온톨로지 서버를 이용한 SW-IRS(Semantic Web based Information Retrieval System)를 제안한다. 제안한 시스템은 에이전트 기반의 자동 분류 기술과 시맨틱 점 기반의 정보 검색 기법들을 이용하여 반구조(semi-structured) 문서뿐만 아니라 비구조(unstructured) 문서의 처리를 극대화시키고자 한다. 또한 상호 운용성 및 데이터 통합을 위해 RDF(Resource Description Framework) 방식의 문서 저장 서버를 지원하며 웹 페이지들간에 검색 순위를 두어 보다 신속하고 정확한 정보 검색이 가능하도록 하고자 한다. 마지막으로 새로운 순위 측정 알고리즘을 제안하고 이를 이용한 성능 평가를 실시하여 그 효율성과 정확성을 검증해 보이고자 한다.
https://doi.org/10.3745/KIPSTC.2006.13C.1.129 인용 PDF KSCI

색인어 선정을 위한 어휘결집력에 관한 연구 (Study on the Vocabulary Synthesis for Index Term Selection)

김철;정준민
- 정보관리학회지
- /
- 제13권1호
- /
- pp.205-226
- /
- 1996
본 연구는 정보결집력을 응용한 자동 색인어 선정 기법에 관한 연구로 한 문장내에 나타난 임의의 어휘가 그 문장을 표현하기 위한 의미있는 집합이라는 가설 하에 어휘쌍 그래프를 통하여 색인어를 추출하였다. 특히, 그래프에 나타난 어휘 관계에서 각 어휘의 전체 어휘쌍 그래프에 대한 결집력을 분석하여 그 결집력을 색인어 선정의 우선 순위로 제안하였다. 가설을 검증하기 위하여 먼저 논문의 제목 및 초록에서 두 문장 이상에 동시 출현한 어휘쌍을 추출하였다. 다음으로 추출한 어휘쌍과 저자가 제시한 색인어 또는 주제명과 비교하였으며 그 결과 어휘쌍 그래프에 나타난 어휘가 대부분 색인어 또는 주제명에 사용되고 있음을 분석하였다. 그 중에서도 특히, 어휘쌍 그래프에서 어휘결집력이 높은 어휘일수록 그 논문의 내용을 전달하는 의미있는 색인어로 채택될 가능성이 높음을 보여 주었다.
PDF

Text Summarization on Large-scale Vietnamese Datasets

Ti-Hon, Nguyen;Thanh-Nghi, Do
- Journal of information and communication convergence engineering
- /
- 제20권4호
- /
- pp.309-316
- /
- 2022
This investigation is aimed at automatic text summarization on large-scale Vietnamese datasets. Vietnamese articles were collected from newspaper websites and plain text was extracted to build the dataset, that included 1,101,101 documents. Next, a new single-document extractive text summarization model was proposed to evaluate this dataset. In this summary model, the k-means algorithm is used to cluster the sentences of the input document using different text representations, such as BoW (bag-of-words), TF-IDF (term frequency - inverse document frequency), Word2Vec (Word-to-vector), Glove, and FastText. The summary algorithm then uses the trained k-means model to rank the candidate sentences and create a summary with the highest-ranked sentences. The empirical results of the F1-score achieved 51.91% ROUGE-1, 18.77% ROUGE-2 and 29.72% ROUGE-L, compared to 52.33% ROUGE-1, 16.17% ROUGE-2, and 33.09% ROUGE-L performed using a competitive abstractive model. The advantage of the proposed model is that it can perform well with O(n,k,p) = O(n^(k+2/p)) + O(nlog₂n) + O(np) + O(nk²) + O(k) time complexity.
https://doi.org/10.56977/jicce.2022.20.4.309 인용 PDF KSCI

후보 단어 리스트와 확률 점수에 기반한 한국어 문자 인식 모델 (Candidate Word List and Probability Score Guided for Korean Scene Text Recognition)

이윤지;이종민
- 한국정보통신학회:학술대회논문집
- /
- 한국정보통신학회 2022년도 춘계학술대회
- /
- pp.73-75
- /
- 2022
글자 인식 시스템은 무인 로봇, 자율 주행 자동차 등 자동화를 필요로 하는 인공지능 분야에서 사용되는 기술로, 주변 환경에 여러 장애물이 있음에도 글자를 정확하게 인식하는 것을 말한다. 영어만 인식했던 기존의 연구와 달리, 본 논문은 영어, 한국어, 특수문자와 숫자를 포함한 다양한 문자가 혼재되어 있는 경우에도 강한 인식률을 보여준다. 가장 높은 확률 값을 갖는 클래스 하나 만을 선택하는 것이 아닌 차 순위의 확률도 함께 고려하여 후보 단어 리스트를 생성하고, 이로 인해 기존에 오인식되는 단어를 교정할 수 있는 방법을 제안한다.
PDF

온 디바이스 국방 AI를 위한 PEFT 효용성 연구 (Research on PEFT Feasibility for On-Device Military AI)

배기민;이학진;김세옥;이장형
- 한국컴퓨터정보학회:학술대회논문집
- /
- 한국컴퓨터정보학회 2024년도 제69차 동계학술대회논문집 32권1호
- /
- pp.51-54
- /
- 2024
본 논문에서는 온 디바이스 국방 AI를 위한 효율적인 학습 방법을 제안한다. 제안하는 방법은 모델 전체를 재학습하는 대신 필요한 부분만 세밀하게 조정하여 계산 비용과 시간을 대폭 줄이는 PEFT 기법의 LoRa를 적용하였다. LoRa는 기존의 신경망 가중치를 직접 수정하지 않고 추가적인 낮은 랭크의 매트릭스를 학습하는 방식으로 기존 모델의 구조를 크게 변경하지 않으면서도, 효율적으로 새로운 작업에 적응할 수 있다. 또한 학습 파라미터 및 연산 입출력에 데이터에 대하여 32비트의 부동소수점(FP32) 대신 부동소수점(FP16, FP8) 또는 정수형(INT8)을 활용하는 경량화 기법인 양자화도 적용하였다. 적용 결과 학습시 요구되는 GPU의 사용량이 32GB에서 5.7GB로 82.19% 감소함을 확인하였다. 동일한 조건에서 동일한 데이터로 모델의 성능을 평가한 결과 동일 학습 횟수에선 LoRa와 양자화가 적용된 모델의 오류가 기본 모델보다 53.34% 증가함을 확인하였다. 모델 성능의 감소를 줄이기 위해서는 학습 횟수를 더 증가시킨 결과 오류 증가율이 29.29%로 동일 학습 횟수보다 더 줄어듬을 확인하였다.
PDF

기계학습에 기반한 생의학분야 전문용어의 자동인식 (Machine-Learning Based Biomedical Term Recognition)

오종훈;최기선
- 한국정보과학회논문지:소프트웨어및응용
- /
- 제33권8호
- /
- pp.718-729
- /
- 2006
일정 분야의 문서들에서 그 분야 특정을 반영하는 전문용어를 자동으로 인식하는 연구에 대한 관심이 증가하고 있다. '전문용어 인식'은 문서에서 전문용어가 될 수 있는 언어적 단위를 파악하는 '용어 추출' 과정과 '용어추출' 과정에서 얻어진 용어목록 중 해당분야의 전문용어를 고르는 '전문용어 선택' 과정으로 구성된다. '전문용어 선택' 과정은 용어목록을 전문용어의 특정에 따라 순위화한 후 타당한 전문용어를 파악하는 작업으로 정의된다. 따라서 전문용어 선택 문제는 용어목록의 순위화 작업과 순위화된 목록에서 전문용어와 비전문용어 간의 경계를 인식하는 작업으로 정의된다. 기존의 전문용어 선택 기법은 주로 용어의 빈도수 등과 같은 통계적 특정만을 이용하였다. 하지만 통계적 특정만으로는 효과적으로 전문용어를 선택하기 어렵다. 본 논문의 논제는 전문용어 선택에서 다양한 전문용어의 특정을 고려하고 이들 중 전문용어 선택에서 효과적인 특정을 찾으려는 것이다. 순위화 문제는 다양한 전문용어 특정을 도출하고 이들을 기계학습방법으로 통합하여 해결한다. 경계인식 문제는 전문용어와 비전문용어의 이진 분류 문제로 정의하고 기계학습방법으로 해결한다. 본 논문의 기법은 경계인식측면에서 78-86%의 정확률과 87% -90%의 재현율을 나타내었으며, 순위화 측면에서 89%-92%의 11포인트 평균정확률을 나타내었다. 또한 기존 연구보다 최고 26% 의 성능향상을 보였다.
PDF KSCI

검색결과 45건 처리시간 0.028초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)