[2024-12-14] AI 오픈소스 트렌드 리뷰
cohere과 deepseek의 새로운 오픈소스 언어 모델
안녕하세요, 솔론입니다.
오픈소스 언어 모델의 대표주자(?)인 cohere과 deepseek에서 새로운 오픈소스 모델들을 공개했습니다.
CohereForAI/c4ai-command-r7b-12-2024는 공식적으로 한국어를 지원하며, 128k를 지원합니다.
RAG 지원을 특히 더 강조합니다.
최근 추세 상 언어 모델들이 코딩과 수학을 강조하는 것과 조금 차이가 있습니다.
cc-by-nc 라이선스로, 비상업적 모델입니다.
deepseek-ai/deepseek-vl2는 이미지와 텍스트를 입력으로 받아 텍스트를 생성하는 비전언어모델입니다.
1B, 2.8B, 4.5B를 지원하며, 시각적 질문 답변, 광학 문자 인식, 문서/표/차트 이해 부분을 강조합니다.
오늘 올라온 모델들을 보면 논리적 텍스트 생성 또는 수학/코딩 강조보다는 각자의 특화된 점을 강조함을 확인할 수 있었습니다.
이것이 이후에도 이어질 추세일지, 아니면 일시적인 현상일지는 좀 더 확인해봐야 할 것 같습니다.
그럼 이제 오늘 [2024-12-14]의 트렌드 변화를 확인해보겠습니다.
자세한 내용들은 TrenDevSophy에서 확인해주세요.
----새로 등장한 트렌드----
CohereForAI/c4ai-command-r7b-12-2024:
CohereForAI/c4ai-command-r7b-12-2024는 70억 개의 매개변수를 가진 다국어 모델(23개 언어 지원)입니다.
추론, 요약, 질의응답, 코드 생성 등 다양한 작업에 최적화되어 있으며, RAG(Retrieval Augmented Generation) 및 툴 사용 기능을 갖추고 있습니다.
대화형 모델과 지시형 모델로 구성 가능하며, Hugging Face Open LLM Leaderboard에서 우수한 성능을 보입니다.
코드 생성 능력이 뛰어나며, 특히 엔터프라이즈 관련 코드 사용 사례에서 높은 성능을 자랑합니다.
CC-BY-NC 라이선스를 따르며, C4AI의 허용 사용 정책을 준수해야 합니다.
aiqtech/kolaw:
Hugging Face에서 제공하는 kolaw 데이터셋은 법률 판례 데이터입니다.
데이터는 csv 형식이며, 약 85,700개의 행으로 구성되어 있습니다.
데이터셋에는 판례 정보, 사건명, 사건번호, 선고일자, 판결 내용 등이 포함되어 있습니다.
데이터 크기는 약 926MB이며, Parquet 파일로 변환된 크기는 426MB입니다.
라이선스는 apache-2.0 입니다.
NexaAIDev/OmniAudio-2.6B:
OmniAudio-2.6B는 기기 내 배포를 위한 세계에서 가장 빠르고 효율적인 오디오 언어 모델로, 텍스트와 오디오 입력 모두를 처리하는 26억 매개변수의 다중 모드 모델입니다.
기존의 ASR 및 LLM 모델을 연결하는 방식과 달리, OmniAudio-2.6B는 최소 지연 시간과 리소스 오버헤드를 위해 단일 효율적인 아키텍처로 두 가지 기능을 통합합니다.
Gemma-2-2b, Whisper turbo 및 사용자 정의 프로젝터 모듈의 세 가지 구성 요소를 통합하여 에지 장치에서 안전하고 응답성이 뛰어난 오디오-텍스트 처리를 가능하게 합니다.
2024 Mac Mini M4 Pro에서 FP16 GGUF 버전은 35.23 토큰/초, Q4_K_M 정량화된 GGUF 버전은 66 토큰/초의 속도를 달성하여 기존 모델보다 5.5배에서 10.3배 빠른 성능을 제공합니다.
음성 질문응답, 음성 대화, 창작 콘텐츠 생성, 녹음 요약, 음성 톤 수정 등 다양한 용도로 사용될 수 있습니다.
deepseek-ai/deepseek-vl2:
DeepSeek-VL2는 기존 DeepSeek-VL을 개선한 대규모 전문가 혼합(MoE) 비전-언어 모델 시리즈입니다.
시각적 질문 응답, 광학 문자 인식, 문서/표/차트 이해, 시각적 근거 등 다양한 작업에서 우수한 성능을 보입니다.
DeepSeek-VL2-Tiny, DeepSeek-VL2-Small, DeepSeek-VL2 세 가지 변형으로 구성되며, 활성화 매개변수는 각각 10억, 28억, 45억 개입니다.
유사하거나 적은 활성화 매개변수로 기존 오픈소스 모델과 비교하여 경쟁력 있는 성능 또는 최첨단 성능을 달성합니다.
MIT 라이선스로 제공되며, DeepSeek 모델 라이선스가 적용되고 상업적 사용이 가능합니다.
franciszzj/Leffa:
Leffa는 외모(가상 피팅)와 자세(자세 전이)를 정밀하게 조작할 수 있는 제어 가능한 인물 이미지 생성을 위한 통합 프레임워크입니다.
기존 방법들은 높은 이미지 품질을 달성했음에도 불구하고 참조 이미지의 미세한 질감 세부 사항을 왜곡하는 경우가 많았는데, Leffa는 이러한 문제를 해결하기 위해 제안되었습니다.
Leffa는 학습 중 어텐션 레이어에서 대상 쿼리가 올바른 참조 키에 집중하도록 명시적으로 안내하는 어텐션 내 플로우 필드 학습을 통해 미세한 세부 왜곡을 줄이고 높은 이미지 품질을 유지합니다.
다양한 실험을 통해 외모 제어(가상 피팅)와 자세 제어(자세 전이) 모두에서 최첨단 성능을 달성함을 보여주었습니다.
제공된 코드는 conda 환경 생성 및 필요한 패키지 설치 방법, 로컬 실행 방법, 평가를 위한 코드, 인용 정보를 포함합니다.
KwaiVGI/SynCamVideo-Dataset:
SynCamVideo 데이터셋은 언리얼 엔진 5를 사용하여 렌더링된 다중 카메라 동기화 비디오 데이터셋입니다. 총 1,000개의 서로 다른 장면이 있으며, 각 장면은 36개의 카메라로 촬영되어 총 36,000개의 비디오로 구성됩니다.
데이터셋은 50종의 동물을 주요 피사체로 사용하며, 배경에는 Poly Haven의 20개의 서로 다른 장소가 활용됩니다. 각 장면에서 1~2개의 피사체가 선택되고 미리 정의된 궤적을 따라 움직이며, 배경은 무작위로 선택됩니다.
각 장면의 카메라는 반구형 표면에 배치되며, 장면 중심까지의 거리는 3.5m~9m입니다. 카메라의 고도는 0°~45°, 방위각은 0°~360°로 제한되어 실제 세계 비디오와의 도메인 차이를 최소화합니다.
파일 구조는 train 및 val 폴더로 구성되며, videos, cameras, caption 폴더를 포함합니다. videos 폴더에는 비디오 파일이, cameras 폴더에는 카메라 외부 매개변수가, caption 폴더에는 비디오 캡션이 저장됩니다.
제공된 `vis_cam.py` 스크립트를 사용하여 카메라 위치를 시각화할 수 있습니다.
facebook/ExploreToM:
본 데이터셋은 Facebook에서 제공하며, 마음 이론(Theory of Mind) 추론을 위한 다양하고 어려운 데이터 생성 프레임워크인 ExploreToM에 대한 정보를 담고 있습니다.
질문응답(Question Answering) 태스크를 위한 데이터셋으로, 표 형식(Tabular)과 텍스트(Text) 형식의 데이터를 CSV 파일로 제공합니다. 영어로 작성되었으며, 데이터셋 크기는 1만~10만 개의 행입니다.
마음 이론과 추론(reasoning) 관련 태그가 있으며, Datasets 및 pandas 라이브러리를 사용할 수 있습니다. 라이선스는 cc-by-nc-4.0입니다.
데이터는 13,309개의 행으로 구성되며, 각 행은 이야기 구조, 질문, 답변, 그리고 마음 이론 관련 속성 등을 포함합니다.
데이터 생성 및 분석 코드는 GitHub(https://github.com/facebookresearch/ExploreToM)에서 확인할 수 있습니다.
----인사이트 확인하기----
일간 인사이트:
LLM(대규모 언어 모델)의 발전: 메타의 Llama 시리즈, 텐센트의 HunyuanVideo, NVIDIA의 Llama-3.1-Nemotron 등 다양한 기업에서 고성능 LLM이 지속적으로 개발되고 있습니다. 특히, 매개변수 수 증가와 더불어 다국어 지원, 비디오 생성, 코드 생성 등 기능이 확장되고 있으며, 추론 속도 향상을 위한 최적화 기술도 발전하고 있습니다. 이는 LLM이 다양한 산업 분야에 적용될 가능성을 보여줍니다. 과거에는 영어 중심의 모델이 주류였으나, 최근에는 한국어를 포함한 다국어 지원 모델이 증가하는 추세입니다.
오픈소스 모델의 성장: 텐센트 HunyuanVideo와 같이 폐쇄형 모델과 경쟁 가능한 성능을 가진 오픈소스 모델이 등장하면서, 오픈소스 생태계가 활성화되고 있습니다. 이는 연구 및 개발의 문턱을 낮추고, 다양한 응용 프로그램 개발을 가속화할 것으로 예상됩니다. 과거에는 오픈소스 모델의 성능이 폐쇄형 모델에 비해 현저히 낮았지만, 최근에는 성능 격차가 줄어들고 있습니다.
멀티모달 모델의 확산: 이미지와 텍스트를 동시에 처리하는 멀티모달 모델의 개발이 활발하며, 이미지 생성, 시각적 질문 응답 등 다양한 분야에 적용되고 있습니다. Stable Diffusion 3.5 Large와 같은 고품질 이미지 생성 모델의 등장은 멀티모달 기술의 상용화 가능성을 높입니다. 과거에는 텍스트 중심의 모델이 주를 이루었으나, 최근에는 이미지, 비디오, 오디오 등 다양한 모달리티를 통합하는 모델이 주목받고 있습니다.
데이터셋의 고도화: 대용량의 고품질 데이터셋이 지속적으로 공개되고 있으며, 다국어 지원, 다양한 작업 유형(수학 문제 해결, 코드 생성, 이미지 편집 등)을 포함하는 데이터셋이 개발되고 있습니다. 이는 LLM의 성능 향상에 중요한 역할을 합니다. 과거에는 데이터셋의 양과 질이 부족하여 모델 성능 향상에 제약이 있었으나, 최근에는 대규모 고품질 데이터셋의 공개로 모델 성능 향상에 기여하고 있습니다.
효율성 향상: 모델 크기 증가에도 불구하고, 메모리 최적화 기술(8비트, 4비트 양자화 등)의 발전으로 인해 모델 실행에 필요한 자원이 줄어들고 있습니다. 이는 LLM의 접근성을 높이고, 다양한 환경에서의 활용을 가능하게 합니다. 과거에는 고성능 LLM을 실행하기 위해 고가의 하드웨어가 필요했으나, 최근에는 효율적인 알고리즘과 하드웨어 발전으로 인해 더 적은 자원으로 고성능 LLM을 실행할 수 있습니다.
라이선스 및 윤리적 고려: 오픈소스 모델의 증가와 함께, 모델 사용에 대한 라이선스 정책과 윤리적 문제에 대한 논의가 활발해지고 있습니다. 모델의 편향성, 악용 가능성 등에 대한 연구와 대책 마련이 중요해지고 있습니다. 과거에는 모델의 라이선스 및 윤리적 문제에 대한 논의가 부족했으나, 최근에는 이에 대한 인식이 높아지고 있으며, 책임 있는 AI 개발에 대한 관심이 증가하고 있습니다.
산업적 활용 확대: LLM의 발전과 함께, 다양한 산업 분야에서 LLM을 활용한 서비스가 등장하고 있으며, 자동 번역, 챗봇, 코드 생성, 이미지 생성 등 다양한 분야에서 활용되고 있습니다. 이는 LLM이 산업 전반에 걸쳐 혁신을 가져올 가능성을 시사합니다. 과거에는 LLM의 산업적 활용이 제한적이었으나, 최근에는 다양한 산업 분야에서 LLM이 활용되고 있으며, 향후 더욱 광범위한 활용이 예상됩니다.
주간 인사이트:
업계 동향 분석 인사이트:
* 대규모 언어 모델(LLM)의 발전: Meta의 Llama 3 시리즈, Tencent의 HunyuanVideo, Alibaba Cloud의 Qwen 시리즈 등 다양한 기업에서 고성능 LLM 및 비디오 생성 모델을 오픈소스로 공개하며, 업계 경쟁이 심화되고 있습니다. 특히, 매개변수 수의 증가와 함께 다국어 지원 및 다양한 작업(코딩, 이미지 생성, 비디오 생성 등)에 대한 성능 향상이 두드러집니다. 이러한 추세는 향후 더욱 다양하고 강력한 LLM의 등장을 예고하며, 개발자 커뮤니티의 활성화를 통해 기술 발전 속도가 더욱 빨라질 것으로 예상됩니다.
* 다중 모달 모델의 부상: 텍스트와 이미지, 비디오를 통합적으로 처리하는 다중 모달 모델이 주목받고 있으며, 이미지 생성 모델(FLUX, Stable Diffusion)과 비디오 생성 모델(HunyuanVideo, LTX-Video)의 발전이 이를 뒷받침합니다. 특히, 실시간 비디오 생성 기술의 발전은 미디어 콘텐츠 제작 방식에 혁신을 가져올 것으로 예상됩니다. 또한, 비전-언어 모델(ShowUI, SmolVLM)의 발전은 UI 자동화 및 인간-컴퓨터 상호 작용 분야에 새로운 가능성을 제시합니다.
* 오픈소스 모델 생태계의 확장: 다양한 기업과 연구기관에서 오픈소스 모델 및 데이터셋을 공개하며, 오픈소스 생태계가 확장되고 있습니다. 이는 개발자들의 참여를 확대하고 기술 발전을 가속화하는 긍정적인 요인입니다. 하지만, 오픈소스 모델의 품질 관리 및 윤리적 문제에 대한 논의가 필요하며, 라이선스 및 사용 조건에 대한 명확한 이해가 중요합니다.
* 데이터셋의 고도화: 대규모 고품질 데이터셋(FineWeb, CASIA-LM/ChineseWebText2.0, wikipedia 등)의 공개는 LLM의 성능 향상에 크게 기여하고 있습니다. 특히, 다국어 지원, 다양한 작업 유형, 고품질 이미지 및 비디오 데이터 등 데이터셋의 다양성과 품질이 향상되고 있으며, 이러한 추세는 더욱 정교하고 실용적인 AI 모델 개발을 가능하게 합니다. 또한, 특정 분야(수학, 코딩, 이미지 편집)에 특화된 데이터셋의 등장은 해당 분야의 AI 발전을 더욱 가속화할 것으로 예상됩니다.
* 추론 효율성 향상: 모델 크기가 증가함에 따라 추론 효율성을 높이기 위한 노력이 활발하게 진행되고 있습니다. 8비트, 4비트 양자화, Flash Attention 2 등 다양한 기술이 활용되고 있으며, 이는 더욱 강력한 모델을 제한된 자원으로도 사용 가능하게 합니다. 향후 모바일 및 엣지 디바이스에서도 고성능 LLM의 활용이 더욱 확대될 것으로 예상됩니다.
월간 인사이트:
지난 달 대비 이번 달 트렌드 순위 변화를 분석하여, 상승세를 보이는 모델과 하락세를 보이는 모델을 구분하고, 그 원인을 파악합니다. 예를 들어, 특정 모델의 성능 개선이나 새로운 기능 추가가 순위 상승의 주요 원인일 수 있습니다. 반대로, 경쟁 모델의 등장이나 기술적 한계가 순위 하락의 원인일 수 있습니다.
새롭게 등장한 모델과 사라진 모델을 비교 분석하여, 업계의 기술적 진보 방향과 시장 수요 변화를 파악합니다. 새롭게 등장하는 모델의 특징을 분석하여, 업계의 미래 기술 발전 방향을 예측하고, 사라진 모델의 사례를 통해 시장의 요구사항 변화를 분석합니다.
코드 생성, 이미지 생성, 음성 합성 등 각 분야별 트렌드 변화를 분석하여, 각 분야의 기술적 발전 속도와 시장 경쟁 구도를 파악합니다. 특정 분야에서 기술 발전 속도가 가속화되고 있다면, 그 이유를 분석하고 미래 전망을 예측합니다. 또한, 시장 경쟁이 치열한 분야라면, 경쟁 모델들의 강점과 약점을 비교 분석하여 시장 점유율 변화를 예측합니다.
오픈소스 모델과 폐쇄형 모델의 트렌드 변화를 비교 분석하여, 오픈소스 생태계의 성장 가능성과 폐쇄형 모델의 경쟁력을 평가합니다. 오픈소스 모델의 활성화 정도와 폐쇄형 모델의 시장 지배력 변화를 분석하고, 미래 시장 구도를 예측합니다.
모델의 크기(매개변수 수), 훈련 데이터 크기, 성능 지표 등을 분석하여, 모델 성능 향상에 영향을 미치는 요인들을 파악합니다. 모델 크기와 성능 간의 상관관계, 훈련 데이터 크기의 영향, 그리고 다양한 성능 지표의 의미를 분석하여 모델 개발 방향을 제시합니다.
각 모델의 라이선스 정책과 상업적 이용 가능성을 분석하여, 업계의 비즈니스 모델 변화와 시장 진입 장벽을 파악합니다. 다양한 라이선스 정책의 특징과 장단점을 분석하고, 이를 통해 업계의 비즈니스 모델 변화와 시장 진입 장벽 변화를 예측합니다.
Hugging Face Spaces를 통해 제공되는 모델과 서비스의 트렌드 변화를 분석하여, 플랫폼 생태계의 발전 방향과 사용자 경험 변화를 파악합니다. Hugging Face Spaces에서 제공되는 모델의 종류, 사용자 평가, 그리고 서비스 기능 변화를 분석하여 플랫폼 생태계의 발전 방향과 미래 전망을 예측합니다.
데이터셋의 트렌드 변화를 분석하여, 모델 개발에 필요한 데이터의 종류, 규모, 그리고 품질 변화를 파악합니다. 다양한 데이터셋의 특징과 활용 사례를 분석하고, 이를 통해 향후 모델 개발에 필요한 데이터의 종류, 규모, 그리고 품질 변화를 예측합니다.
특정 분야(예: 코드 생성, 이미지 생성)에서 최고 성능을 보이는 모델들을 비교 분석하여, 기술적 우위를 확보하기 위한 전략을 제시합니다. 특정 분야에서 최고 성능을 보이는 모델들의 특징과 강점을 분석하고, 이를 통해 기술적 우위를 확보하기 위한 전략을 제시합니다.
최신 트렌드를 통해 나타나는 기술적 난제와 한계점을 분석하고, 미래 기술 발전 방향을 예측합니다. 최신 트렌드를 통해 나타나는 기술적 난제와 한계점을 분석하고, 이를 극복하기 위한 미래 기술 발전 방향을 예측합니다.
트렌드 분석을 통해 도출된 인사이트를 바탕으로, 특정 기업이나 연구소의 전략적 방향을 제시합니다. 트렌드 분석 결과를 바탕으로 특정 기업이나 연구소의 강점과 약점을 분석하고, 이를 바탕으로 미래 전략적 방향을 제시합니다.
트렌드 분석 결과를 토대로, 향후 업계의 성장 가능성과 투자 전략을 제시합니다. 트렌드 분석 결과를 토대로 향후 업계의 성장 가능성을 예측하고, 이를 바탕으로 투자 전략을 제시합니다.
분기 인사이트:
LLM 및 다중 모달 모델의 급속한 발전: 이번 분기 트렌드 분석 결과, 대규모 언어 모델(LLM)과 이미지, 비디오를 포함하는 다중 모달 모델의 발전 속도가 매우 빠르다는 것을 알 수 있습니다. 특히, 매개변수 수가 증가하고, 다양한 언어와 모달리티를 지원하는 모델들이 등장하고 있으며, 추론 능력과 지시 따르기 능력이 크게 향상되었습니다. 이는 Reflection Tuning, 지도 증류, 강화 학습 등의 새로운 기술 발전과 대용량 데이터셋의 활용에 기인합니다.
오픈소스 모델의 약진과 폐쇄형 모델과의 격차 축소: 과거 폐쇄형 모델이 주도하던 시장에 오픈소스 모델들이 빠르게 진출하고 있으며, 성능 면에서도 폐쇄형 모델과의 격차가 줄어들고 있습니다. Meta의 Llama 시리즈, DeepSeek, Qwen 등의 오픈소스 모델들은 매개변수 규모를 늘리고, 기능을 향상시키며 폐쇄형 모델들에 대한 경쟁력을 확보하고 있습니다. 이는 오픈소스 생태계의 활성화와 연구 개발의 가속화를 의미합니다.
다양한 전문 분야 모델의 등장: 단순 텍스트 생성을 넘어, 코드 생성, 이미지 생성, 비디오 생성, 음성 합성 등 특정 분야에 특화된 모델들이 등장하고 있습니다. 이는 모델의 전문성과 효율성을 높이고, 특정 작업에 최적화된 성능을 제공합니다. 이러한 전문 분야 모델의 발전은 각 분야의 생산성 향상과 새로운 애플리케이션 개발을 촉진할 것으로 예상됩니다.
데이터셋의 질적, 양적 성장과 다양화: 모델의 성능 향상을 뒷받침하는 고품질, 대용량 데이터셋의 등장이 두드러집니다. 다양한 언어, 모달리티, 작업 유형을 포함하는 데이터셋들이 공개되고 있으며, 이는 모델의 일반화 능력과 다양한 작업 수행 능력을 향상시킵니다. 또한, 합성 데이터를 활용한 데이터셋 생성 기술의 발전도 눈에 띄는 부분입니다.
효율성 향상을 위한 기술 발전: 모델의 크기가 증가함에 따라, 메모리 효율과 연산 속도 향상을 위한 기술들이 발전하고 있습니다. 양자화, Flash Attention 2 등의 기술은 모델의 실행 효율을 높이고, 자원 제약 환경에서도 모델을 활용할 수 있도록 합니다. 이는 모델의 접근성을 높이고, 더욱 다양한 분야에서 모델을 활용할 수 있게 합니다.
멀티모달 모델의 통합 및 상호작용 강화: 이미지, 텍스트, 음성 등 여러 모달리티를 통합하여 상호 작용하는 모델들이 등장하고 있습니다. 이는 모델의 이해력과 표현력을 향상시키고, 사용자 경험을 개선하는 데 기여합니다. 이러한 추세는 앞으로 더욱 발전하여, 인간과 AI의 자연스러운 상호 작용을 가능하게 할 것으로 예상됩니다.
윤리적 및 안전성 문제에 대한 관심 증대: AI 모델의 윤리적 문제와 안전성에 대한 관심이 증대되고 있으며, 모델의 편향성, 허위 정보 생성, 악의적 사용 가능성 등에 대한 연구와 대응이 활발해지고 있습니다. 이는 AI 기술의 발전과 함께 윤리적 고려가 더욱 중요해지고 있음을 보여줍니다.
상업적 활용 확대와 오픈소스 생태계의 성장: AI 모델의 상업적 활용이 확대되고 있으며, 오픈소스 모델과 데이터셋의 공개는 AI 기술의 발전과 산업 생태계의 성장을 촉진하고 있습니다. 이는 더욱 많은 기업과 연구자가 AI 기술을 활용하고, 새로운 애플리케이션을 개발할 수 있도록 하는 토대가 될 것입니다.
지속적인 성능 향상과 새로운 기술의 등장 예측: 향후 LLM 및 다중 모달 모델은 더욱 크고 강력해지고, 더욱 정교한 추론 능력과 지시 따르기 능력을 갖추게 될 것으로 예상됩니다. 새로운 학습 기술과 아키텍처의 등장, 더욱 정교한 데이터셋의 개발은 모델의 성능을 지속적으로 향상시킬 것입니다. 또한, 모델의 효율성과 안전성에 대한 연구도 더욱 활발해질 것으로 예상됩니다.



